화자 분리

소리 AI

NVIDIA NeMo 기반 / Multi-Scale 분석

발화자 기준으로

음성 데이터를 분석하는

AI 화자분리 기술

STT를 넘어, 누가 말했는지까지 구분합니다.
상담 분석, QA, 민원 대응, 분쟁 확인, 회의록 자동화까지
음성 데이터를 실행 가능한 정보로 전환합니다.

99%+

화자 식별 정확도

0.1s

최소 분석 단위

8kHz

저대역폭 대응

30~50%

업무 시간 절감

화자분리란 무엇인가

음성 데이터에서 화자를 식별하고 구분하는 AI 기술의 정의와 필요성

기존 기술

STT (음성 인식)

Speech-to-Text

STT의 한계

발화자가 누구인지 구분하지 못해 상담 분석, 민원 대응에서 활용 한계

퓨렌스 기술

Speaker Diarization

화자분리의 가치

발화자 구분으로 상담 분석, 민원 대응, 분쟁 확인, 회의록 작성 등 활용 가능

화자분리 처리 파이프라인

6단계 프로세스를 통해 음성 데이터를 정밀하게 분석하고 화자를 구분하는 기술 구조

오디오 입력

음성 파일 수신
품질 검증
포맷 변환

MP3

M4A

WAV

VAD

음성/비음성 구분
정적/동적 임계값
노이즈 제거

Voice Activity Detection

TitaNet

음성 특징 추출
임베딩 생성
화자 프로필

Speaker Embedding

Multi-Scale

여러 길이 구간
동적 가중치
전환 타이밍

4개 이상 스케일

MSDD

화자 구분
라벨 부여
시간 정보

Multi-Scale Diarization

출력

품질 검증
결과 제공
포맷 변환

Output

실제 음성이 존재하는 구간만 선별하여 분석 효율을 높이고, 불필요한 구간은 제거합니다. 정적/동적 임계값을 활용해 다양한 환경의 노이즈를 처리합니다.

각 화자의 고유한 음성 특징을 임베딩 형태로 추출하여 화자 식별을 가능하게 합니다. 화자 프로필을 생성하고 DB와 연계하여 정확한 매칭을 수행합니다.

여러 길이의 구간을 동시에 분석하여 짧은 발화와 화자 전환을 정밀하게 포착합니다. 4개 이상의 스케일과 동적 가충치로 최적 결과를 산출합니다.

핵심기술

Multi – Scale 분석 방식

여러 길이의 관점을 동시에 활용해 품질과 해상도를 함께 확보
MSDD는 하나의 길이만 보지 않고 여러 개의 Scale을 동시에 활용합니다.
긴 구간은 화자의 고유 특징을 더 안정적으로 파악하고, 짧은 구간은 화자 전환 시점과 짧은 발화를 더 정밀하게 포작합니다.

Multi-Scale 분석 구조

동적 가중치 분배

화자분리 도입사례

직군별 음성 데이터 활용 및 개선 사례

화자분리는 다양한 직군에서 “발화자 기준 데이터 활용"을 가능하게 하는 핵심 기술입니다.

고객센터 QA

QA시간 30~50%단축

상담사와 고객 발화 자동 분리
STT + 화자분리 기반 상담 이력 분석

금융/영업

분쟁 대응 30~40% 단축

고객 VS 직원 발화 구분 저장
주요 설명 구간 및 동의 여부 추적

민원 대응

사실 확인 40% 이상 단축

발화자 기준 녹취 기록 및 검색
키워드 기반 빠른 이력 조회

내부 회의

작성 시간 50% 이상 절감

회의 참여자별 발화 자동 구분
STT 기반 회의록 자동 생성

화자분리 도입 효과

4개 영역별 KPI 중심의 도입 효과 분석

화자분리는 녹취를 저장하는 기술이 아니라 데이터를 분석하고 활용하는 구조로 전환시키는 핵심 요소입니다.

1. 운영 효율 개선

고객센터 및 운영 조직

업무 처리 시간 30~50% 절감

2. 컴플라이언스

금융 및 영업 조직

리스크 대응 및 정확도 향상

3. 민원 대응 및 신뢰도 향상

공공 및 CS 조직

신뢰도 및 대응력 강화

4. 업무 자동화 및 AI 확장

전 조직 공통

AI 활용 데이터로 전환

납품사례

퓨렌스 화자분리 및 AI 회의록 실제 납품 이력

우리은행

태블릿 음성 화자분리시스템

24년 07월

도입 배경

금융 상담 시 상담사와 고객 발화 구분이 필요하여
화자분리 솔루션 도입

적용 방식

불완전판매 모니터링, 상담 품질 관리, 민원 대응

MoAI Note

클라우드 서비스

25년 06월

도입 배경

퓨렌스 자체 개발한 솔루션으로 클라우드를 통해 제공

적용 방식

클라우드 기반 회의록, 음성 데이터 분석, 자동화

LG전자

AI 회의록 솔루션 납품

25년 11월

도입 배경

기업 내 엘지니와 연동하여 회의록 자동 생성 및 화자 구분이 필요

적용 방식

내부 회의록, 발언자 구분, 주요 내용 추출

NH캐피탈

AI 회의록 솔루션 납품

26년 03월

도입 배경

금융 상담 및 회의에서 화자 구분 및 자동 기록 필요

적용 방식

상담 기록, 회의록, 컴플라이언스 관리

Speaker Diarization은

선택 기능이 아니라,

음성 AI 활용의 핵심 인프라입니다

퓨렌스 화자분리는 상담, 회의, 민원, 분쟁 대응 영역에서 음성 데이터를
더 정교하고 활용도 높은 정보로 전환합니다.

발화자 구분은 출발점

정확한 발화자 구분은
음성 데이터 활용의 출발점입니다

실제 업무 환경 최적화

퓨렌스는 실제 업무 환경에
최적화된 화자분리 기술을 제공합니다

음성 데이터를 정교한 정보로

음성 데이터를 더 정교하고
활용도 높은 정보로 전환합니다