NVIDIA NeMo 기반 / Multi-Scale 분석
화자분리란 무엇인가
음성 데이터에서 화자를 식별하고 구분하는 AI 기술의 정의와 필요성
기존 기술
STT (음성 인식)
Speech-to-Text
STT의 한계
발화자가 누구인지 구분하지 못해 상담 분석, 민원 대응에서 활용 한계
퓨렌스 기술
화자 분리
Speaker Diarization
화자분리의 가치
발화자 구분으로 상담 분석, 민원 대응, 분쟁 확인, 회의록 작성 등 활용 가능
화자분리 처리 파이프라인
6단계 프로세스를 통해 음성 데이터를 정밀하게 분석하고 화자를 구분하는 기술 구조
오디오 입력
음성 파일 수신
품질 검증
포맷 변환
MP3
M4A
WAV
VAD
음성/비음성 구분
정적/동적 임계값
노이즈 제거
Voice Activity Detection
TitaNet
음성 특징 추출
임베딩 생성
화자 프로필
Speaker Embedding
Multi-Scale
여러 길이 구간
동적 가중치
전환 타이밍
4개 이상 스케일
MSDD
화자 구분
라벨 부여
시간 정보
Multi-Scale Diarization
출력
품질 검증
결과 제공
포맷 변환
Output
실제 음성이 존재하는 구간만 선별하여 분석 효율을 높이고, 불필요한 구간은 제거합니다. 정적/동적 임계값을 활용해 다양한 환경의 노이즈를 처리합니다.
각 화자의 고유한 음성 특징을 임베딩 형태로 추출하여 화자 식별을 가능하게 합니다. 화자 프로필을 생성하고 DB와 연계하여 정확한 매칭을 수행합니다.
여러 길이의 구간을 동시에 분석하여 짧은 발화와 화자 전환을 정밀하게 포착합니다. 4개 이상의 스케일과 동적 가충치로 최적 결과를 산출합니다.
핵심기술
Multi-Scale 분석 구조
실제 음성이 존재하는 구간만 선별하여 분석 효율을 높이고, 불필요한 구간은 제거합니다. 정적/동적 임계값을 활용해 다양한 환경의 노이즈를 처리합니다.
동적 가중치 분배
화자분리 도입사례
직군별 음성 데이터 활용 및 개선 사례
화자분리는 다양한 직군에서 “발화자 기준 데이터 활용"을 가능하게 하는 핵심 기술입니다.
고객센터 QA
QA시간 30~50%단축
상담사와 고객 발화 자동 분리
STT + 화자분리 기반 상담 이력 분석
금융/영업
분쟁 대응 30~40% 단축
고객 VS 직원 발화 구분 저장
주요 설명 구간 및 동의 여부 추적
민원 대응
사실 확인 40% 이상 단축
발화자 기준 녹취 기록 및 검색
키워드 기반 빠른 이력 조회
내부 회의
작성 시간 50% 이상 절감
회의 참여자별 발화 자동 구분
STT 기반 회의록 자동 생성
화자분리 도입 효과
4개 영역별 KPI 중심의 도입 효과 분석
화자분리는 녹취를 저장하는 기술이 아니라 데이터를 분석하고 활용하는 구조로 전환시키는 핵심 요소입니다.
1. 운영 효율 개선
고객센터 및 운영 조직
업무 처리 시간 30~50% 절감
2. 컴플라이언스
금융 및 영업 조직
리스크 대응 및 정확도 향상
3. 민원 대응 및 신뢰도 향상
공공 및 CS 조직
신뢰도 및 대응력 강화
4. 업무 자동화 및 AI 확장
전 조직 공통
AI 활용 데이터로 전환
납품사례
퓨렌스 화자분리 및 AI 회의록 실제 납품 이력
우리은행
태블릿 음성 화자분리시스템
24년 07월
도입 배경
적용 방식
MoAI Note
클라우드 서비스
25년 06월
도입 배경
적용 방식
LG전자
AI 회의록 솔루션 납품
25년 11월
도입 배경
적용 방식
NH캐피탈
AI 회의록 솔루션 납품
26년 03월
도입 배경
적용 방식