소리 AI
단순 녹음이 아닌
‘누가 말했는지 식별하는 기술’
일치하는지를 AI가 판단하는 기술입니다.
화자 검증은 오디오 내의 목소리가 미리 등록된
특정인의 목소리와 일치하는지를 AI가 판단하는 기술입니다.
단순히 사람의 말소리를 텍스트로 바꾸는 것을 넘어,
그 목소리의 ‘주인’이 누구인지 확인하여 회의록 작성 시
“참석자1, 2″가 아닌 “김철수 부장, 이영희 대리” 와 같이 실명으로 기록해 줍니다.
목소리의 고유한 신분증, ‘성문(Voiceprint)’
지문처럼 사람마다 다른 목소리의 특징을 데이터화
사람마다 지문이 다르듯, 목소리에도 고유한 특징이 있습니다.
이를 ‘성문(Voiceprint)’이라고 합니다.
사용자가 음성을 등록하면, AI는 목소리의 높낮이, 톤, 억양, 발성 속도 등 수백 가지 특징을 추출하여
고차원의 벡터 데이터(Embedding)로 변환해 저장합니다.
이것이 바로 화자를 식별하는 디지털 신분증 역할을 합니다.
데이터로 입증된 고성능 AI 엔진
최신 아키텍처와 압도적인 학습량으로
업계 최저 수준의 오류율(EER)을 달성
우리의 AI는 단순히 짧은 소리만 듣고 판단하지 않습니다. 긴 문맥(Context)을 이해하는
최신 신경망 기술을 적용하여, 짧은 발화에서도 화자의 특징을 놓치지 않고 정확하게 잡아냅니다.
기존 모델 대비 방대한 파라미터를 학습했습니다.
덕분에 사무실의 백색 소음이 있거나 여러 사람의 목소리가 섞이는 복잡한 회의 환경에서도
목소리 특징을 선명하게 추출해냅니다. 글로벌 벤치마크 데이터셋 테스트 결과, 화자 검증의 핵심 지표인
등가 오류율(EER)에서 기존 베이스라인 모델 대비 월등히 낮은 수치를 기록했습니다.
이는 오인식 가능성을 획기적으로 줄여 보안성과 신뢰성을 확보했음을 의미합니다.
수학적 정밀함, 빈틈없는 검증 로직
AI가 추출한 데이터를 수학적으로
정밀 분석하여 99%의 확신으로 화자를 확정
AI가 추출한 고유의 성문 벡터는 정교한 수학적 계산을 거칩니다.
등록된 사용자의 데이터와 입력된 음성 사이의 각도를 계산하여 ‘얼마나 똑같은지’를 수치화합니다.
단순히 비슷하다고 통과시키지 않습니다.
최적화된 임계값(Threshold) 시스템을 적용하여, 유사도 점수가 기준치를 넘을 때만 해당 화자로 확정합니다.
이 과정을 통해 등록된 팀원의 목소리는 정확히 찾아내고, 등록되지 않은 외부인의 목소리는 명확하게 걸러냅니다.
완벽한 회의 기록의 완성: 실명 기반 화자 분리(Diarization)
누가, 언제, 무슨 말을 했는지 자동으로 정리
화자 검증을 통해 식별된 정보를 바탕으로 오디오 전체를 구간별로 나눕니다.
스크립트의 모든 대화 앞에 발화자의 실명이 자동으로 붙습니다.
“이 말 누가 했지?”를 다시 찾아볼 필요 없이, 회의의 흐름과 발언의 책임을 명확하게 파악할 수 있습니다.