소리 AI

퓨렌스 만의 기술과 노하우로 기업 맞춤 AI 솔루션을 제공합니다.

여러 명의 사람이 말하는 오디오에서 각 회자 별 발화하는 음성 구간을 timestamp로 분할

Timestamp로 어느 화자가 언제 발화했는지를 확인 가능

분할할 수 있는 화자의 수는 유동적이며 자동으로 화자의 수를 인식하여 분할

두 명 이상의 화자가 동시에 말하는 구간(overlap)에서도 각 화자를 인식하여 분할

화자
분할 모델

입력 음성 데이터에서 사람의 음성을 감지하고 화자가 바뀌는 지점을 인식해 분할하며 segmentation 수행

VAD, embedding, segmentation model 활용해 화자 분할 수행

입력 음성의 feature 추출

사람의 음성 유무 감지

음성 구간 내의 화자 변화 감지

각 음성 구간 segmentation