emDia - beszélő diarizáló

Az eszközről

Mire jó? Mit csinál?

Az emDial egy több beszélő beszédét tartalmazó hangfelvétel esetében arra a kérdésre ad választ, hogy „ki, mikor beszélt?”, ezt hívják beszélődiarizációnak. Képes tehát különbséget tenni a beszédhangok között, és felismerni, amikor az egyik beszélő átveszi a szót a másiktól.

Mi a bemenet?

A bemenet ez esetben is egy hangfájl (pl .wav, .mp3 formátumban).

Mi a kimenet?

Egy, a területen használt szabványnak megfelelő (RTTM) szövegfájl, ahonnan soronként leolvasható, hogy a felvétel egyes szakaszain melyik beszélő beszél. Az algoritmus azonban csak a beszélőváltásokat állapítja meg, a beszélők személyazonosságát nem.

Egy példa a működésre.

Példa egy kimeneti fájl egy részletére (beszélőváltás a felvétel 47. másodpercénél, egy új beszélő szólal meg):

SPEAKER SpeechNonSpeech 1 46.670 0.300 <NA> <NA> SPK01 <NA>
SPKR-INFO SpeechNonSpeech 1 <NA> <NA> <NA> unknown SPK16 <NA>
SPEAKER SpeechNonSpeech 1 46.970 2.220 <NA> <NA> SPK16 <NA>


Fejlesztőknek

Forrás https://github.com/juditacs/hunspeech/blob/master/speaker_diarization/em-dia.py
Forrásnyelv Python
Input .wav, .mp3, vagy bármilyen egyéb, a SoX (Sound Exchange) eszköz által támogatott audio formátum
Output Két, a SHOUT eszköz kiemeneteként előállított, RTTM (Rich Transcription Time Marked) kompatibilis fájl, melyek a megtalált beszéd-zaj-csend, illetve a különböző beszélőkhöz tartozó audio szegmenseket írják le
Futtatás python em-dia.py [-h] [-m SHOUT_MODEL] [-s SAD_FN] input_fn output_dir shout_dir
Az egyes argumentumok jelentései leolvashatóak a python em-dia.py --help parancs kiadásával.
Licenc GPL