emDia - beszélő diarizáló
Az eszközről
Mire jó? Mit csinál?
Az emDial egy több beszélő beszédét tartalmazó hangfelvétel esetében arra a kérdésre ad választ, hogy „ki, mikor beszélt?”, ezt hívják beszélődiarizációnak. Képes tehát különbséget tenni a beszédhangok között, és felismerni, amikor az egyik beszélő átveszi a szót a másiktól.
Mi a bemenet?
A bemenet ez esetben is egy hangfájl (pl .wav, .mp3 formátumban).
Mi a kimenet?
Egy, a területen használt szabványnak megfelelő (RTTM) szövegfájl, ahonnan soronként leolvasható, hogy a felvétel egyes szakaszain melyik beszélő beszél. Az algoritmus azonban csak a beszélőváltásokat állapítja meg, a beszélők személyazonosságát nem.
Egy példa a működésre.
Példa egy kimeneti fájl egy részletére (beszélőváltás a felvétel 47. másodpercénél, egy új beszélő szólal meg):
SPEAKER SpeechNonSpeech 1 46.670 0.300 <NA> <NA> SPK01 <NA>
SPKR-INFO SpeechNonSpeech 1 <NA> <NA> <NA> unknown SPK16 <NA>
SPEAKER SpeechNonSpeech 1 46.970 2.220 <NA> <NA> SPK16 <NA>
Fejlesztőknek
Forrás | https://github.com/juditacs/hunspeech/blob/master/speaker_diarization/em-dia.py |
Forrásnyelv | Python |
Input | .wav, .mp3, vagy bármilyen egyéb, a SoX (Sound Exchange) eszköz által támogatott audio formátum |
Output | Két, a SHOUT eszköz kiemeneteként előállított, RTTM (Rich Transcription Time Marked) kompatibilis fájl, melyek a megtalált beszéd-zaj-csend, illetve a különböző beszélőkhöz tartozó audio szegmenseket írják le |
Futtatás |
python em-dia.py [-h] [-m SHOUT_MODEL] [-s SAD_FN] input_fn output_dir shout_dir
Az egyes argumentumok jelentései leolvashatóak a python em-dia.py --help parancs kiadásával. |
Licenc | GPL |