emSad - beszéddetektáló

Az eszközről

Mire jó? Mit csinál?

A Speech Activity Detection (SAD) modul beszédszegmentálást végez audió fájlokon. A fájlokat háromféle szegmensre bontja: beszéd, csend és zaj. A beszéddetekció első lépése a többi beszédfeldolgozási műveletnek.

Mi a bemenet?

.wav, .mp3 vagy .raw kiterjesztésű audió fájl. .raw fájlt esetén gondoskodni kell a megfelelő paraméterekről (16 kHz, 16 bit little endian).

Mi a kimenet?

A modul háromféle kimenetet tud készíteni: szegmensfájl (szegmensek és hosszuk felsorolása) SHOUT formátumban, szegmensekre darabolt audió, illetve szegmenstípusonként egyesített beszéd, csend, és zajfájl.

Egy példa a működésre.

Bemenet: rádióadás
Kimenet: SPEAKER SpeechNonSpeech 5 1.220 1.040 <NA> <NA> SPEECH <NA> SPEAKER SpeechNonSpeech 5 2.260 3.950 <NA> <NA> SOUND <NA> SPEAKER SpeechNonSpeech 5 6.210 0.750 <NA> <NA> SPEECH <NA>


Fejlesztőknek

Forrás https://github.com/juditacs/hunspeech/blob/master/speech_activity_detection/sad.py
Forrásnyelv Python 3
Input .wav, .mp3, vagy bármilyen egyéb, a SoX (Sound Exchange) eszköz által támogatott audio formátum
Output Két, a SHOUT eszköz kiemeneteként előállított, RTTM (Rich Transcription Time Marked) kompatibilis fájl, és/vagy szegmensenként egy-egy audió fájl (wav), és/vagy szegmensítpusonként egy egyesített audió fájl (wav)
Futtatás python3 sad.py -i input.wav -m shout.sad (ld. még --help)
Licenc GPL