emSad - beszéddetektáló
Az eszközről
Mire jó? Mit csinál?
A Speech Activity Detection (SAD) modul beszédszegmentálást végez audió fájlokon. A fájlokat háromféle szegmensre bontja: beszéd, csend és zaj. A beszéddetekció első lépése a többi beszédfeldolgozási műveletnek.
Mi a bemenet?
.wav, .mp3 vagy .raw kiterjesztésű audió fájl. .raw fájlt esetén gondoskodni kell a megfelelő paraméterekről (16 kHz, 16 bit little endian).
Mi a kimenet?
A modul háromféle kimenetet tud készíteni: szegmensfájl (szegmensek és hosszuk felsorolása) SHOUT formátumban, szegmensekre darabolt audió, illetve szegmenstípusonként egyesített beszéd, csend, és zajfájl.
Egy példa a működésre.
Bemenet: rádióadás
Kimenet: SPEAKER SpeechNonSpeech 5 1.220 1.040 <NA> <NA> SPEECH <NA> SPEAKER SpeechNonSpeech 5 2.260 3.950 <NA> <NA> SOUND <NA> SPEAKER SpeechNonSpeech 5 6.210 0.750 <NA> <NA> SPEECH <NA>
Fejlesztőknek
Forrás | https://github.com/juditacs/hunspeech/blob/master/speech_activity_detection/sad.py |
Forrásnyelv | Python 3 |
Input | .wav, .mp3, vagy bármilyen egyéb, a SoX (Sound Exchange) eszköz által támogatott audio formátum |
Output | Két, a SHOUT eszköz kiemeneteként előállított, RTTM (Rich Transcription Time Marked) kompatibilis fájl, és/vagy szegmensenként egy-egy audió fájl (wav), és/vagy szegmensítpusonként egy egyesített audió fájl (wav) |
Futtatás | python3 sad.py -i input.wav -m shout.sad (ld. még --help) |
Licenc | GPL |