emLam - nyelvmodell
Az eszközről
Mire jó? Mit csinál?
A nyelvmodellezés fő feladata más nyelvi eszközöket támogatni. Fő célja, hogy megmondja, egy-egy szó, mondat, vagy egy egész szöveg mennyire „magyaros”, mennyire „mondanak ilyesmit az emberek”. Hasznos például beszédfelismerésben, ahol több alternatíva közül segít kiválasztani a legvalószínűbbet (pl. „a hosszú béke” vagy „a hosszú béka”). Hasonló modelleket használnak a szöveges keresők az éppen beírthoz hasonló keresőkifejezések listázásához. A modellek ezen kívül alkalmazhatók szövegek generálásához is.
Mi a bemenet?
Ha csak azt szeretnénk tudni, hogy az általunk írt szöveg mennyire hasonlít például a Magyar Nemzeti Szövegtárban megtalálhatókra, csak írjunk be neki egy mondatot, vagy bekezdést.
Mi a kimenet?
A kimenet alapesetben a szövegünk valószínűsége.
Egy példa a működésre.
Ha például a modell szerint egy az egymillióban, akkor átlagosan egymillióból egy pont a mi mondatunk lesz. Generáló üzemmódban a modell szöveget is tud írni, különösebb konzisztenciát elvárni tőle azonban nem érdemes.
Demo
Start typing something in the text field below. Every time you press the space key a word list will appear offering possible ways to continue the text typed in so far. You can choose from among the words offered by clicking on them, or you may continue typing.
Javaslatok:
Fejlesztőknek
Forrás | egy deglutenizált (ragok külön tokenek) 5-gram modell |
Forrásnyelv | |
Input | Soronként egy mondat, a tokenek között space (tokenizálásra használható az emToken). A fenti változatnál a lemma (esetleg képzőkkel együtt) és a ragok külön tokenek. |
Output | A szövegünk valószínűsége, opcionálisan mondatokra, szavakra lebontva. |
Futtatás |
Az SRILM toolkit ngram nevű programjával:
ngram -order 5 -lm lemmad_u50_krs.lm5.gz -ppl <szöveg file> Paraméterek: -order 5: 5-grammokat használjon (jelenleg ez a legnagyobb); -lm lemmad_u50_krs.lm5.gz: a fenti "gluténmentes" modellt használja, ami az 50-nél nagyobb előfordulású szavakon tanult; -ppl <szöveg file>: itt a mi szövegfile-unkat adjuk meg |
Licenc | nyílt CC BY |