emLam - nyelvmodell

Az eszközről

Mire jó? Mit csinál?

A nyelvmodellezés fő feladata más nyelvi eszközöket támogatni. Fő célja, hogy megmondja, egy-egy szó, mondat, vagy egy egész szöveg mennyire „magyaros”, mennyire „mondanak ilyesmit az emberek”. Hasznos például beszédfelismerésben, ahol több alternatíva közül segít kiválasztani a legvalószínűbbet (pl. „a hosszú béke” vagy „a hosszú béka”). Hasonló modelleket használnak a szöveges keresők az éppen beírthoz hasonló keresőkifejezések listázásához. A modellek ezen kívül alkalmazhatók szövegek generálásához is.

Mi a bemenet?

Ha csak azt szeretnénk tudni, hogy az általunk írt szöveg mennyire hasonlít például a Magyar Nemzeti Szövegtárban megtalálhatókra, csak írjunk be neki egy mondatot, vagy bekezdést.

Mi a kimenet?

A kimenet alapesetben a szövegünk valószínűsége.

Egy példa a működésre.

Ha például a modell szerint egy az egymillióban, akkor átlagosan egymillióból egy pont a mi mondatunk lesz. Generáló üzemmódban a modell szöveget is tud írni, különösebb konzisztenciát elvárni tőle azonban nem érdemes.

Demo

Start typing something in the text field below. Every time you press the space key a word list will appear offering possible ways to continue the text typed in so far. You can choose from among the words offered by clicking on them, or you may continue typing.

Javaslatok:

Fejlesztőknek

Forrás egy deglutenizált (ragok külön tokenek) 5-gram modell
Forrásnyelv
Input Soronként egy mondat, a tokenek között space (tokenizálásra használható az emToken). A fenti változatnál a lemma (esetleg képzőkkel együtt) és a ragok külön tokenek.
Output A szövegünk valószínűsége, opcionálisan mondatokra, szavakra lebontva.
Futtatás Az SRILM toolkit ngram nevű programjával:
ngram -order 5 -lm lemmad_u50_krs.lm5.gz -ppl <szöveg file>
Paraméterek: -order 5: 5-grammokat használjon (jelenleg ez a legnagyobb); -lm lemmad_u50_krs.lm5.gz: a fenti "gluténmentes" modellt használja, ami az 50-nél nagyobb előfordulású szavakon tanult; -ppl <szöveg file>: itt a mi szövegfile-unkat adjuk meg
Licenc nyílt CC BY