emTag - egyértelműsítő
Az eszközről
Mire jó? Mit csinál?
A program a betanult anyag alapján meghatározza a korábban tokenekre bontott mondat minden tokenjének szótövét és szófaját, majd ezt címkével jelöli is.
Mi a bemenet?
A program minden mondatot külön kezel, a bemenet így tokenekre bontott mondatok sorozata.
Mi a kimenet?
A program kimenetként a bemeneti tokenek és az egyes tokenekhez rendelt szótőt és szófaji címkéket adja.
Egy példa a működésre.
A kastély nem vár.
A# | a# | [/Det|art.Def] |
kastély# | kastély# | [/N][Nom] |
nem# | nem# | [/Adv] |
vár# | vár# | [/N][Nom] |
.# | .# | [/PUNCT] |
A kastély nem vár senkire.
A# | a# | [/Det|art.Def] |
kastély# | kastély# | [/N][Nom] |
nem# | nem# | [/Adv] |
vár# | vár# | [/V][Prs.NDef.3Sg] |
senkire# | senki# | [/N|Pro][Subl] |
.# | .# | [/PUNCT] |
Fejlesztőknek
Forrás | https://github.com/ppke-nlpg/purepos |
Forrásnyelv | Java |
Input | Soronként egy mondat, a tokenek szóközzel elválasztva. |
Output | Ugyanaz, mint az input, de a tokenekhez # jellel elválasztva hozzá van fűzve a szótő és a címke. |
Futtatás | java -jar purepos-<version>.jar tag -m betanított.model [-i input.txt] [-o output.txt] |
Licenc | LGPL v3.0 |
További információk | Dependencia a fordításhoz: maven 2. |