emChunk - főnévi csoport (frázis) felismerő
Az eszközről
Mire jó? Mit csinál?
Az emChunk modul a szövegben a maximális NP-ket azonosítja, vagyis olyan NP-ket, melyek nem részei egy magasabb szintű NP-nek sem.
Mi a bemenet?
Az elemzőlánc előző szintjein feldolgozott magyar nyelvű szövegekkel dolgozik, amelyek már i) szavakra és mondatokra vannak bontva, ii) a szavakhoz hozzá van rendelve a teljes morfológiai elemzésük. A chunker modul hatékony működéséhez szükségesek ezek az információk.
Mi a kimenet?
A modul a szavakra és mondatokra bontott szövegben minden tokenhez hozzárendel egy címkét, amely azt jelöli, hogy az adott szó i) eleme-e egy maximális főnévi frázisnak, ha igen, akkor ii) egy- vagy többelemű-e, ha ez utóbbi, akkor iii) a frázis kezdő, közbülső vagy záró eleme-e. A kimenetben az előző szintek elemzése is megmarad, és a chunker modul is hozzáteszi a saját címkéit.
Egy példa a működésre.
A példamondatban két maximális NP-t és két O-val jelölt elemet találunk, ez utóbbiak nem NP-k. A 'B' jelöli a frázisok kezdetét, az 'E' a frázisok végét, az 'I' pedig azt, hogy az adott token a frázis közbülső eleme.A szállásunk egy Balaton melletti kis üdülőfaluban, Zamárdiban volt.
| A | B-NP | 
| szállásunk | E-NP | 
| egy | B-NP | 
| Balaton | I-NP | 
| melletti | I-NP | 
| kis | I-NP | 
| üdülőfaluban | I-NP | 
| , | I-NP | 
| Zamárdiban | E-NP | 
| volt | O | 
| . | O | 
Fejlesztőknek
| Forrás | https://github.com/ppke-nlpg/HunTag3 | 
| Forrásnyelv | Python 3 | 
| Input formátum | UTF-8 karakterkódolású sima szöveg fájl, egy sor-egy szó formátum, a mondathatárokat egy üres sor jelöli, az első oszlopban maga a szövegszó szerepel, minden további annotáció tabbal elválasztott oszlopokban van hozzáadva, az utolsó oszlop tartalmazza a chunk címkéket. | 
| Output formátum | UTF-8 karakterkódolású sima szöveg fájl, egy sor-egy szó formátum, a mondathatárokat egy üres sor jelöli, az első oszlopban maga a szövegszó szerepel, minden további annotáció tabbal elválasztott oszlopokban van hozzáadva, az utolsó oszlop tartalmazza a chunk címkéket. | 
| Futtatás | Lásd a README-ben: https://github.com/ppke-nlpg/HunTag3 | 
| Licenc | GNU Lesser General Public License v3.0 | 
