emChunk - főnévi csoport (frázis) felismerő
Az eszközről
Mire jó? Mit csinál?
Az emChunk modul a szövegben a maximális NP-ket azonosítja, vagyis olyan NP-ket, melyek nem részei egy magasabb szintű NP-nek sem.
Mi a bemenet?
Az elemzőlánc előző szintjein feldolgozott magyar nyelvű szövegekkel dolgozik, amelyek már i) szavakra és mondatokra vannak bontva, ii) a szavakhoz hozzá van rendelve a teljes morfológiai elemzésük. A chunker modul hatékony működéséhez szükségesek ezek az információk.
Mi a kimenet?
A modul a szavakra és mondatokra bontott szövegben minden tokenhez hozzárendel egy címkét, amely azt jelöli, hogy az adott szó i) eleme-e egy maximális főnévi frázisnak, ha igen, akkor ii) egy- vagy többelemű-e, ha ez utóbbi, akkor iii) a frázis kezdő, közbülső vagy záró eleme-e. A kimenetben az előző szintek elemzése is megmarad, és a chunker modul is hozzáteszi a saját címkéit.
Egy példa a működésre.
A példamondatban két maximális NP-t és két O-val jelölt elemet találunk, ez utóbbiak nem NP-k. A 'B' jelöli a frázisok kezdetét, az 'E' a frázisok végét, az 'I' pedig azt, hogy az adott token a frázis közbülső eleme.A szállásunk egy Balaton melletti kis üdülőfaluban, Zamárdiban volt.
A | B-NP |
szállásunk | E-NP |
egy | B-NP |
Balaton | I-NP |
melletti | I-NP |
kis | I-NP |
üdülőfaluban | I-NP |
, | I-NP |
Zamárdiban | E-NP |
volt | O |
. | O |
Fejlesztőknek
Forrás | https://github.com/ppke-nlpg/HunTag3 |
Forrásnyelv | Python 3 |
Input formátum | UTF-8 karakterkódolású sima szöveg fájl, egy sor-egy szó formátum, a mondathatárokat egy üres sor jelöli, az első oszlopban maga a szövegszó szerepel, minden további annotáció tabbal elválasztott oszlopokban van hozzáadva, az utolsó oszlop tartalmazza a chunk címkéket. |
Output formátum | UTF-8 karakterkódolású sima szöveg fájl, egy sor-egy szó formátum, a mondathatárokat egy üres sor jelöli, az első oszlopban maga a szövegszó szerepel, minden további annotáció tabbal elválasztott oszlopokban van hozzáadva, az utolsó oszlop tartalmazza a chunk címkéket. |
Futtatás | Lásd a README-ben: https://github.com/ppke-nlpg/HunTag3 |
Licenc | GNU Lesser General Public License v3.0 |