emChunk - főnévi csoport (frázis) felismerő

Az eszközről

Mire jó? Mit csinál?

Az emChunk modul a szövegben a maximális NP-ket azonosítja, vagyis olyan NP-ket, melyek nem részei egy magasabb szintű NP-nek sem.

Mi a bemenet?

Az elemzőlánc előző szintjein feldolgozott magyar nyelvű szövegekkel dolgozik, amelyek már i) szavakra és mondatokra vannak bontva, ii) a szavakhoz hozzá van rendelve a teljes morfológiai elemzésük. A chunker modul hatékony működéséhez szükségesek ezek az információk.

Mi a kimenet?

A modul a szavakra és mondatokra bontott szövegben minden tokenhez hozzárendel egy címkét, amely azt jelöli, hogy az adott szó i) eleme-e egy maximális főnévi frázisnak, ha igen, akkor ii) egy- vagy többelemű-e, ha ez utóbbi, akkor iii) a frázis kezdő, közbülső vagy záró eleme-e. A kimenetben az előző szintek elemzése is megmarad, és a chunker modul is hozzáteszi a saját címkéit.

Egy példa a működésre.
A példamondatban két maximális NP-t és két O-val jelölt elemet találunk, ez utóbbiak nem NP-k. A 'B' jelöli a frázisok kezdetét, az 'E' a frázisok végét, az 'I' pedig azt, hogy az adott token a frázis közbülső eleme.

A szállásunk egy Balaton melletti kis üdülőfaluban, Zamárdiban volt.

A B-NP
szállásunk E-NP
egy B-NP
Balaton I-NP
melletti I-NP
kis I-NP
üdülőfaluban I-NP
, I-NP
Zamárdiban E-NP
volt O
. O

Fejlesztőknek

Forrás https://github.com/ppke-nlpg/HunTag3
Forrásnyelv Python 3
Input formátum UTF-8 karakterkódolású sima szöveg fájl, egy sor-egy szó formátum, a mondathatárokat egy üres sor jelöli, az első oszlopban maga a szövegszó szerepel, minden további annotáció tabbal elválasztott oszlopokban van hozzáadva, az utolsó oszlop tartalmazza a chunk címkéket.
Output formátum UTF-8 karakterkódolású sima szöveg fájl, egy sor-egy szó formátum, a mondathatárokat egy üres sor jelöli, az első oszlopban maga a szövegszó szerepel, minden további annotáció tabbal elválasztott oszlopokban van hozzáadva, az utolsó oszlop tartalmazza a chunk címkéket.
Futtatás Lásd a README-ben: https://github.com/ppke-nlpg/HunTag3
Licenc GNU Lesser General Public License v3.0