emNer - tulajdonnév-felismerő
Az eszközről
Mire jó? Mit csinál?
Az emNer automatikus tulajdonnév-felismerő rendszer azonosítja a folyó szövegben található tulajdonneveket, és besorolja őket az előre meghatározott névkategóriák valamelyikébe (személynév, intézménynév, földrajzi név, egyéb).
Mi a bemenet?
Az elemzőlánc előző szintjein feldolgozott magyar nyelvű szövegekkel dolgozik, amelyek már i) szavakra és mondatokra vannak bontva, ii) a szavakhoz hozzá van rendelve a tövük és a teljes morfológiai elemzésük. A tulajdonnév-felismerő modul hatékony működéséhez szükségesek ezek az információk.
Mi a kimenet?
A modul a szavakra és mondatokra bontott szöveg minden egyes tokenjéhez hozzárendel egy címkét, ami megmondja,
hogy az adott szó i) tulajdonnév-e, ha igen, akkor ii) milyen kategóriájú tulajdonnév, iii) egy- vagy többelemű-e,
ha ez utóbbi, akkor iv) a tulajdonnév kezdő, közbülső vagy záró eleme-e.
A kimenetben az előző szintek elemzése is megmarad, és a tulajdonnév-felismerő modul is hozzáteszi a saját címkéit.
Egy példa a működésre.
A példamondatban meg van jelölve minden tokenaz alábbi címkékkel: 0 = nem tulajdonnév, B-PER: egy többelemű személynév első eleme, E-PER: egy többelemű személynév utolsó eleme, B-ORG: egy többelemű intézmény első eleme, E-ORG: egy többelemű intézménynév utolsó eleme, 1-ORG: egyelemű intézménynév.
[...] közölte Wolf László, az OTP Bank vezérigazgató-helyettese az MTI érdeklődésére.
közölte | 0 |
Wolf | B-PER |
László | E-PER |
, | 0 |
az | 0 |
OTP | B-ORG |
Bank | E-ORG |
vezérigazgató-helyettese | 0 |
az | 0 |
MTI | 1-ORG |
érdeklődésére | 0 |
. | 0 |
Fejlesztőknek
Forrás | https://github.com/ppke-nlpg/HunTag3 |
Forrásnyelv | Python 3 |
Input | UTF-8 karakterkódolású sima szövegfájl egy sor - egy szó formátumban, a mondathatárokat egy üres sor jelöli, az első oszlopban maga a szövegszó szerepel, minden további annotáció tabbal elválasztott oszlopokban van hozzáadva. |
Output | Ugyanaz, mint az input, melynek utolsó oszlopa tartalmazza a tulajdonnév-címkéket. |
Futtatás | Lásd a README-ben. |
Licenc | GNU Lesser General Public License v3.0 |