emNer - tulajdonnév-felismerő

Az eszközről

Mire jó? Mit csinál?

Az emNer automatikus tulajdonnév-felismerő rendszer azonosítja a folyó szövegben található tulajdonneveket, és besorolja őket az előre meghatározott névkategóriák valamelyikébe (személynév, intézménynév, földrajzi név, egyéb).

Mi a bemenet?

Az elemzőlánc előző szintjein feldolgozott magyar nyelvű szövegekkel dolgozik, amelyek már i) szavakra és mondatokra vannak bontva, ii) a szavakhoz hozzá van rendelve a tövük és a teljes morfológiai elemzésük. A tulajdonnév-felismerő modul hatékony működéséhez szükségesek ezek az információk.

Mi a kimenet?

A modul a szavakra és mondatokra bontott szöveg minden egyes tokenjéhez hozzárendel egy címkét, ami megmondja, hogy az adott szó i) tulajdonnév-e, ha igen, akkor ii) milyen kategóriájú tulajdonnév, iii) egy- vagy többelemű-e, ha ez utóbbi, akkor iv) a tulajdonnév kezdő, közbülső vagy záró eleme-e.
A kimenetben az előző szintek elemzése is megmarad, és a tulajdonnév-felismerő modul is hozzáteszi a saját címkéit.

Egy példa a működésre.

A példamondatban meg van jelölve minden tokenaz alábbi címkékkel: 0 = nem tulajdonnév, B-PER: egy többelemű személynév első eleme, E-PER: egy többelemű személynév utolsó eleme, B-ORG: egy többelemű intézmény első eleme, E-ORG: egy többelemű intézménynév utolsó eleme, 1-ORG: egyelemű intézménynév.

[...] közölte Wolf László, az OTP Bank vezérigazgató-helyettese az MTI érdeklődésére.

közölte 0
Wolf B-PER
László E-PER
, 0
az 0
OTP B-ORG
Bank E-ORG
vezérigazgató-helyettese 0
az 0
MTI 1-ORG
érdeklődésére 0
. 0

Fejlesztőknek

Forrás https://github.com/ppke-nlpg/HunTag3
Forrásnyelv Python 3
Input UTF-8 karakterkódolású sima szövegfájl egy sor - egy szó formátumban, a mondathatárokat egy üres sor jelöli, az első oszlopban maga a szövegszó szerepel, minden további annotáció tabbal elválasztott oszlopokban van hozzáadva.
Output Ugyanaz, mint az input, melynek utolsó oszlopa tartalmazza a tulajdonnév-címkéket.
Futtatás Lásd a README-ben.
Licenc GNU Lesser General Public License v3.0