emDep - függőségi elemző

Az eszközről

Mire jó? Mit csinál?

Az eszköz a mondatok szerkezeti egységei (szavak, többszavas kifejezések) közötti függőségi viszonyokat tárja fel.

Mi a bemenet?

Olyan szöveg, amelyet előzetesen tokenekre bontottak, és morfológiailag egyértelműsítettek.

Mi a kimenet?

Olyan mondatok, amelynek szavai ún. elemzési fába vannak rendezve, amelyek bemutatják a mondat elemei közötti függőségi viszonyokat. Minden tokenhez hozzá van rendelve a megfelelő elemzési címke és a szülő csomópontja, a fej.

Egy példa a működésre.

Az exkatonát kórházba szállították, ahol két műtétet is végrehajtottak rajta.

1 Az az DET Definite=Def|PronType=Art 2 DET
2 exkatonát exkatona NOUN Case=Acc|Number=Sing 4 OBJ
3 kórházba kórház PROPN Case=Ill|Number=Sing 4 OBL
4 szállították szállít VERB Definite=Def|Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin|Voice=Act 0 ROOT
5 , , PUNCT _ 4 PUNCT
6 ahol ahol ADV PronType=Rel 10 LOCY
7 két két NUM Case=Nom|NumType=Card|Number=Sing 8 ATT
8 műtétet műtét NOUN Case=Acc|Number=Sing 10 OBJ
9 is is CONJ _ 8 CONJ
10 végrehajtottak végrehajt VERB Definite=Ind|Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin|Voice=Act 4 ATT
11 rajta rajta PRON Case=Sup|Number=Sing|Person=3|PronType=Prs 10 OBL
12 . . PUNCT _ 0 PUNCT

Fejlesztőknek

Forrás http://rgai.inf.u-szeged.hu/magyarlanc
Forrásnyelv Java
Input A POS-tagger kimenete (egy sorban egy token, külön oszlopban a szóalak, szótő, morfológiai elemzéssel ellátva), az egyes mondatok üres sorral elválasztva egymástól.
Output Egy sorban egy token, külön oszlopban a szóalak, szótő, morfológiai elemzés, szülő csomópont és szintaktikai címke.
Futtatás java -Xmx2G -jar magyarlanc-3.0.jar -mode depparse -input in.txt -output out.txt
Licenc Az adatbázisra a Creative Commons Attribution-ShareAlike 4.0 (CC-BY-SA) licenc vonatkozik. Az adatbázis elsõdleges forrásának konverzióját végzõ kód licence GNU General Public License (GPL v3).