emCons - összetevős elemző

Az eszközről

Mire jó? Mit csinál?

Mondatok összetevős szerkezeti elemzése azt tárja fel, hogy a szavak egymással kombinálódva milyen kifejezéseket alkotnak, illetve hogyan állnak össze egy mondattá.

Mi a bemenet?

Olyan szöveg, amelyet előzetesen tokenekre bontottak, és morfológiailag egyértelműsítettek. A mondat szavai (bemeneti tokenek) elemzési fába rendezve: minden tokenhez hozzá van rendelve a megfelelő elemzési címke.

Mi a kimenet?

Az elemző kimenete az egyes szavak és az ezekből kialakítható összes kifejezés lehetséges szintaktikai kapcsolata elemzési fába rendezve.

Egy példa a működésre

Az exkatonát kórházba szállították, ahol két műtétet is végrehajtottak rajta.

Az az DET Definite=Def|PronType=Art (ROOT(CP(NP*
exkatonát exkatona NOUN Case=Acc|Number=Sing *)
kórházba kórház PROPN Case=Ill|Number=Sing (NP*)
szállították szállít VERB Definite=Def|Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin|Voice=Act (V_(V0*))
, , PUNCT _ *
ahol ahol ADV PronType=Rel (ADVP*)
két két NUM Case=Nom|NumType=Card|Number=Sing (NP*
műtétet műtét NOUN Case=Acc|Number=Sing *)
is is CONJ _ (C0*)
végrehajtottak végrehajt VERB Definite=Ind|Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin|Voice=Act (V_(V0*))
rajta rajta PRON Case=Sup|Number=Sing|Person=3|PronType=Prs (NP*)
. . PUNCT _ *))

Fejlesztőknek

Forrás http://rgai.inf.u-szeged.hu/magyarlanc
Forrásnyelv Java
Input A POS-tagger kimenete (egy sorban egy token, külön oszlopban a szóalak, szótő, morfológiai elemzéssel ellátva), az egyes mondatok üres sorral elválasztva egymástól.
Output Egy sorban egy token, külön oszlopban a szóalak, szótő, morfológiai elemzés, morfológiai elemzés és szintaktikai elemzés.
Futtatás java -Xmx2G -jar magyarlanc-3.0.jar -mode constparse -input in.txt -output out.txt
Licenc Az adatbázisra a Creative Commons Attribution-ShareAlike 4.0 (CC-BY-SA) licenc vonatkozik. Az adatbázis elsõdleges forrásának konverzióját végzõ kód licence GNU General Public License (GPL v3).