Áttekintés
Az e-magyar.hu Digitális Nyelvfeldolgozó Rendszer lényege, hogy az emberi intelligenciát igénylő szövegolvasási, szövegértési feladat alapvető, kezdeti lépéseit automatikusan valósítja meg: a szöveg nyelvi jellemzőit automatikus módon fedi fel, teszi explicitté. Egy tetszőleges szövegrészt feldolgozva megtudjuk az egyes szavak szófaját, szótövét, alaktani (morfológiai) elemzését, a mondatok kétféle mondattani (szintaktikai) elemzését, megkapjuk a főnévi csoportokat és a tulajdonneveket. A rendszer egybegyűjti, egy egységes láncba integrálja és közzéteszi az elemzési lépéseket megvalósító számítógépes magyar nyelvfeldolgozó eszközöket. Ezáltal elérhetővé, közvetlenül felhasználhatóvá válnak ezek az eszközök a különféle igényű felhasználói körök számára.
Az e-magyar.hu rendszer szövegfeldolgozó része jelenleg az alább modulokat tartalmazza:
- Szövegegység tagoló (tokenizáló) – emToken
- Morfológiai elemző – emMorph
- Szótövező (lemmatizáló) – emLem
- Egyértelműsítő (tagger) – emTag
- Függőségi mondatelemző (dependency parser) – emDep
- Összetevős mondatelemző (constituent parser) – emCons
- Részleges mondatelemző (chunker) – emChunk
- Névkifejezés elemző (named entity recognizer) – emNer
Az egyes eszközök működésének leírása az adott eszköznél található.
Példa
Bár külföldre menekülhetett volna, nem tette meg. Támogatta a haladó eszméket, barátságban állt pl. Jókai Mórral is.
Az e-magyar.hu a szöveg automatikus feldolgozása során először a szöveget az alapegységeire, a szavakat és írásjeleket magában foglaló ún. tokenekre bontja és megállapítja a mondatok határát. A példában a Támogatta új mondatot kezd, a Jókai viszont nem, bár itt is pont után nagybetűs szó következik, ami tipikusan mondathatárra utal. Külön tokenként kezeli az írásjeleket, kivéve persze a rövidítéseknél, ahol a záró pont a rövidítés részét képezi, így a pl. egy egység lesz, az is és az azt követő pont viszont kettő.
Megkapjuk az egyes szavakról az alaktani információkat: a menekülhetett szóalak például múlt idejű ige, mely a menekül szótőből, a het képzőből és az ett igeragból épül fel.
A magyar szóalakok jelentős részének, akár 30%-ának több alaktani elemzése van. A rendszer a szövegkönyezet alapján automatikusan dönt ilyen esetekben, kiválasztja a helyes elemzést, ez az ún. egyértelműsítési lépés. A többértelműség sokszor nem olyan nyilvánvaló, mint a várnak vagy a terem esetében, hanem rejtetten jelenik meg: fontos, hogy példánkban a haladó melléknévként elemződjön, ne pedig összetett főnévként, ami valamiféle vízi élőlényekre vonatkozó járulékot jelentene.
Az egyes mondatok mondattani elemzése kétféleképpen is megtörténik. Megkapjuk az ún. függőségi elemzést, ahol az egyes szavak egymáshoz való kapcsolatai jelennek meg, mint például, hogy a barátságban az állt igéhez kapcsolódó határozó. Az összetevős elemzés pedig a mondat egységeit adja ki: a második mondat két nagyobb egységből áll, melyek felsorolás viszonyban vannak egymással. A függőségi elemzés alapján az ige-igekötő kapcsolatok is rendelkezésre állnak, erre építve egy külön segédmodul megjelöli az elváló igekötőket, és a hozzájuk tartozó igéket, példánkban a tette és a meg kapcsolatát.
A főnévi csoportokat – pl. a haladó eszméket – is azonosítja egy erre a célra készített modul.
Végül a lánc utolsó tagja megjelöli a tulajdonnevek fontos alosztályait, a neveket, helyeket és intézményeket, példánkban a Jókai Mórral nevet.