emToken - tokenizáló

Az eszközről

Mire jó az eszköz? Mit csinál?

Az eszköz megállapítja, hogy a bemenetként megadott magyar nyelvű szövegben hol találhatók a mondat- és szóhatárok. Ez korántsem olyan magától értetődő például akkor, ha egy mondat rövidítést, majd azt követően egy tulajdonnevet tartalmaz, mivel a pont, szóköz, majd nagybetű többnyire mondathatárt jelez.

Mi a bemenet?

UTF-8 karakterkódolású sima szöveg.

Mi a kimenet?

Mondatokra és szavakra bontott szöveg.

Egy példa a működésre.

Bemenet:
A kutya váratlanul ugatni kezdett. Ettől úgy megijedt dr. Thorotzkay Alfréd, hogy hanyatt esett az aszfalton. Felesége, aki egyébként a BKV Zrt.-nél dolgozik, egyből rohant hozzá, amint ezt megtudta.

Kimenet:
<s><w>A</w><ws> </ws><w>kutya</w><ws></ws><w>váratlanul</w><ws> </ws><w>ugatni</w><ws></ws><w>kezdett</w><c>.</c></s><ws> </ws>
<s><w>Ettől</w><ws> </ws><w>úgy</w><ws> </ws><w>megijedt</w><ws> </ws><w>dr.</w><ws> </ws><w>Thorotzkay</w><ws> </ws><w>Alfréd</w><c>,</c><ws> </ws><w>hogy</w><ws> </ws><w>hanyatt</w><ws> </ws><w>esett</w><ws> </ws><w>az</w><ws> </ws><w>aszfalton</w><c>.</c></s><ws> </ws><s><w>Felesége</w><c>,</c><ws> </ws><w>aki</w><ws> </ws><w>egyébként</w><ws> </ws><w>a</w><ws> </ws><w>BKV</w><ws></ws><w>Zrt.-nél</w><ws> </ws><w>dolgozik</w><c>,</c><ws></ws><w>egyből</w><ws> </ws><w>rohant</w><ws> </ws><w>hozzá</w><c>,</c><ws> </ws><w>amint</w><ws> </ws><w>ezt</w><ws> </ws><w>megtudta</w><c>.</c></s>

Az <s> ... </s> tag-ek a mondatok, a <w> ... </w> a szavak, <c> ... </c> az írásjelek, a <ws> ... </ws> pedig a szóközök és egyéb white space karakterek határait jelölik.


Fejlesztőknek

Forrás forráskód: https://github.com/dlt-rilmta/quntoken
bináris: https://github.com/dlt-rilmta/quntoken/releases/latest
Forrásnyelv C++ és Python 3
Input UTF-8 kódolású plain text
Output XML és JSON választható
Futtatás ./quntoken [-f FORMAT] FILE
Alapértelmezett kimeneti formátum az xml. Megadható formátumok: xml, json.
Licenc GNU GPLv3