Tokenisierung

Die Tokenisierung ist die erste Annotationsebene. Es identifiziert die "Atome", an die Annotationseinheiten gebunden sind. Abhängig von der Definition von "Token" (z. B. Morphem oder morphosyntaktisches oder prosodisches Wort) kann es unterschiedliche Tokenisierungsschemata geben.

Der Korpus enthält derzeit eine Ebene morphosyntaktischer Tokenisierung. Bekanntlich gibt es keine einheitliche Definition des morphosyntaktischen Tokens. Die für OLA angenommene wird durch den Verbator-Algorithmus definiert. Er ist ein hochakkurater, regelbasierter Tokenizer (0.99990), der auch online verfügbar ist.

Abb. 1: Der Tokenisierungsalgorithmus.

Tokenisierung

Kontakte

Unterstützer