Tokenizzazione

La tokenizzazione è il primo livello di annotazione. Esso identifica gli "atomi" a cui si legano le unità di annotazione. Possono esistere diversi schemi di annotazione sulla base della definizione di token (per esempio, morfema, o parola morfosintattica o prosodica).

Il corpus contiene un livello di tokenizzazione morfosintattica. Come è noto, non esiste una sola definizione di token morfosintattico. Quella adottata per OLA è definita dall'algoritmo di Verbator, un tokenizzatore basato su regole, accurato (0.99990), accessibile anche attraverso una REST API.

Fig. 1: L'algoritmo di tokenizzazione.

Tokenizzazione

Contatti

Sostenitori