Sadržaj:
Definicija - Što znači tokenizacija?
Tokenizacija je čin razbijanja niza nizova na dijelove poput riječi, ključnih riječi, fraza, simbola i ostalih elemenata koji se nazivaju tokeni. Tokeni mogu biti pojedinačne riječi, fraze ili čak cijele rečenice. U procesu tokenizacije neki se znakovi poput interpunkcijskih znakova odbacuju. Tokeni postaju ulaz za drugi postupak poput razrađivanja i iskrivanja teksta.
Tokenizacija se koristi u računalnoj znanosti, gdje igra veliku ulogu u procesu leksičke analize.
Tehopedija objašnjava tokenizaciju
Tokenizacija se uglavnom oslanja na jednostavnu heuristiku da bi se tokeni odvojili slijedeći nekoliko koraka:
- Tokeni ili riječi odvojeni su razmakom, interpunkcijskim znakovima ili prijelomima crta
- Bijeli razmak ili interpunkcijske znakove mogu ili ne moraju biti uključeni, ovisno o potrebi
- Svi znakovi unutar neposrednih nizova dio su tokena. Tokeni se mogu sastojati od svih alfa-znakova, alfanumeričkih ili numeričkih znakova.
Sami tokeni mogu biti i razdvajači. Na primjer, u većini programskih jezika identifikatori se mogu staviti zajedno s aritmetičkim operatorima bez bijelih razmaka. Iako se čini da bi se to činilo kao jedna riječ ili znak, gramatika jezika matematički operator (token) zapravo smatra separatorom, pa čak i kada je više tokena skupa, oni se još uvijek mogu odvojiti matematičkim operater.