Dom Razvoj Što je tokenizacija? - definicija iz tehopedije

Što je tokenizacija? - definicija iz tehopedije

Sadržaj:

Anonim

Definicija - Što znači tokenizacija?

Tokenizacija je čin razbijanja niza nizova na dijelove poput riječi, ključnih riječi, fraza, simbola i ostalih elemenata koji se nazivaju tokeni. Tokeni mogu biti pojedinačne riječi, fraze ili čak cijele rečenice. U procesu tokenizacije neki se znakovi poput interpunkcijskih znakova odbacuju. Tokeni postaju ulaz za drugi postupak poput razrađivanja i iskrivanja teksta.

Tokenizacija se koristi u računalnoj znanosti, gdje igra veliku ulogu u procesu leksičke analize.

Tehopedija objašnjava tokenizaciju

Tokenizacija se uglavnom oslanja na jednostavnu heuristiku da bi se tokeni odvojili slijedeći nekoliko koraka:

  • Tokeni ili riječi odvojeni su razmakom, interpunkcijskim znakovima ili prijelomima crta
  • Bijeli razmak ili interpunkcijske znakove mogu ili ne moraju biti uključeni, ovisno o potrebi
  • Svi znakovi unutar neposrednih nizova dio su tokena. Tokeni se mogu sastojati od svih alfa-znakova, alfanumeričkih ili numeričkih znakova.

Sami tokeni mogu biti i razdvajači. Na primjer, u većini programskih jezika identifikatori se mogu staviti zajedno s aritmetičkim operatorima bez bijelih razmaka. Iako se čini da bi se to činilo kao jedna riječ ili znak, gramatika jezika matematički operator (token) zapravo smatra separatorom, pa čak i kada je više tokena skupa, oni se još uvijek mogu odvojiti matematičkim operater.

Što je tokenizacija? - definicija iz tehopedije