Dom Rozwój Co to jest tokenizacja? - definicja z techopedii

Co to jest tokenizacja? - definicja z techopedii

Spisu treści:

Anonim

Definicja - Co oznacza tokenizacja?

Tokenizacja polega na rozbiciu sekwencji ciągów na części, takie jak słowa, słowa kluczowe, frazy, symbole i inne elementy zwane tokenami. Tokeny mogą być pojedynczymi słowami, frazami, a nawet całymi zdaniami. Podczas tokenizacji niektóre znaki, takie jak znaki interpunkcyjne, są odrzucane. Tokeny stają się danymi wejściowymi dla innego procesu, takiego jak parsowanie i eksploracja tekstu.

Tokenizacja stosowana jest w informatyce, gdzie odgrywa dużą rolę w procesie analizy leksykalnej.

Techopedia wyjaśnia tokenizację

Tokenizacja polega głównie na prostej heurystyce w celu oddzielenia tokenów, wykonując kilka kroków:

  • Tokeny lub słowa są oddzielone białymi spacjami, znakami interpunkcyjnymi lub znakami podziału linii
  • Białe znaki lub znaki interpunkcyjne mogą, ale nie muszą być uwzględnione w zależności od potrzeby
  • Wszystkie znaki w ciągłych ciągach znaków są częścią tokena. Tokeny mogą składać się ze wszystkich znaków alfanumerycznych, znaków alfanumerycznych lub tylko znaków numerycznych.

Same tokeny mogą być również separatorami. Na przykład w większości języków programowania identyfikatory mogą być umieszczane razem z operatorami arytmetycznymi bez białych znaków. Chociaż wydaje się, że wyglądałoby to na pojedyncze słowo lub token, gramatyka języka faktycznie uznaje operator matematyczny (token) za separator, więc nawet jeśli wiele tokenów jest zebranych razem, nadal można je rozdzielić za pomocą matematyki operator.

Co to jest tokenizacja? - definicja z techopedii