Tradução pendente. Esta definição ainda não foi traduzida para o português brasileiro. Ler a versão em inglês.

Tokenization

The step that splits raw text into the units a language model actually consumes. Modern tokenizers use byte-pair encoding or similar subword schemes, which means a single English word can be one token or several. Token count drives cost, latency, and context-window math, so the choice of tokenizer matters.

Definição editorial da DecipherU. Para definições técnicas autorizadas, consulte NIST AI RMF, ISO/IEC 42001, ou as publicações oficiais dos laboratórios de IA.