Traducción pendiente. Esta definición aún no está traducida al español. Leer la versión en inglés.

Tokenization

The step that splits raw text into the units a language model actually consumes. Modern tokenizers use byte-pair encoding or similar subword schemes, which means a single English word can be one token or several. Token count drives cost, latency, and context-window math, so the choice of tokenizer matters.

Definición editorial de DecipherU. Para definiciones técnicas autorizadas, consulta NIST AI RMF, ISO/IEC 42001, o las publicaciones oficiales de los laboratorios de IA.