Tradução pendente. Esta definição ainda não foi traduzida para o português brasileiro. Ler a versão em inglês.

Speculative Decoding

A latency optimization where a small draft model proposes several next tokens at once and the large model verifies them in parallel. Tokens the large model agrees with are accepted instantly; disagreements fall back to standard generation. Speculative decoding can deliver 2-3x speedups with no quality loss.

Definição editorial da DecipherU. Para definições técnicas autorizadas, consulte NIST AI RMF, ISO/IEC 42001, ou as publicações oficiais dos laboratórios de IA.