Tradução pendente. Esta definição ainda não foi traduzida para o português brasileiro. Ler a versão em inglês.

PagedAttention

A memory management technique introduced in the vLLM serving framework (Kwon et al., SOSP 2023) that manages the KV cache like virtual memory, allocating blocks on demand rather than reserving the worst-case sequence length up front. PagedAttention substantially reduces memory fragmentation and increases concurrent request throughput on the same hardware.

Definição editorial da DecipherU. Para definições técnicas autorizadas, consulte NIST AI RMF, ISO/IEC 42001, ou as publicações oficiais dos laboratórios de IA.