Traducción pendiente. Esta definición aún no está traducida al español. Leer la versión en inglés.

PagedAttention

A memory management technique introduced in the vLLM serving framework (Kwon et al., SOSP 2023) that manages the KV cache like virtual memory, allocating blocks on demand rather than reserving the worst-case sequence length up front. PagedAttention substantially reduces memory fragmentation and increases concurrent request throughput on the same hardware.

Definición editorial de DecipherU. Para definiciones técnicas autorizadas, consulta NIST AI RMF, ISO/IEC 42001, o las publicaciones oficiales de los laboratorios de IA.