Tradução pendente. Esta definição ainda não foi traduzida para o português brasileiro. Ler a versão em inglês.

vLLM

An open-source LLM serving framework from UC Berkeley that introduced PagedAttention and continuous batching as production-grade defaults. vLLM and TensorRT-LLM dominate the open-source serving layer for high-throughput LLM endpoints.

Definição editorial da DecipherU. Para definições técnicas autorizadas, consulte NIST AI RMF, ISO/IEC 42001, ou as publicações oficiais dos laboratórios de IA.