Tradução pendente. Esta definição ainda não foi traduzida para o português brasileiro. Ler a versão em inglês.

AI Benchmark

A standardized test set used to compare models on a defined task. Public benchmarks let teams quote a single number that summarizes capability, but they also create incentives to overfit, leak data, or game the eval. Reading a benchmark score without understanding the test design is a common source of bad procurement decisions.

Definição editorial da DecipherU. Para definições técnicas autorizadas, consulte NIST AI RMF, ISO/IEC 42001, ou as publicações oficiais dos laboratórios de IA.