Tradução pendente. Esta definição ainda não foi traduzida para o português brasileiro. Ler a versão em inglês.

AI Evaluation (Evals)

The systematic measurement of LLM application behavior against a defined task and dataset. Evaluation covers capability (does the model do the task), safety (does the model refuse where it should), fairness (does the model perform across groups), and grounding (does the model cite its sources correctly).

Definição editorial da DecipherU. Para definições técnicas autorizadas, consulte NIST AI RMF, ISO/IEC 42001, ou as publicações oficiais dos laboratórios de IA.