Traducción pendiente. Esta definición aún no está traducida al español. Leer la versión en inglés.

AI Evaluation (Evals)

The systematic measurement of LLM application behavior against a defined task and dataset. Evaluation covers capability (does the model do the task), safety (does the model refuse where it should), fairness (does the model perform across groups), and grounding (does the model cite its sources correctly).

Definición editorial de DecipherU. Para definiciones técnicas autorizadas, consulta NIST AI RMF, ISO/IEC 42001, o las publicaciones oficiales de los laboratorios de IA.