Traducción pendiente. Esta definición aún no está traducida al español. Leer la versión en inglés.

HELM

Holistic Evaluation of Language Models, a Stanford benchmark suite that evaluates models across many scenarios and many metrics, including accuracy, calibration, robustness, fairness, bias, toxicity, and efficiency. HELM scores across more dimensions than single-score leaderboards.

Definición editorial de DecipherU. Para definiciones técnicas autorizadas, consulta NIST AI RMF, ISO/IEC 42001, o las publicaciones oficiales de los laboratorios de IA.