Tradução pendente. Esta definição ainda não foi traduzida para o português brasileiro. Ler a versão em inglês.

HELM

Holistic Evaluation of Language Models, a Stanford benchmark suite that evaluates models across many scenarios and many metrics, including accuracy, calibration, robustness, fairness, bias, toxicity, and efficiency. HELM scores across more dimensions than single-score leaderboards.

Definição editorial da DecipherU. Para definições técnicas autorizadas, consulte NIST AI RMF, ISO/IEC 42001, ou as publicações oficiais dos laboratórios de IA.