Traducción pendiente. Esta definición aún no está traducida al español. Leer la versión en inglés.

HumanEval

A code-generation benchmark from OpenAI consisting of 164 hand-written Python problems with unit tests. Models are graded on whether their generated code passes the tests, usually reported as pass@1 or pass@10. HumanEval is the most cited code benchmark, though newer benchmarks address its limited scope.

Definición editorial de DecipherU. Para definiciones técnicas autorizadas, consulta NIST AI RMF, ISO/IEC 42001, o las publicaciones oficiales de los laboratorios de IA.