Tradução pendente. Esta definição ainda não foi traduzida para o português brasileiro. Ler a versão em inglês.

HumanEval

A code-generation benchmark from OpenAI consisting of 164 hand-written Python problems with unit tests. Models are graded on whether their generated code passes the tests, usually reported as pass@1 or pass@10. HumanEval is the most cited code benchmark, though newer benchmarks address its limited scope.

Definição editorial da DecipherU. Para definições técnicas autorizadas, consulte NIST AI RMF, ISO/IEC 42001, ou as publicações oficiais dos laboratórios de IA.