Traducción pendiente. Esta definición aún no está traducida al español. Leer la versión en inglés.

MT-Bench

A multi-turn conversation benchmark scored by GPT-4 acting as a judge. MT-Bench tests reasoning, math, coding, and instruction following across 80 multi-turn conversations. It was one of the first credible LLM-as-judge benchmarks and remains a common reference.

Definición editorial de DecipherU. Para definiciones técnicas autorizadas, consulta NIST AI RMF, ISO/IEC 42001, o las publicaciones oficiales de los laboratorios de IA.