Tradução pendente. Esta definição ainda não foi traduzida para o português brasileiro. Ler a versão em inglês.

MT-Bench

A multi-turn conversation benchmark scored by GPT-4 acting as a judge. MT-Bench tests reasoning, math, coding, and instruction following across 80 multi-turn conversations. It was one of the first credible LLM-as-judge benchmarks and remains a common reference.

Definição editorial da DecipherU. Para definições técnicas autorizadas, consulte NIST AI RMF, ISO/IEC 42001, ou as publicações oficiais dos laboratórios de IA.