Traducción pendiente. Esta definición aún no está traducida al español. Leer la versión en inglés.

Direct Preference Optimization

An alignment training method that updates a language model directly from pairs of preferred and rejected responses, without training a separate reward model. DPO is simpler to implement than full RLHF and often produces comparable results, which has made it popular for open-source fine-tuning. The method was introduced in 2023.

Definición editorial de DecipherU. Para definiciones técnicas autorizadas, consulta NIST AI RMF, ISO/IEC 42001, o las publicaciones oficiales de los laboratorios de IA.