Tradução pendente. Esta definição ainda não foi traduzida para o português brasileiro. Ler a versão em inglês.

Direct Preference Optimization

An alignment training method that updates a language model directly from pairs of preferred and rejected responses, without training a separate reward model. DPO is simpler to implement than full RLHF and often produces comparable results, which has made it popular for open-source fine-tuning. The method was introduced in 2023.

Definição editorial da DecipherU. Para definições técnicas autorizadas, consulte NIST AI RMF, ISO/IEC 42001, ou as publicações oficiais dos laboratórios de IA.