Tradução pendente. Esta definição ainda não foi traduzida para o português brasileiro. Ler a versão em inglês.

Direct Preference Optimization

An alignment training method that updates a language model directly from pairs of preferred and rejected responses, without training a separate reward model. DPO is simpler to implement than full RLHF and often produces comparable results, which has made it popular for open-source fine-tuning. The method was introduced in 2023.

Definição editorial da DecipherU. Para definições técnicas autorizadas, consulte NIST AI RMF, ISO/IEC 42001, ou as publicações oficiais dos laboratórios de IA.

Continue por aqui

Três opções conforme onde você está no caminho. As duas primeiras são gratuitas.

Gratuito · 2 minutos

Comece pelo AI Risk Score

Dois minutos. Mostra o quanto seu role atual está exposto à automação por IA e quais movimentos defensivos têm melhor retorno.

Começar AI Risk Score →

Programa pago · $147-$597

Curso alinhado: Transição de Carreira

Programa com projeto final revisado pelo fundador, rubrica pública, e credencial verificável assinada com Ed25519.

Ver o curso →

Conta gratuita

Salve seus resultados e acompanhe seu progresso

Uma conta gratuita guarda suas avaliações, recomendações e a versão exportável do seu Career DNA. Sem cartão.

Criar conta →

As definições são explicações originais escritas para fins de desenvolvimento profissional. Para definições técnicas autoritativas, consulte NIST, ISO ou o órgão de normalização correspondente.