Traducción pendiente. Esta definición aún no está traducida al español. Leer la versión en inglés.

Direct Preference Optimization

An alignment training method that updates a language model directly from pairs of preferred and rejected responses, without training a separate reward model. DPO is simpler to implement than full RLHF and often produces comparable results, which has made it popular for open-source fine-tuning. The method was introduced in 2023.

Definición editorial de DecipherU. Para definiciones técnicas autorizadas, consulta NIST AI RMF, ISO/IEC 42001, o las publicaciones oficiales de los laboratorios de IA.

Continúa por aquí

Tres opciones según donde estés en el camino. Las dos primeras son gratis.

Gratis · 2 minutos

Empieza con el AI Risk Score

Dos minutos. Te dice qué tan expuesto está tu rol actual a la automatización por IA y cuáles son los movimientos defensivos con mejor retorno.

Comenzar AI Risk Score →

Programa pago · $147-$597

Curso alineado: Transición de Carrera

Programa con proyecto final revisado por el fundador, rúbrica pública, y credencial verificable firmada con Ed25519.

Ver el curso →

Cuenta gratis

Guarda tus resultados y rastrea tu progreso

Una cuenta gratuita guarda tus assessments, recomendaciones, y la versión exportable de tu Career DNA. Sin tarjeta.

Crear cuenta →

Las definiciones son explicaciones originales escritas con fines de desarrollo profesional. Para definiciones técnicas autorizadas, consulta NIST, ISO o el organismo de normalización correspondiente.