Traducción pendiente. Esta definición aún no está traducida al español. Leer la versión en inglés.

Reinforcement Learning from Human Feedback

A training procedure that uses human-rated examples to teach a language model which responses are preferred. The pipeline typically trains a reward model on those ratings, then uses reinforcement learning to update the language model so it earns higher reward. RLHF is the technique that turned base GPT-style models into helpful assistants.

Definición editorial de DecipherU. Para definiciones técnicas autorizadas, consulta NIST AI RMF, ISO/IEC 42001, o las publicaciones oficiales de los laboratorios de IA.

Continúa por aquí

Tres opciones según donde estés en el camino. Las dos primeras son gratis.

Gratis · 2 minutos

Empieza con el AI Risk Score

Dos minutos. Te dice qué tan expuesto está tu rol actual a la automatización por IA y cuáles son los movimientos defensivos con mejor retorno.

Comenzar AI Risk Score →

Programa pago · $147-$597

Curso alineado: Transición de Carrera

Programa con proyecto final revisado por el fundador, rúbrica pública, y credencial verificable firmada con Ed25519.

Ver el curso →

Cuenta gratis

Guarda tus resultados y rastrea tu progreso

Una cuenta gratuita guarda tus assessments, recomendaciones, y la versión exportable de tu Career DNA. Sin tarjeta.

Crear cuenta →

Las definiciones son explicaciones originales escritas con fines de desarrollo profesional. Para definiciones técnicas autorizadas, consulta NIST, ISO o el organismo de normalización correspondiente.