Reinforcement Learning from Human Feedback
A training procedure that uses human-rated examples to teach a language model which responses are preferred. The pipeline typically trains a reward model on those ratings, then uses reinforcement learning to update the language model so it earns higher reward. RLHF is the technique that turned base GPT-style models into helpful assistants.
Definición editorial de DecipherU. Para definiciones técnicas autorizadas, consulta NIST AI RMF, ISO/IEC 42001, o las publicaciones oficiales de los laboratorios de IA.
Continúa por aquí
Tres opciones según donde estés en el camino. Las dos primeras son gratis.
Gratis · 2 minutos
Empieza con el AI Risk Score
Dos minutos. Te dice qué tan expuesto está tu rol actual a la automatización por IA y cuáles son los movimientos defensivos con mejor retorno.
Comenzar AI Risk Score →Programa pago · $147-$597
Curso alineado: Transición de Carrera
Programa con proyecto final revisado por el fundador, rúbrica pública, y credencial verificable firmada con Ed25519.
Ver el curso →Cuenta gratis
Guarda tus resultados y rastrea tu progreso
Una cuenta gratuita guarda tus assessments, recomendaciones, y la versión exportable de tu Career DNA. Sin tarjeta.
Crear cuenta →Las definiciones son explicaciones originales escritas con fines de desarrollo profesional. Para definiciones técnicas autorizadas, consulta NIST, ISO o el organismo de normalización correspondiente.