Tradução pendente. Esta definição ainda não foi traduzida para o português brasileiro. Ler a versão em inglês.

Reinforcement Learning from Human Feedback

A training procedure that uses human-rated examples to teach a language model which responses are preferred. The pipeline typically trains a reward model on those ratings, then uses reinforcement learning to update the language model so it earns higher reward. RLHF is the technique that turned base GPT-style models into helpful assistants.

Definição editorial da DecipherU. Para definições técnicas autorizadas, consulte NIST AI RMF, ISO/IEC 42001, ou as publicações oficiais dos laboratórios de IA.

Continue por aqui

Três opções conforme onde você está no caminho. As duas primeiras são gratuitas.

Gratuito · 2 minutos

Comece pelo AI Risk Score

Dois minutos. Mostra o quanto seu role atual está exposto à automação por IA e quais movimentos defensivos têm melhor retorno.

Começar AI Risk Score →

Programa pago · $147-$597

Curso alinhado: Transição de Carreira

Programa com projeto final revisado pelo fundador, rubrica pública, e credencial verificável assinada com Ed25519.

Ver o curso →

Conta gratuita

Salve seus resultados e acompanhe seu progresso

Uma conta gratuita guarda suas avaliações, recomendações e a versão exportável do seu Career DNA. Sem cartão.

Criar conta →

As definições são explicações originais escritas para fins de desenvolvimento profissional. Para definições técnicas autoritativas, consulte NIST, ISO ou o órgão de normalização correspondente.