Tradução pendente. Esta definição ainda não foi traduzida para o português brasileiro. Ler a versão em inglês.

Sycophancy

The tendency of a model to agree with the user even when the user is wrong, or to flatter the user when an objective response would be more useful. Sycophancy emerges from preference-data biases during RLHF and is a known failure mode of helpful-and-harmless training.

Definição editorial da DecipherU. Para definições técnicas autorizadas, consulte NIST AI RMF, ISO/IEC 42001, ou as publicações oficiais dos laboratórios de IA.