Conditions de travail des annotateurs d'IA - L'éveilleur

date 12.02.2024
Description, commentaire Penser comme des machines pour former les machines
En gros, il s’agit pour l’humain de choisir entre deux ou davantage de réponses possibles suggérées par l’IA de manière à indiquer à la machine quelle est la réponse qui fait le plus de sens pour un humain.« Cette technique tortueuse est appelée « apprentissage par renforcement à partir de la rétroaction humaine », ou RLHF (pour reinforcement learning from human feedback)… » (Dzieza, 2024)
type
  • contribution