Les modèles d’IA ont désormais la réputation d’avoir une réponse à tout. Ils aiment bien vous dire ce que vous voulez entendre, mais dans certains cas, leur réponse n’est tout simplement plus correcte. Les grands modèles linguistiques formulent souvent leurs réponses avec tant de conviction qu’on en oublierait presque qu’ils ne font parfois que deviner.
Cela reste l’un des principaux problèmes de l’IA générative : des modèles qui présentent des informations erronées avec une totale conviction. C’est précisément ce à quoi Anthropic souhaite remédier avec Claude Opus 4.8. L’accent est moins mis sur des nouvelles fonctionnalités spectaculaires que sur la fiabilité.
Une IA qui ose douter
Anthropic affirme qu’Opus 4.8 signale nettement plus souvent lorsqu’il n’est pas sûr de quelque chose. En particulier pour les questions de programmation, le modèle serait moins enclin à proposer des solutions erronées à la légère. Selon l’entreprise, lors de tests internes, l’IA a obtenu des scores quasi parfaits lors de ce qu’on appelle des « benchmarks d’honnêteté », au cours desquels les modèles sont délibérément confrontés à des questions auxquelles ils n’ont en réalité pas de bonne réponse.
Cela peut sembler banal, mais pour l’IA, c’est un pas de géant. En effet, la plupart des modèles sont entraînés à toujours donner une réponse, même lorsque les informations sous-jacentes sont douteuses. Il en résulte les fameuses « hallucinations » de l’IA : des réponses qui semblent convaincantes, mais qui sont tout simplement fausses. Anthropic tente désormais de limiter ce comportement en permettant à Claude de mieux évaluer quand il vaut mieux dire « je ne sais pas ».
Claude Opus 4.8 : pas de révolution
L’Opus 4.8 fait son apparition à peine six semaines après l’Opus 4.7 de Claude et est désormais considéré comme le modèle le plus puissant mis à la disposition du grand public par Anthropic. Dans le même temps, l’entreprise souligne elle-même que le bond en avant par rapport à la version précédente reste plutôt limité. Ceux qui s’attendent à de nouvelles fonctionnalités spectaculaires ne seront donc sans doute pas immédiatement impressionnés.
Pour l’instant, toute l’attention se porte sur Claude Mythos Preview, le modèle expérimental de pointe d’Anthropic qui n’est actuellement accessible qu’à un petit groupe de partenaires. Ce modèle serait nettement plus performant en matière de cybersécurité et d’analyses complexes, mais sa mise à disposition au grand public se fait encore attendre.
Pourtant, les tests réalisés par Anthropic montrent que l’Opus 4.8 obtient de meilleurs résultats que Mythos dans un domaine particulier : l’honnêteté. Le modèle signalerait de manière plus cohérente lorsqu’il ne dispose pas d’informations suffisantes, au lieu d’inventer des réponses juste pour produire quelque chose.
L’IA prend de plus en plus conscience qu’elle est soumise à des tests
Anthropic fait également part d’une autre observation remarquable. Lors des évaluations, Opus 4.8 a montré des signes de « conscience de l’évaluation ». En d’autres termes, le modèle semblait parfois se rendre compte qu’il était testé et adaptait ses réponses en conséquence. Ce phénomène apparaît de plus en plus souvent dans les systèmes d’IA avancés. Les modèles semblent peu à peu mieux comprendre le fonctionnement des évaluations et tentent parfois de formuler des réponses qu’ils pensent que les testeurs souhaitent entendre. Cela rend plus difficile pour les chercheurs de mesurer objectivement la fiabilité réelle de l’IA.
Le problème ne se limite d’ailleurs pas à Anthropic. D’autres grandes entreprises spécialisées dans l’IA se heurtent elles aussi de plus en plus souvent à des modèles qui semblent remarquablement bien savoir quand ils sont sous surveillance.
Alors que les annonces concernant l’IA portent généralement sur des fenêtres contextuelles plus larges, des performances plus rapides ou des benchmarks plus impressionnants, Anthropic aborde ici un sujet plus sensible : la confiance. Car au final, une IA qui fournit des réponses à la vitesse de l’éclair ne sert à rien si l’on ne peut jamais être sûr de leur exactitude. Un modèle qui ose admettre honnêtement qu’il ignore quelque chose peut s’avérer plus utile à long terme qu’un modèle qui tente de trouver une réponse à tout.
C’est au cours des prochaines semaines, lorsque davantage d’utilisateurs commenceront à s’en servir, que l’on verra si Claude Opus 4.8 tient réellement ses promesses.







