Amazon pourrait créer la sensation avec son nouveau modèle d’intelligence artificielle

Par , publié le .

Actualité

Les limites des modèles de langage de ChatGPT et LaMDA. La promesse de la Chain of Thought. La solution très prometteuse d’Amazon.

Les limites des modèles de langage de ChatGPT et LaMDA. La promesse de la Chain of Thought. La solution très prometteuse d’Amazon.

Depuis la sortie de ChatGPT, les intelligences artificielles (IA) conversationnelles sont sur toutes les bouches. Les géants de la tech veulent tous être de la partie, mais ce n’est pas une mince affaire. Si les résultats sont déjà  très prometteurs, ces IA sont souvent mises en échec, montrant rapidement leurs limites. Amazon, lui, s’est fait discret sur le sujet, mais le géant américain travaille depuis fort longtemps sur des IA génératives et il dispose dans ses cartons d’un nouveau modèle de langage aux performances encore plus impressionnantes.

GPT-3.5, qui propulse ChatPGT, utilise l’approche dite de «standard prompting», ce qui signifie que l’algorithme tente d’analyser la question dans sa globalité, en une seule étape. Ceci fonctionne très bien pour des tâches relativement simples et intuitives. Mais dès qu’il faut décomposer, l’algorithme se perd et commence à  proposer des réponses sans queue ni tête, ce sont les «hallucinations» dont parlent les experts. Google avait publié un exemple très parlant sur le sujet, en demandant à  un modèle de répondre au problème suivant : «Le personnel de la cafétéria dispose de 23 pommes. S’ils en utilisent 20 pour préparer le repas et qu’ils en achètent 6 de plus, combien de pommes ont-ils ?» Les systèmes comme GPT-3.5 se font souvent piéger. Le modèle LaMDA de Google a conclu avec la réponse 27, sans donner de précision. Face à  ce problème, des chercheurs développent des systèmes basés sur l’approche dite de Chain of Prompt (CoT) prompting.

L’idée est de déconstruire l’énoncé du problème pour avancer pas à  pas. L’exemple ci-dessus serait alors analysé comme ceci : «La cafétéria avait 23 pommes à  l’origine. Ils en ont utilisé 20. Donc ils en avaient 23 »“ 20 = 3. Ils ont acheté 6 pommes supplémentaires, donc ils en ont 3 + 6 = 9. La réponse est 9.» L’algorithme est en mesure de proposer une réponse plus élaborée, et correcte. Et ceci ne s’applique pas uniquement aux mathématiques. Bientôt, les modèles comme GPT-3 et LaMDA utiliseront cette approche de Chain of Thought. Les hallucinations diminueront, logiquement.

Mais Amazon va plus loin encore. Avec une approche multimodale (Multimodal-CoT), son modèle peut «comprendre» du texte, tout comme des images ou une combinaison des deux. Les ingénieurs du géant américain ont éprouvé leur création sur un test baptisé ScienceQA, un ensemble de 21 280 questions scientifiques à  choix multiples servant de benchmark pour les modèles de langage. Autrement dit, un instrument de torture parfait pour les IA utilisant le standard prompting.

Là  o๠GPT-3.5, la référence actuellement, obtient 73,97 %, le modèle d’Amazon en Multimodal-CoT, obtient 91,68 %. Cette IA comprend les énoncés, sait les décortiquer et répondre correctement, avec très peu d’hallucinations. Et ce n’est pas tout. D’ordinaire, la «puissance» des algorithmes dépend beaucoup du nombre de paramètres du modèle. Celui d’Amazon est assez limité : 738 millions, contre 175 milliards pour GPT-3.5. Autrement dit, la solution d’Amazon est très optimisée.

On ne sait cependant pas comment s’en sort le modèle d’Amazon avec des questions ouvertes, mais cela montre que la piste des modèles Chain of Thought est très prometteuse. Microsoft et Google décideront-ils de se lancer ? Est-ce déjà  le cas ? Quoi qu’il en soit, si vous voulez en savoir plus, sachez que l’étude est disponible ici et le code sur GitHub.

O commentaire

Laisser un commentaire

Votre email ne sera pas publié. Champ obligatoire (*)