Des nouvelles recherches ont ouvert un intéressant débat concernant l’efficacité de ChatGPT, en particulier les versions GPT-3.5 et GPT-4, lesquelles ont récemment dominé le marché en tant que grands services de modèles linguistiques.
Cependant, avec un mélange assez déroutant de hauts et de bas en termes de performance entre mars et juin 2023, certains se demandent si ChatGPT n’aurait pas perdu un peu de ses capacités intellectuelles virtuelles.
Des mises à jour de ChatGPT sans intérêt ?
D’éminents chercheurs de l’université de Stanford et de l’université de Californie à Berkeley ont examiné de près les compétences de ChatGPT dans le cadre de diverses tâches. Cette évaluation complète découle de la notable incohérence observée dans les performances de l’application sur une période de trois mois.
Cette irrégularité des résultats ne fait d’ailleurs pas que susciter la confusion ; elle souligne également la nature de cette technologie et l’impératif d’en contrôler la qualité de manière cohérente.
Ainsi, dans le rapport, on peut notamment lire : “Nos résultats montrent que le comportement du “même” service LLM (large language model) peut varier considérablement dans un laps de temps relativement court.”
Si l’on se penche sur les détails du rapport, les compétences en résolution de problèmes mathématiques de GPT-4 ont affiché une impressionnante baisse d’efficacité dans l’identification des nombres premiers.
En effet, les taux de précision ont affiché une chute vertigineuse, passant d’un louable 97,6 % en mars à un taux alarmant de 2,4 % en juin. En revanche, son prédécesseur, le GPT-3.5, a enregistré une belle amélioration au cours de la même période, passant de 7,4 % à 86,8 %.
Ces contrastes frappants déconcertent les experts du secteur, car on pourrait s’attendre naturellement à ce que les nouvelles versions dépassent leurs prédécesseurs. Cela soulève des inquiétudes quant à l’impact réel des “mises à jour” et des “améliorations” concernant les capacités de l’IA.
Un manque cruel d’informations
La recherche a révélé un autre aspect intriguant sur d’autres éléments particulièrement délicats. En effet, GPT-4 a enregistré une réduction notable du nombre de réponses directes à des questions dites “sensibles” entre mars et juin. Cela indique que sa couche de sécurité a été renforcée.
Toutefois, les explications générées par le système se trouvaient manifestement tronquées lorsqu’il refusait de répondre à la demande de l’utilisateur. Cela a donné lieu à des spéculations sur le fait que le modèle pèche par excès de prudence au détriment de l’engagement et de la clarté des utilisateurs.
Cela dit, il n’y a pas que du négatif. L’étude a mis en évidence un domaine crucial dans lequel GPT-4 et, dans une moindre mesure, GPT-3.5, ont affiché de légers progrès : le raisonnement visuel. En effet, bien que les taux de réussite globaux soient restés relativement faibles, on a pu constater une évolution de leurs performances.
Au final, c’est l’imprévisibilité de cette technologie qui saute aux yeux. La compétence de GPT-4 en matière de génération de code a montré un déclin dans la production de code directement exécutable. Les industries qui s’appuient sur ces modèles doivent donc y voir là une mise en garde, car les incohérences peuvent faire des ravages dans les grands écosystèmes logiciels.
Quelles leçons en tirer ?
Ainsi, ce ne sont pas les fluctuations des performances des modèles GPT-4 et GPT-3.5 qui ressortent de cette analyse approfondie, mais bien une leçon générale sur l’efficacité éphémère de l’IA.
Avec de rapides progrès technologiques rapides, il existe une hypothèse tacite selon laquelle les nouveaux modèles surpasseront leurs prédécesseurs. Cependant, cette étude remet en question cette notion.
Ainsi, le message pour les entreprises et les développeurs fortement impliqués dans ChatGPT est de surveiller et d’évaluer ces modèles régulièrement. Alors que la technologie IA continue son chemin, cette étude nous rappelle clairement que les progrès ne sont pas linéaires.
L’hypothèse selon laquelle la version la plus récente est invariablement la meilleure pourrait constituer une simplification excessive, une notion essentielle à aborder de front par la communauté technologique. Le comportement variable des version GPT-4 et GPT-3.5 en l’espace de quelques mois souligne donc l’urgence de rester vigilant, d’évaluer et de recalibrer, ce afin de s’assurer que la technologie sert véritablement son objectif prévu avec une efficacité constante.
Morale de l’histoire : En IA comme ailleurs, la version originale est parfois la meilleure.
Avis de non-responsabilité
Avis de non-responsabilité : Conformément aux directives de The Trust Project, BeInCrypto s'engage à fournir des informations impartiales et transparentes. Cet article vise à fournir des informations exactes et pertinentes. Toutefois, nous invitons les lecteurs à vérifier les faits de leur propre chef et à consulter un professionnel avant de prendre une décision sur la base de ce contenu.