Un élève-ingénieur de CentraleSupélec publie deux articles scientifiques consacrés aux large language models (LLMs)

Anas Himmi est un élève-ingénieur de CentraleSupélec. Actuellement en double diplôme avec L'École polytechnique fédérale de Lausanne pour un Master in Datascience, il était inscrit au sein du Parcours recherche l'année dernière. Il est l'auteur de deux articles publiés dans des revues très sélectives dans le domaine du Natural Language Processing et acceptés dans l'une des trois principales conférences au monde sur le traitement du langage naturel : l’EMNLP 2024 (Conférence on Empirical Methods in Natural Language Processing), qui se tiendra à Miami en novembre 2024.
Un grand modèle de langage, ou LLMs (Large Language Models) est une forme avancée de modèle d'intelligence artificielle (IA) spécialisée dans le traitement automatique du langage naturel (TLN ou NLP -Natural Language Processing), capable d’analyser et de générer un texte de type humain. Les LLMs sont donc des systèmes d’intelligence artificielle capables de comprendre, interpréter et générer du langage humain. Ils sont dits "grands" ou "larges" en raison du volume considérable de données de formations et d’algorithmes qu’ils utilisent pour générer des résultats réalistes.
Cependant, l'évaluation des LLMs est au cœur d'une crise, car les méthodes traditionnelles de mesure peinent à capturer leur performance réelle, notamment sur des aspects tels que la cohérence, l'utilité et la fiabilité des réponses. Un des problèmes les plus critiques est celui des hallucinations, c’est-à-dire lorsque les LLMs produisent des faits incorrects, des faits qu’ils inventent eux-mêmes.
Les deux articles d'Anas Himmi évoquent des approches pour améliorer cette évaluation et s'inscrivent dans une réflexion globale visant à rendre les LLMs plus fiables et à mieux comprendre leurs comportements.
- Le premier propose des techniques pour gérer les benchmarks incomplets : l'évaluation efficace des modèles de langage naturel est une question cruciale, en particulier lorsque l'accès à des références privées est limité. Ce travail aborde le problème des scores incomplets ou manquants dans les benchmarks, offrant un cadre plus fiable pour l'évaluation de la performance des modèles.
- Le second met l'accent sur la correction des biais et la détection des hallucinations : les hallucinations sont un défi récurrent dans les LLMs tels que ChatGPT, Claude, et d'autres. Ce travail aborde une nouvelle approche pour améliorer la détection des hallucinations dans la traduction automatique neuronale grâce à une agrégation simple mais efficace des détecteurs.
« Je transmets un remerciement particulier à mon laboratoire MICS de CentraleSupélec et à mon mentor Pierre Colombo, Maitre de conférences au MICS pour leur soutien continu et leurs conseils tout au long de ces deux années. Merci aussi à Bruno Palpant, responsable du Parcours recherche qui m’a permis de mener ce projet. J'aimerais également exprimer ma gratitude à mes co-auteurs Ekhine Irurozki, Nathan Noiry, Stephan Clémençon et Pierre Colombo pour leur collaboration à ce travail » a indiqué Anas Himmi.
- Voir aussi son message d'explications générales (en anglais)