Anas Himmi, élève du parcours recherche l'année dernière en 2A, est l'auteur de deux articles publiés dans des revues très sélectives dans son domaine et acceptés à l'une des trois principales conférences au monde sur le traitement du langage naturel; l’EMNLP 2024 (Conférence on Empirical Methods in Natural Language Processing), qui se tiendra à Miami en novembre prochain.
Un grand modèle de langage, ou LLMs (Large Language Models) est une forme avancée de modèle d'intelligence artificielle (IA) spécialisée dans le traitement automatique du langage naturel (TLN ou NLP -Natural Language Processing), capable d’analyser et de générer un texte de type humain. Les LLMs sont donc des systèmes d’intelligence artificielle capables de comprendre, interpréter et générer du langage humain. Ils sont dits "grands" ou "larges" en raison du volume considérable de données de formations et d’algorithmes qu’ils utilisent pour générer des résultats réalistes.
Cependant, l'évaluation des LLMs est au cœur d'une crise, car les méthodes traditionnelles de mesure peinent à capturer leur performance réelle, notamment sur des aspects tels que la cohérence, l'utilité et la fiabilité des réponses. Un des problèmes les plus critiques est celui des hallucinations, c’est-à-dire lorsque les LLMs produisent des faits incorrects, des faits qu’ils inventent eux-mêmes.
Les deux articles d'Anas Himmi évoquent des approches pour améliorer cette évaluation et s'inscrivent dans une réflexion globale visant à rendre les LLMs plus fiables et à mieux comprendre leurs comportements.
- Le premier propose des techniques pour gérer les benchmarks incomplets: [2305.10284] Towards More Robust NLP System Evaluation: Handling Missing Scores in Benchmarks (arxiv.org) : l'évaluation efficace des modèles de langage naturel, ou NLP (Natural Language Processing soit le traitement automatique du langage naturel) est une question cruciale, en particulier lorsque l'accès à des références privées est limité. Ce travail aborde le problème des scores incomplets ou manquants dans les benchmarks, offrant un cadre plus fiable pour l'évaluation de la performance des modèles.
- Le second met l'accent sur la correction des biais et la détection des hallucinations: [2402.13331] Enhanced Hallucination Detection in Neural Machine Translation through Simple Detector Aggregation (arxiv.org) : les hallucinations sont un défi récurrent dans les LLMs tels que ChatGPT, Claude, et d'autres. Ce travail aborde une nouvelle approche pour améliorer la détection des hallucinations dans la traduction automatique neuronale grâce à une agrégation simple mais efficace des détecteurs.
"Je transmets un remerciement particulier à mon laboratoire MICS de CentraleSupélec et à mon mentor Pierre Colombo, Maitre de conférences au MICS pour leur soutien continu et leurs conseils tout au long de ces deux années. Merci aussi à Bruno Palpant, responsable du parcours recherche qui m’a permis de mener ce projet. J'aimerais également exprimer ma gratitude à mes co-auteurs Ekhine Irurozki, Nathan Noiry, Stephan Clémençon et Pierre Colombo pour leur collaboration à ce travail." déclare Anas Himmi, qui a terminé son parcours recherche au sein de l'école et s'apprête à entamer un Master en Data Science en double diplôme à l'école Polytechnique Fédérale de Lausanne.
- Se connecter pour poster des commentaires