
Épaulée par ses partenaires Artefact, Diabolocom, Illuin Technology, Unbabel, Instituto Superior Técnico et Instituto de Telecomunicações de Lisbonne, l’équipe du Laboratoire MICS (Mathématiques et Informatique pour la Complexité et les Systèmes) vient de publier un article sur les résultats d’une étude qui remet en question la suprématie du MLM (Masked Language Modeling) en tant que meilleure méthode pour entraîner un encodeur.
Les modèles encodeurs sont au cœur des systèmes modernes de traitement du langage, utilisés pour des tâches de représentation textuelle comme l’analyse de sentiment, la reconnaissance d’entités nommées ou le RAG (Retrieval-Augmented Generation). Traditionnellement, ces modèles sont entraînés via un objectif de MLM (masked language modeling) à la manière du modèle BERT, qui exploite l’attention bidirectionnelle pour intégrer le contexte à gauche et à droite de chaque mot.
Pourtant, les modèles génératifs decoder-only, entraînés de manière causale à prédire le mot suivant dans une séquence textuelle (CLM), ont récemment prouvé leur efficacité sur des tâches de représentation. Ce succès remet en question la suprématie du MLM et soulève une interrogation cruciale : s’agit-il de la meilleure méthode pour entraîner un encodeur ?
Dans ce nouvel article, les équipes du laboratoire présente une étude à grande échelle qui isole l’impact de l’objectif de pré-entraînement sur la qualité des représentations textuelles générées en bout de chaîne. Les résultats montrent que pré-entraîner les modèles encodeurs uniquement via MLM n’exploite pas les données de manière optimale, tandis qu’une combinaison séquentielle avec un objectif causal donne de bien meilleurs résultats.
Un constat particulièrement enthousiasmant, d’autant plus que la multitude de modèles génératifs open-source disponibles constitue une base solide pour construire de nouveaux encodeurs à la pointe de l’état de l’art !
Intitulé “Should We Still Pretrain Encoders with Masked Language Modeling?”, l’article est à consulter sur arXiv : https://arxiv.org/abs/2507.00994
Bravo à toute l’équipe du MICS derrière ce projet ! Hippolyte Gisserot-Boukhlef, Nicolas Boizard, Manuel Faysse, Duarte Alves, Emmanuel Malherbe, Andre Martins, Celine Hudelot et Pierre Colombo.
- Se connecter pour poster des commentaires