Un grand modèle de langage conçu pour le bien public

Share

Cet été, l’EPFL et l’ETH Zurich mettront à disposition un grand modèle de langage (LLM) développé sur des infrastructures publiques. Entraîné sur le supercalculateur «Alps» du Centre Suisse de Calcul Scientifique (CSCS), ce nouveau LLM marque une étape clé pour l’IA open source et la maîtrise multilingue.

Cette semaine à Genève, une cinquantaine d’organisations internationales œuvrant pour des LLMs open source et une IA digne de confiance se sont réunies lors du premier sommet international des développeurs de LLM en licence ouverte (International Open-Source LLM Builders Summit). Organisé par les centres IA de l’EPFL et de l’ETH Zurich, cet événement constitue un jalon important dans la construction d’un écosystème international dynamique et collaboratif autour des modèles ouverts et transparents. Ceux-ci sont de plus en plus considérés comme des alternatives crédibles aux systèmes commerciaux, majoritairement développés à huis clos aux États-Unis ou en Chine.

Les participantes et participants ont pu découvrir en avant-première la publication imminente d’un LLM entièrement ouvert et développé publiquement, co-créé par des chercheuses et chercheurs de l’EPFL, de l’ETH Zurich et d’autres universités suisses, en collaboration étroite avec les ingénieurs du CSCS. Actuellement en phase finale de test, le modèle sera téléchargeable sous licence ouverte plus tard cet été. Il mise sur la transparence, la performance multilingue et une accessibilité large.

Le modèle sera entièrement ouvert: le code source et les poids (c’est-à-dire les paramètres appris durant l’entraînement) seront disponibles publiquement, et les données d’entraînement seront transparentes et reproductibles, afin d’encourager l’adoption dans les domaines scientifique, gouvernemental, éducatif et privé. Cette approche vise à promouvoir à la fois l’innovation et la responsabilité.

«Les modèles entièrement ouverts permettent des applications de confiance élevée et sont indispensables pour faire progresser la recherche sur les risques et les opportunités de l’IA. Des processus transparents facilitent également la conformité réglementaire», explique Imanol Schlag, chercheur au Centre IA de l’ETH Zurich, qui pilote ce projet aux côtés des professeurs Antoine Bosselut et Martin Jaggi du Centre IA de l’EPFL.

Le multilinguisme au cœur de la conception

Une caractéristique distinctive du modèle est sa maîtrise de plus de 1500 langues. «Nous avons mis l’accent sur un multilinguisme massif dès le départ», explique Antoine Bosselut.

Contrairement aux modèles américains qui se concentrent sur l’anglais, l’entraînement du modèle de base a été réalisé sur un vaste corpus de textes dans plus de 1500 langues — environ 60 % en anglais et 40 % dans d’autres langues — ainsi que des données de code et de mathématiques. Grâce à cette représentation linguistique et culturelle, le modèle permet d’être appliqué partout dans le monde.

Conçu pour une utilisation massive et inclusive

Le modèle sera publié en deux tailles — 8 milliards et 70 milliards de paramètres — afin de répondre à un large éventail de besoins. La version «70B» devrait figurer parmi les modèles entièrement ouverts les plus puissants au monde. Le nombre de paramètres reflète la capacité d’un modèle à apprendre et à générer des réponses complexes.

Une fiabilité élevée est assurée grâce à un entraînement sur plus de 15 000 milliards de tokens de qualité (unités représentant un mot ou une partie de mot), permettant une excellente compréhension linguistique et des usages du modèle variés.

Pratiques responsables en matière de données

Le LLM est développé en tenant dûment compte des lois suisses sur la protection des données, des droits d’auteur, ainsi que des obligations de transparence du règlement européen sur l’IA (Loi sur l’IA de l’UE). Une étude récente menée par les responsables du projet montre qu’exclure le contenu protégé par copyright lors de la collecte de données ne détériore en rien les performances du modèle sur la plupart des tâches quotidiennes et l’acquisition de connaissances générales.

Le supercalculateur comme levier d’une IA souveraine

Le modèle est entraîné sur le supercalculateur «Alps» du CSCS à Lugano, l’une des plateformes d’IA les plus avancées au monde équipée de plus de 10 000 super puces NVIDIA Grace Hopper. La puissance et l’architecture du système ont permis un entraînement efficace en utilisant uniquement de l’énergie verte.

La construction d’«Alps» a été grandement facilitée par une collaboration de longue date, s’étendant sur plus de 15 ans, avec NVDIA et HPE/Cray. Ce partenariat a joué un rôle essentiel dans l’élaboration des capacités d’«Alps» en veillant à ce qu’il réponde aux exigences des charges de travail d’IA à grande échelle, y compris le pré-entraînement de LLM complexes.

«Cet entraînement est possible grâce à notre investissement stratégique dans « Alps », un supercalculateur spécialement conçu pour l’IA», explique Thomas Schulthess, directeur du CSCS et professeur à l’ETH Zurich. «Notre relation avec NVIDIA et HPE illustre la façon dont les efforts entre les institutions de recherche publique et les leaders de l’industrie peuvent conduire à une infrastructure souveraine, en encourageant l’innovation ouverte. — non seulement pour la Suisse, mais aussi pour la science et la société à l’échelle mondiale.»

Accès public et réutilisation mondiale

Cet été, le LLM sera publié sous la licence Apache 2.0. Une documentation complète accompagnera la publication, détaillant l’architecture du modèle, les méthodes d’entraînement et les recommandations d’usage afin de permettre une réutilisation transparente et un développement continu.

«En tant que scientifiques issus d’institutions publiques, nous cherchons à faire progresser les modèles ouverts et à permettre aux organisations de les adapter à leurs besoins», souligne Antoine Bosselut.

«En prônant une ouverture totale, à l’inverse des modèles commerciaux développés à huis clos, nous espérons stimuler l’innovation en Suisse, en Europe et dans le cadre de collaborations internationales. C’est également un levier essentiel pour attirer et former les meilleurs talents», conclut Martin Jaggi, professeur à l’EPFL.


À propos de la Swiss AI Initiative

Lancée en décembre 2023 par l’EPFL et l’ETH Zurich, la Swiss AI Initiative est soutenue par plus de 10 institutions académiques à travers le pays. Avec plus de 800 chercheuses et chercheurs impliqués et un accès à plus de 20 millions d’heures GPU par an sur le supercalculateur «Alps» du CSCS, elle constitue l’effort mondial le plus vaste en matière de science ouverte et de modèles de fondation open source en IA.

La Swiss AI Initiative bénéficie du soutien financier du Conseil des EPF – l’organe de gestion stratégique et de surveillance du Domaine des EPF (ETH Zurich, EPFL, PSI, WSL, Empa, Eawag) – pour la période 2025 à 2028.

La Swiss AI Initiative est dirigée par des chercheurs de l’ETH AI Center et du Centre IA de l’EPFL, qui servent tous deux d’unités régionales pour ELLIS (European Laboratory for Learning and Intelligent Systems) – un réseau européen d’IA axé sur la recherche fondamentale pour une IA digne de confiance, l’innovation technique et l’impact sociétal.


À propos du CSCS
Le Centre suisse de calcul scientifique (CSCS) est membre et partenaire du consortium LUMI, ce qui permet aux scientifiques suisses d’accéder à une infrastructure de pointe à Kajaani, en Finlande. Cette initiative s’inscrit dans la stratégie du CSCS visant à développer de futures infrastructures de calcul à très grande échelle, par le biais de collaborations multinationales, en tirant parti de régions riches en ressources hydroélectriques et en refroidissement, et en positionnant la recherche et l’innovation en IA de manière à garantir une pertinence mondiale et un impact régional.


Auteurs: Melissa Anchisi, Florian Meyer


Source (article original) : EPFL


Ce contenu est distribué sous les termes de la licence Creative Commons CC BY-SA 4.0. Vous pouvez reprendre librement les textes, vidéos et images y figurant à condition de créditer l’auteur de l’œuvre, et de ne pas restreindre son utilisation. Pour les illustrations ne contenant pas la mention CC BY-SA, l’autorisation de l’auteur est nécessaire.
Share

Laisser un commentaire