19 juin 2026.
1. Présentation générale
Les modèles de fondation (Foundation Models) constituent l’une des évolutions majeures de l’intelligence artificielle contemporaine. Le terme a été popularisé en 2021 par le Center for Research on Foundation Models (CRFM) de Stanford University pour désigner des modèles entraînés sur d’immenses volumes de données et capables d’être adaptés à une grande variété de tâches.
Contrairement aux modèles traditionnels conçus pour une fonction spécifique (classification d’images, détection de fraude, traduction, etc.), les modèles de fondation sont des modèles généralistes. Ils servent de base à de multiples applications grâce à des techniques telles que le fine-tuning, le prompt engineeringou la génération augmentée par récupération (RAG).
Les modèles de fondation constituent aujourd’hui l’infrastructure technologique de la plupart des systèmes d’IA générative. Ils sont utilisés pour produire du texte, des images, du son, du code informatique ou encore pour piloter des robots et systèmes autonomes.
L’AI Act européen a consacré une place spécifique à ces modèles sous la catégorie des modèles d’IA à usage général (General Purpose AI Models – GPAI), dont certains peuvent être qualifiés de modèles présentant un risque systémique.
2. Points essentiels à retenir
- Un modèle de fondation est un modèle généraliste entraîné sur des volumes massifs de données.
- Il peut être réutilisé pour de nombreuses tâches différentes.
- Les grands modèles de langage (LLM) constituent une catégorie particulière de modèles de fondation.
- Tous les modèles de fondation ne sont pas nécessairement génératifs.
- Les modèles de fondation sont au cœur de l’IA générative moderne.
- L’AI Act introduit un régime juridique spécifique pour les modèles d’IA à usage général (GPAI).
- Les principaux enjeux concernent :
- la transparence ;
- les données d’entraînement ;
- le droit d’auteur ;
- la cybersécurité ;
- les biais ;
- la responsabilité ;
- la gouvernance.
3. Définition
Origine du concept
Selon la définition proposée par les chercheurs du CRFM de Stanford, un modèle de fondation est un modèle :
- entraîné à grande échelle ;
- utilisant l’apprentissage auto-supervisé ;
- pouvant être adapté à de multiples usages.
L’idée centrale est qu’un même modèle sert de « fondation » à de nombreuses applications.
Caractéristiques principales
Polyvalence
Un même modèle peut être utilisé pour :
- rédiger un texte ;
- résumer un document ;
- traduire ;
- répondre à des questions ;
- analyser des données ;
- générer du code.
Adaptabilité
Le modèle peut être spécialisé pour un domaine particulier :
- santé ;
- finance ;
- industrie ;
- droit ;
- recherche scientifique.
Effet d’infrastructure
Les modèles de fondation tendent à devenir des infrastructures numériques comparables à des plateformes technologiques.
De nombreuses applications reposent sur eux sans que les utilisateurs finaux aient nécessairement conscience du modèle sous-jacent.
4. Différence entre modèle de fondation et IA générative
Ces notions sont proches mais ne sont pas synonymes.
| Modèle de fondation | IA générative |
|---|---|
| Infrastructure générale | Application ou capacité |
| Peut être génératif ou non | Génère du contenu |
| Réutilisable pour de multiples tâches | Utilise souvent un modèle de fondation |
| Constitue une base technologique | Constitue un usage |
Ainsi :
- tous les systèmes d’IA générative modernes reposent généralement sur un modèle de fondation ;
- tous les modèles de fondation ne sont pas nécessairement utilisés à des fins génératives.
5. Principales catégories
Large Language Models (LLM)
Exemples :
- OpenAI (GPT)
- Anthropic (Claude)
- Google (Gemini)
- Meta (Llama)
- Mistral AI (Mistral)
Modèles multimodaux
Ils traitent simultanément :
- texte ;
- image ;
- audio ;
- vidéo.
Modèles de vision
Utilisés pour :
- reconnaissance d’objets ;
- analyse d’images ;
- traitement vidéo.
Modèles pour la robotique
Ces modèles servent désormais à la Physical AI et aux robots autonomes.
Ils permettent :
- la planification ;
- la perception ;
- l’interaction avec l’environnement.
6. Cycle de développement
Collecte des données
Les données peuvent provenir :
- du web ;
- de bases documentaires ;
- de données publiques ;
- de bases privées ;
- de données synthétiques.
Cette étape est aujourd’hui au cœur des contentieux relatifs au droit d’auteur.
Pré-entraînement
Le modèle apprend des corrélations statistiques sur des corpus massifs.
Cette phase nécessite généralement :
- d’importantes ressources informatiques ;
- des centres de données spécialisés ;
- des processeurs graphiques (GPU).
Adaptation
Le modèle est ensuite spécialisé grâce :
- au fine-tuning ;
- au RLHF (Reinforcement Learning from Human Feedback) ;
- aux techniques RAG.
7. Cadre juridique
AI Act
Le règlement (UE) 2024/1689 a introduit un régime spécifique pour les modèles d’IA à usage général.
Obligations générales
Les fournisseurs doivent notamment :
- établir une documentation technique ;
- fournir des informations aux intégrateurs ;
- respecter les règles européennes relatives au droit d’auteur ;
- publier un résumé suffisamment détaillé des données d’entraînement.
Modèles présentant un risque systémique
Certains modèles très puissants sont soumis à des obligations supplémentaires :
- évaluation des risques ;
- cybersécurité renforcée ;
- signalement des incidents graves ;
- documentation accrue.
Droit d’auteur
La question des données d’entraînement constitue l’un des principaux sujets de débat.
Les problématiques concernent notamment :
- la fouille de textes et de données (TDM) ;
- l’opt-out des titulaires de droits ;
- la transparence des corpus d’entraînement ;
- la rémunération éventuelle des ayants droit.
Protection des données personnelles
Lorsque les données d’entraînement contiennent des données personnelles :
- le RGPD peut s’appliquer ;
- les principes de minimisation et de licéité doivent être respectés.
8. Jurisprudence et contentieux
Une part importante du contentieux mondial relatif à l’IA concerne désormais les modèles de fondation.
Les principales affaires portent sur :
- l’utilisation d’œuvres protégées ;
- les données d’entraînement ;
- la concurrence ;
- les atteintes aux données personnelles.
De nombreux litiges restent pendants, notamment aux États-Unis.
9. Acteurs principaux
Développeurs de modèles
- OpenAI
- Anthropic
- Meta
- Mistral AI
- xAI
Autorités publiques
- Commission européenne
- AI Office
- CNIL
Recherche
- Stanford University
- OECD
10. État actuel des débats
Transparence des données d’entraînement
L’un des principaux débats concerne la publication des données utilisées pour entraîner les modèles.
Les ayants droit demandent davantage de transparence tandis que les développeurs invoquent :
- le secret des affaires ;
- les contraintes techniques ;
- la sécurité.
Concentration du marché
Le développement des modèles de fondation nécessite des investissements considérables.
Cette situation favorise la concentration autour de quelques acteurs disposant :
- d’importantes capacités de calcul ;
- d’un accès privilégié aux données ;
- d’infrastructures cloud massives.
Risque systémique
Les institutions européennes s’interrogent sur les risques liés aux modèles les plus puissants :
- désinformation ;
- cyberattaques ;
- manipulation ;
- dépendance économique ;
- atteintes aux droits fondamentaux.
Impact environnemental
Le coût énergétique de l’entraînement et de l’exploitation des modèles fait l’objet d’un débat croissant.
Certaines tribunes récentes soulignent les conséquences potentielles :
- consommation énergétique ;
- consommation d’eau ;
- multiplication des centres de données ;
- empreinte carbone.
11. Actualité récente
Les tendances observées en 2025-2026 montrent :
- le déploiement progressif du régime GPAI de l’AI Act ;
- l’intensification des débats sur la transparence des données d’entraînement ;
- le développement rapide des modèles multimodaux ;
- l’émergence de modèles destinés à la robotique et à la Physical AI ;
- l’apparition de discussions sur les modèles dits « à risque systémique ».
Les analyses doctrinales récentes recensées dans l’écosystème juridique de l’IA montrent également une attention croissante portée aux obligations de transparence, à la gouvernance des modèles de fondation et aux rapports entre innovation et protection des droits fondamentaux.
12. FAQ
Qu’est-ce qu’un modèle de fondation ?
Un modèle généraliste entraîné à grande échelle pouvant être adapté à de nombreux usages.
Un LLM est-il un modèle de fondation ?
Oui. Les grands modèles de langage constituent une catégorie de modèles de fondation.
Tous les modèles de fondation sont-ils génératifs ?
Non. Certains servent principalement à l’analyse ou à la prédiction.
Pourquoi sont-ils importants ?
Parce qu’ils servent de base à un très grand nombre d’applications d’IA.
L’AI Act réglemente-t-il les modèles de fondation ?
Oui, sous la catégorie des modèles d’IA à usage général (GPAI).
Quels sont les principaux risques ?
Biais, manque de transparence, atteintes au droit d’auteur, cybersécurité, concentration économique et impact environnemental.
Ressources essentielles
Texte principal
- Règlement (UE) 2024/1689 du 13 juin 2024 (AI Act).
Documents de référence
- Bommasani et al., On the Opportunities and Risks of Foundation Models, Stanford CRFM, 2021.
- Travaux de l’AI Office européen sur les GPAI.
- Travaux de l’OCDE sur les modèles de fondation.
Sources documentaires
- Bommasani et al., On the Opportunities and Risks of Foundation Models, Stanford Center for Research on Foundation Models, 2021.
- Règlement (UE) 2024/1689 (AI Act), notamment les dispositions relatives aux modèles d’IA à usage général (GPAI).
- Publications doctrinales et actualités récentes relatives à la transparence des données d’entraînement, au droit d’auteur et à la gouvernance des modèles de fondation.
Méthodologie : Cette fiche a été générée avec l’assistance de l’intelligence artificielle à partir de la documentation disponible, des textes européens applicables et des travaux académiques de référence. Elle a vocation à fournir une synthèse informative et ne constitue pas un avis juridique.
Fiches Dabo Tibi Ius :
- IA générative
- Large Language Models (LLM)
- Règlement IA
- Entraînement des données
- Transparence algorithmique
- Physical AI
- Agent IA
- RAG (Retrieval-Augmented Generation)
- Droit d’auteur et IA
- Modèles GPAI

