Droit & Intelligence artificielle – Tu IA Droit

Fiche – Modèles de fondation (Foundation Models)

19 juin 2026.

1. Présentation générale

Les modèles de fondation (Foundation Models) constituent l’une des évolutions majeures de l’intelligence artificielle contemporaine. Le terme a été popularisé en 2021 par le Center for Research on Foundation Models (CRFM) de Stanford University pour désigner des modèles entraînés sur d’immenses volumes de données et capables d’être adaptés à une grande variété de tâches.

Contrairement aux modèles traditionnels conçus pour une fonction spécifique (classification d’images, détection de fraude, traduction, etc.), les modèles de fondation sont des modèles généralistes. Ils servent de base à de multiples applications grâce à des techniques telles que le fine-tuning, le prompt engineeringou la génération augmentée par récupération (RAG).

Les modèles de fondation constituent aujourd’hui l’infrastructure technologique de la plupart des systèmes d’IA générative. Ils sont utilisés pour produire du texte, des images, du son, du code informatique ou encore pour piloter des robots et systèmes autonomes.

L’AI Act européen a consacré une place spécifique à ces modèles sous la catégorie des modèles d’IA à usage général (General Purpose AI Models – GPAI), dont certains peuvent être qualifiés de modèles présentant un risque systémique.


2. Points essentiels à retenir

  • Un modèle de fondation est un modèle généraliste entraîné sur des volumes massifs de données.
  • Il peut être réutilisé pour de nombreuses tâches différentes.
  • Les grands modèles de langage (LLM) constituent une catégorie particulière de modèles de fondation.
  • Tous les modèles de fondation ne sont pas nécessairement génératifs.
  • Les modèles de fondation sont au cœur de l’IA générative moderne.
  • L’AI Act introduit un régime juridique spécifique pour les modèles d’IA à usage général (GPAI).
  • Les principaux enjeux concernent :
    • la transparence ;
    • les données d’entraînement ;
    • le droit d’auteur ;
    • la cybersécurité ;
    • les biais ;
    • la responsabilité ;
    • la gouvernance.

3. Définition

Origine du concept

Selon la définition proposée par les chercheurs du CRFM de Stanford, un modèle de fondation est un modèle :

  • entraîné à grande échelle ;
  • utilisant l’apprentissage auto-supervisé ;
  • pouvant être adapté à de multiples usages.

L’idée centrale est qu’un même modèle sert de « fondation » à de nombreuses applications.


Caractéristiques principales

Polyvalence

Un même modèle peut être utilisé pour :

  • rédiger un texte ;
  • résumer un document ;
  • traduire ;
  • répondre à des questions ;
  • analyser des données ;
  • générer du code.

Adaptabilité

Le modèle peut être spécialisé pour un domaine particulier :

  • santé ;
  • finance ;
  • industrie ;
  • droit ;
  • recherche scientifique.

Effet d’infrastructure

Les modèles de fondation tendent à devenir des infrastructures numériques comparables à des plateformes technologiques.

De nombreuses applications reposent sur eux sans que les utilisateurs finaux aient nécessairement conscience du modèle sous-jacent.


4. Différence entre modèle de fondation et IA générative

Ces notions sont proches mais ne sont pas synonymes.

Modèle de fondationIA générative
Infrastructure généraleApplication ou capacité
Peut être génératif ou nonGénère du contenu
Réutilisable pour de multiples tâchesUtilise souvent un modèle de fondation
Constitue une base technologiqueConstitue un usage

Ainsi :

  • tous les systèmes d’IA générative modernes reposent généralement sur un modèle de fondation ;
  • tous les modèles de fondation ne sont pas nécessairement utilisés à des fins génératives.

5. Principales catégories

Large Language Models (LLM)

Exemples :

  • OpenAI (GPT)
  • Anthropic (Claude)
  • Google (Gemini)
  • Meta (Llama)
  • Mistral AI (Mistral)

Modèles multimodaux

Ils traitent simultanément :

  • texte ;
  • image ;
  • audio ;
  • vidéo.

Modèles de vision

Utilisés pour :

  • reconnaissance d’objets ;
  • analyse d’images ;
  • traitement vidéo.

Modèles pour la robotique

Ces modèles servent désormais à la Physical AI et aux robots autonomes.

Ils permettent :

  • la planification ;
  • la perception ;
  • l’interaction avec l’environnement.

6. Cycle de développement

Collecte des données

Les données peuvent provenir :

  • du web ;
  • de bases documentaires ;
  • de données publiques ;
  • de bases privées ;
  • de données synthétiques.

Cette étape est aujourd’hui au cœur des contentieux relatifs au droit d’auteur.


Pré-entraînement

Le modèle apprend des corrélations statistiques sur des corpus massifs.

Cette phase nécessite généralement :

  • d’importantes ressources informatiques ;
  • des centres de données spécialisés ;
  • des processeurs graphiques (GPU).

Adaptation

Le modèle est ensuite spécialisé grâce :

  • au fine-tuning ;
  • au RLHF (Reinforcement Learning from Human Feedback) ;
  • aux techniques RAG.

7. Cadre juridique

AI Act

Le règlement (UE) 2024/1689 a introduit un régime spécifique pour les modèles d’IA à usage général.

Obligations générales

Les fournisseurs doivent notamment :

  • établir une documentation technique ;
  • fournir des informations aux intégrateurs ;
  • respecter les règles européennes relatives au droit d’auteur ;
  • publier un résumé suffisamment détaillé des données d’entraînement.

Modèles présentant un risque systémique

Certains modèles très puissants sont soumis à des obligations supplémentaires :

  • évaluation des risques ;
  • cybersécurité renforcée ;
  • signalement des incidents graves ;
  • documentation accrue.

Droit d’auteur

La question des données d’entraînement constitue l’un des principaux sujets de débat.

Les problématiques concernent notamment :

  • la fouille de textes et de données (TDM) ;
  • l’opt-out des titulaires de droits ;
  • la transparence des corpus d’entraînement ;
  • la rémunération éventuelle des ayants droit.

Protection des données personnelles

Lorsque les données d’entraînement contiennent des données personnelles :

  • le RGPD peut s’appliquer ;
  • les principes de minimisation et de licéité doivent être respectés.

8. Jurisprudence et contentieux

Une part importante du contentieux mondial relatif à l’IA concerne désormais les modèles de fondation.

Les principales affaires portent sur :

  • l’utilisation d’œuvres protégées ;
  • les données d’entraînement ;
  • la concurrence ;
  • les atteintes aux données personnelles.

De nombreux litiges restent pendants, notamment aux États-Unis.


9. Acteurs principaux

Développeurs de modèles

  • OpenAI
  • Anthropic
  • Google
  • Meta
  • Mistral AI
  • xAI

Autorités publiques

  • Commission européenne
  • AI Office
  • CNIL

Recherche

  • Stanford University
  • OECD

10. État actuel des débats

Transparence des données d’entraînement

L’un des principaux débats concerne la publication des données utilisées pour entraîner les modèles.

Les ayants droit demandent davantage de transparence tandis que les développeurs invoquent :

  • le secret des affaires ;
  • les contraintes techniques ;
  • la sécurité.

Concentration du marché

Le développement des modèles de fondation nécessite des investissements considérables.

Cette situation favorise la concentration autour de quelques acteurs disposant :

  • d’importantes capacités de calcul ;
  • d’un accès privilégié aux données ;
  • d’infrastructures cloud massives.

Risque systémique

Les institutions européennes s’interrogent sur les risques liés aux modèles les plus puissants :

  • désinformation ;
  • cyberattaques ;
  • manipulation ;
  • dépendance économique ;
  • atteintes aux droits fondamentaux.

Impact environnemental

Le coût énergétique de l’entraînement et de l’exploitation des modèles fait l’objet d’un débat croissant.

Certaines tribunes récentes soulignent les conséquences potentielles :

  • consommation énergétique ;
  • consommation d’eau ;
  • multiplication des centres de données ;
  • empreinte carbone.

11. Actualité récente

Les tendances observées en 2025-2026 montrent :

  • le déploiement progressif du régime GPAI de l’AI Act ;
  • l’intensification des débats sur la transparence des données d’entraînement ;
  • le développement rapide des modèles multimodaux ;
  • l’émergence de modèles destinés à la robotique et à la Physical AI ;
  • l’apparition de discussions sur les modèles dits « à risque systémique ».

Les analyses doctrinales récentes recensées dans l’écosystème juridique de l’IA montrent également une attention croissante portée aux obligations de transparence, à la gouvernance des modèles de fondation et aux rapports entre innovation et protection des droits fondamentaux.


12. FAQ

Qu’est-ce qu’un modèle de fondation ?

Un modèle généraliste entraîné à grande échelle pouvant être adapté à de nombreux usages.

Un LLM est-il un modèle de fondation ?

Oui. Les grands modèles de langage constituent une catégorie de modèles de fondation.

Tous les modèles de fondation sont-ils génératifs ?

Non. Certains servent principalement à l’analyse ou à la prédiction.

Pourquoi sont-ils importants ?

Parce qu’ils servent de base à un très grand nombre d’applications d’IA.

L’AI Act réglemente-t-il les modèles de fondation ?

Oui, sous la catégorie des modèles d’IA à usage général (GPAI).

Quels sont les principaux risques ?

Biais, manque de transparence, atteintes au droit d’auteur, cybersécurité, concentration économique et impact environnemental.


Ressources essentielles

Texte principal

  • Règlement (UE) 2024/1689 du 13 juin 2024 (AI Act).

Documents de référence

  • Bommasani et al., On the Opportunities and Risks of Foundation Models, Stanford CRFM, 2021.
  • Travaux de l’AI Office européen sur les GPAI.
  • Travaux de l’OCDE sur les modèles de fondation.

Sources documentaires

  • Bommasani et al., On the Opportunities and Risks of Foundation Models, Stanford Center for Research on Foundation Models, 2021.
  • Règlement (UE) 2024/1689 (AI Act), notamment les dispositions relatives aux modèles d’IA à usage général (GPAI).
  • Publications doctrinales et actualités récentes relatives à la transparence des données d’entraînement, au droit d’auteur et à la gouvernance des modèles de fondation.

Méthodologie : Cette fiche a été générée avec l’assistance de l’intelligence artificielle à partir de la documentation disponible, des textes européens applicables et des travaux académiques de référence. Elle a vocation à fournir une synthèse informative et ne constitue pas un avis juridique.

Fiches Dabo Tibi Ius :