Fiche – Grands modèles de langage (LLM)

23 juin 2026.

1. Présentation générale

Les grands modèles de langage (Large Language Models ou LLM) sont des systèmes d’intelligence artificielle entraînés sur des volumes massifs de données textuelles afin de comprendre, générer, résumer, traduire ou analyser du langage naturel.

Ils constituent aujourd’hui la principale technologie à l’origine de l’essor de l’IA générative. Des systèmes tels que ChatGPT, Claude, Gemini, Mistral, Llama ou encore Le Chat reposent sur cette architecture.

D’un point de vue technique, un LLM est généralement fondé sur une architecture de type Transformer, capable de prédire statistiquement les séquences de mots les plus probables à partir d’un contexte donné.

D’un point de vue juridique, les LLM occupent une place centrale dans l’AI Act européen. Ils sont principalement appréhendés à travers la notion de modèle d’IA à usage général (General-Purpose AI Model ou GPAI), introduite lors des négociations finales du règlement.

Les articles recensés dans la base documentaire Dabo Tibi Ius montrent que les LLM sont aujourd’hui au cœur de nombreux débats concernant :

  • la propriété intellectuelle ;
  • l’entraînement des modèles ;
  • la transparence ;
  • la responsabilité ;
  • la protection des données ;
  • la souveraineté numérique ;
  • l’avenir des professions juridiques ;
  • la fiabilité des systèmes d’IA.

2. Points essentiels à retenir

  • Un LLM est un modèle d’intelligence artificielle spécialisé dans le traitement du langage.
  • Les LLM sont à la base de la plupart des outils d’IA générative actuels.
  • Ils reposent généralement sur l’architecture Transformer.
  • Ils sont entraînés sur des volumes massifs de données textuelles.
  • Les LLM peuvent produire des erreurs factuelles (« hallucinations »).
  • L’AI Act encadre les modèles d’IA à usage général, catégorie dans laquelle entrent la plupart des LLM.
  • Les questions de propriété intellectuelle et de protection des données sont particulièrement importantes pour ces modèles.

3. Définition

Définition technique

Un grand modèle de langage est un modèle statistique entraîné à partir d’ensembles massifs de textes afin de prédire la suite la plus probable d’une séquence linguistique.

Cette capacité lui permet notamment de :

  • rédiger du texte ;
  • répondre à des questions ;
  • résumer des documents ;
  • traduire ;
  • générer du code informatique ;
  • analyser des contrats ;
  • assister des recherches documentaires.

Contrairement à une idée répandue, un LLM ne « comprend » pas le langage au sens humain du terme. Il produit des résultats à partir de corrélations statistiques apprises durant l’entraînement.


Définition juridique

L’AI Act ne définit pas spécifiquement les LLM mais les appréhende à travers les notions de :

  • modèle d’IA à usage général (GPAI) ;
  • modèle d’IA à usage général présentant un risque systémique.

Les grands modèles de langage les plus puissants sont généralement concernés par ces dispositions.


4. Fonctionnement des LLM

Phase d’entraînement

Le modèle est entraîné sur d’immenses corpus de textes :

  • livres ;
  • articles ;
  • sites internet ;
  • documentation technique ;
  • bases de connaissances ;
  • données publiques.

Cette phase nécessite des ressources informatiques considérables.


Architecture Transformer

Depuis l’article fondateur :

« Attention Is All You Need » (2017)

la plupart des LLM reposent sur l’architecture Transformer.

Cette architecture permet :

  • de traiter efficacement les longues séquences ;
  • de gérer le contexte ;
  • d’améliorer les performances linguistiques.

Ajustement et alignement

Après l’entraînement initial, les modèles sont généralement affinés :

  • supervision humaine ;
  • reinforcement learning from human feedback (RLHF) ;
  • évaluations de sécurité ;
  • filtrage des contenus.

5. Principaux LLM

OpenAI

Les modèles GPT constituent l’une des familles les plus connues.

Anthropic

Les modèles Claude sont largement utilisés dans les secteurs professionnels et juridiques.

Google

Gemini constitue la principale famille de modèles de Google.

Meta

Les modèles Llama occupent une place importante dans l’écosystème open source.

Mistral AI

L’entreprise française Mistral AI développe plusieurs modèles de langage concurrents des acteurs américains.

La base documentaire Dabo Tibi Ius contient de nombreux articles consacrés à Mistral AI, à la souveraineté numérique européenne et aux modèles ouverts.


6. Les LLM et l’AI Act

Les modèles d’IA à usage général

Le règlement européen introduit une catégorie spécifique pour les GPAI.

Les obligations portent notamment sur :

  • la documentation technique ;
  • la transparence ;
  • le respect du droit d’auteur ;
  • la coopération avec les autorités.

Les modèles à risque systémique

Certains modèles très puissants peuvent être qualifiés de GPAI présentant un risque systémique.

Ils sont soumis à des obligations renforcées :

  • évaluation des risques ;
  • cybersécurité ;
  • documentation avancée ;
  • mesures d’atténuation.

7. LLM et propriété intellectuelle

La question de l’entraînement des modèles constitue l’un des principaux contentieux actuels.

Les débats portent notamment sur :

  • l’utilisation d’œuvres protégées ;
  • le text and data mining ;
  • les exceptions prévues par la directive européenne sur le droit d’auteur ;
  • la rémunération des titulaires de droits.

Source Dabo Tibi Ius

« L’efficacité judiciaire de la protection des bases de données : l’affaire Le Bon Coin c/ Jinka », Usine Digitale.

URL :
https://dabotibius.ai/lefficacite-judiciaire-de-la-protection-des-bases-de-donnees-laffaire-le-bon-coin-c-jinka/

Cet article illustre indirectement les enjeux d’accès aux données et de réutilisation de contenus numériques, particulièrement importants pour l’entraînement des modèles d’IA.


8. LLM et protection des données

Les LLM peuvent traiter des données personnelles à plusieurs niveaux :

  • données d’entraînement ;
  • données saisies par les utilisateurs ;
  • historiques de conversation ;
  • données de personnalisation.

Cette problématique explique l’importance croissante de l’articulation entre :

  • RGPD ;
  • AI Act ;
  • gouvernance des données.

Source Dabo Tibi Ius

« Intervention humaine, contrôle humain et explicabilité : propos sur l’articulation entre le Règlement sur l’intelligence artificielle et le RGPD », Liane Huttner, RDSS 2024 p. 757.

URL :
https://dabotibius.ai/intervention-humaine-controle-humain-et-explicabilite-propos-sur-larticulation-entre-le-reglement-sur-lintelligence-artificielle-et-le-rgpd/


9. LLM et professions juridiques

Les LLM transforment profondément les métiers du droit :

  • recherche juridique ;
  • analyse documentaire ;
  • rédaction contractuelle ;
  • veille réglementaire ;
  • conformité ;
  • audit.

Ils ne remplacent toutefois pas le raisonnement juridique humain.

Les risques identifiés sont notamment :

  • hallucinations ;
  • erreurs de qualification ;
  • biais ;
  • absence de sources ;
  • manque d’explicabilité.

10. Jurisprudence et contentieux

La jurisprudence spécifique aux LLM demeure encore émergente.

Les contentieux actuels concernent principalement :

  • le droit d’auteur ;
  • la protection des données ;
  • la concurrence ;
  • les obligations de transparence ;
  • les responsabilités des fournisseurs de modèles.

L’évolution de ces contentieux devrait jouer un rôle majeur dans l’interprétation future de l’AI Act.


11. État actuel des débats

Les LLM comprennent-ils réellement le langage ?

Les chercheurs demeurent divisés.

Certains considèrent qu’ils développent des formes émergentes de raisonnement.

D’autres estiment qu’ils restent fondamentalement des systèmes statistiques.


Faut-il ouvrir les modèles ?

Le débat oppose :

  • les défenseurs de l’open source ;
  • les partisans d’un contrôle plus strict des modèles puissants.

La transparence est-elle suffisante ?

L’AI Act impose certaines obligations de transparence.

De nombreux chercheurs estiment toutefois que les LLM demeurent largement opaques.


Les LLM menacent-ils certaines professions ?

Les articles de la base Dabo Tibi Ius consacrés aux professions juridiques, à l’audit, au conseil et à la conformité montrent que la question fait l’objet de débats nourris.

La tendance dominante consiste aujourd’hui à considérer les LLM comme des outils d’assistance plutôt que comme des substituts complets aux professionnels.


12. Actualité récente

Les développements récents concernent principalement :

  • l’entrée en application progressive de l’AI Act ;
  • les obligations applicables aux GPAI ;
  • les contentieux liés aux données d’entraînement ;
  • les enjeux de souveraineté européenne ;
  • l’émergence de modèles ouverts européens.

Les articles Dabo Tibi Ius consacrés à l’AI Act, à Mistral AI, aux GPAI et à la documentation technique constituent des ressources particulièrement utiles pour suivre ces évolutions.


13. FAQ

Qu’est-ce qu’un LLM ?

Un modèle d’intelligence artificielle capable de traiter et générer du langage naturel.

ChatGPT est-il un LLM ?

ChatGPT repose sur un LLM de la famille GPT.

Les LLM sont-ils intelligents ?

Ils produisent des résultats sophistiqués mais ne disposent pas d’intelligence humaine au sens juridique ou philosophique.

Les LLM peuvent-ils se tromper ?

Oui. Ils peuvent générer des informations erronées ou inventées.

Les LLM sont-ils réglementés ?

Oui. L’AI Act prévoit un régime spécifique pour les modèles d’IA à usage général.

Les LLM peuvent-ils remplacer un avocat ?

Non. Ils peuvent assister certaines tâches mais ne remplacent ni le raisonnement juridique ni la responsabilité professionnelle.


Sources Dabo Tibi Ius mobilisées

Méthodologie : Cette fiche a été générée avec l’assistance de l’intelligence artificielle à partir de la base documentaire Dabo Tibi Ius et de sources complémentaires sélectionnées. Elle a vocation à fournir une synthèse informative et ne constitue pas un avis juridique.