Droit & Intelligence artificielle – Tu IA Droit

Fiche – Données personnelles et intelligence artificielle – Présentation générale

8 juin 2026

1. Présentation générale

Les données personnelles constituent l’un des fondements techniques et juridiques de l’intelligence artificielle moderne. Les systèmes d’IA, qu’ils soient utilisés pour la reconnaissance d’images, les systèmes de recommandation, l’analyse prédictive ou l’intelligence artificielle générative, reposent généralement sur l’exploitation de volumes considérables de données.

Cette dépendance aux données place la protection des données personnelles au cœur du droit de l’intelligence artificielle. En Europe, le principal cadre juridique applicable demeure le Règlement général sur la protection des données (RGPD), auquel s’ajoutent progressivement l’AI Act, le Data Act, le Data Governance Act ainsi que diverses recommandations des autorités de contrôle, notamment la CNIL.

L’essor des modèles de fondation (foundation models) et de l’IA générative a profondément renouvelé les débats. Les questions juridiques ne concernent plus seulement la collecte initiale des données mais également :

  • les données d’entraînement ;
  • le webscraping ;
  • la réutilisation des données ;
  • les droits des personnes concernées ;
  • le droit à l’effacement ;
  • la mémoire des modèles ;
  • l’anonymisation ;
  • la réidentification ;
  • la gouvernance des données.

Les articles publiés sur Dabo Tibi Ius montrent que les données personnelles sont devenues l’un des principaux points de rencontre entre le droit de l’intelligence artificielle, la protection de la vie privée et les droits fondamentaux.


2. Points essentiels à retenir

  • Le RGPD demeure le principal texte applicable aux données personnelles utilisées par les systèmes d’IA.
  • L’AI Act complète le RGPD sans s’y substituer.
  • Les données d’entraînement constituent aujourd’hui l’un des principaux enjeux juridiques de l’IA générative.
  • Le webscraping soulève des difficultés importantes concernant la licéité des traitements.
  • Le droit à l’oubli se heurte aux spécificités techniques des modèles d’IA.
  • Les risques de réidentification remettent en question certaines approches traditionnelles de l’anonymisation.
  • La CNIL joue un rôle majeur dans l’interprétation des règles applicables à l’IA.

3. Qu’est-ce qu’une donnée personnelle ?

Définition

L’article 4 du RGPD définit la donnée personnelle comme :

« toute information se rapportant à une personne physique identifiée ou identifiable ».

La notion est particulièrement large.

Peuvent notamment constituer des données personnelles :

  • un nom ;
  • une adresse électronique ;
  • une photographie ;
  • une adresse IP ;
  • un identifiant numérique ;
  • des données de localisation ;
  • des données biométriques ;
  • des données professionnelles.

Dans le contexte de l’intelligence artificielle, cette définition revêt une importance particulière car les ensembles de données utilisés pour entraîner les modèles peuvent contenir un grand nombre d’informations relatives à des personnes physiques.


4. Le RGPD comme socle juridique de l’IA

Contrairement à une idée parfois répandue, le RGPD s’applique pleinement aux systèmes d’intelligence artificielle dès lors qu’ils traitent des données personnelles.

Les principes fondamentaux demeurent applicables :

Licéité

Tout traitement doit reposer sur une base légale.

Transparence

Les personnes concernées doivent être informées du traitement.

Limitation des finalités

Les données ne peuvent être utilisées pour des finalités incompatibles avec celles initialement prévues.

Minimisation

Seules les données nécessaires doivent être collectées.

Sécurité

Les responsables du traitement doivent mettre en œuvre des mesures adaptées de protection.

Le RGPD constitue aujourd’hui le principal instrument juridique de protection des individus face aux usages de l’IA.


5. Les données d’entraînement : le défi majeur de l’IA générative

Pourquoi les données d’entraînement sont-elles essentielles?

Les systèmes d’IA apprennent à partir de données.

La qualité, la quantité et la diversité des données utilisées influencent directement :

  • les performances ;
  • les biais ;
  • la fiabilité ;
  • la robustesse des modèles.

La question du webscraping

Le développement des grands modèles de langage a mis en lumière la pratique du webscraping.

Cette technique consiste à collecter automatiquement des contenus accessibles sur Internet afin de constituer des bases d’entraînement.

Les principales questions juridiques sont :

  • la base légale du traitement ;
  • l’information des personnes concernées ;
  • la proportionnalité de la collecte ;
  • l’exercice des droits RGPD.

Les publications de Dabo Tibi Ius montrent que ce sujet constitue aujourd’hui l’un des principaux enjeux de conformité des systèmes d’IA.


6. IA générative et données personnelles

L’IA générative soulève des difficultés nouvelles.

Les modèles peuvent :

  • reproduire certaines données personnelles ;
  • mémoriser des informations ;
  • générer des contenus concernant des personnes identifiables ;
  • révéler involontairement certaines données.

Ces situations interrogent directement :

  • la responsabilité des acteurs ;
  • la gouvernance des données ;
  • l’effectivité des droits des personnes concernées.

7. Droit à l’oubli et mémoire des modèles

Une tension technologique inédite

Le droit à l’effacement est consacré par l’article 17 du RGPD.

Cependant, son application aux systèmes d’IA soulève des difficultés techniques importantes.

Les débats portent notamment sur :

  • l’effacement des données d’entraînement ;
  • la mémoire des modèles ;
  • les mécanismes de désapprentissage (machine unlearning) ;
  • la suppression effective des informations.

Les travaux recensés par Dabo Tibi Ius montrent que cette question figure parmi les plus complexes du droit contemporain de l’IA.


8. Décisions automatisées et profilage

L’intelligence artificielle est fréquemment utilisée pour :

  • le scoring ;
  • l’évaluation de solvabilité ;
  • le recrutement ;
  • la détection de fraude ;
  • les recommandations personnalisées.

Ces traitements peuvent relever de l’article 22 du RGPD relatif aux décisions fondées exclusivement sur un traitement automatisé.

Jurisprudence majeure

CJUE, Grande Chambre, 7 décembre 2023, SCHUFA Holding AG, affaire C-634/21

Apport

La Cour a jugé que certaines formes de notation automatisée peuvent constituer une décision automatisée au sens de l’article 22 du RGPD.

Cette décision est devenue une référence majeure pour les systèmes de scoring fondés sur l’intelligence artificielle.


9. Open data, anonymisation et réidentification

L’ouverture croissante des données publiques soulève des interrogations nouvelles.

Les capacités des systèmes d’IA rendent parfois possible :

  • le croisement massif de données ;
  • la réidentification de personnes ;
  • la reconstruction de profils individuels.

Cette évolution conduit à repenser :

  • l’anonymisation ;
  • la pseudonymisation ;
  • les politiques d’open data.

10. L’articulation entre le RGPD et l’AI Act

Le RGPD et l’AI Act poursuivent des objectifs complémentaires.

Le RGPD protège les personnes concernées.

L’AI Act encadre les systèmes d’intelligence artificielle.

Leur articulation constitue aujourd’hui l’un des principaux sujets de conformité pour les organisations développant ou utilisant des systèmes d’IA.

Les questions les plus débattues concernent :

  • la supervision humaine ;
  • l’explicabilité ;
  • la gestion des risques ;
  • la gouvernance des données ;
  • les systèmes à haut risque.

11. État actuel des débats

Les données d’entraînement sont-elles licites ?

Les autorités européennes examinent de plus en plus attentivement les pratiques de collecte utilisées pour entraîner les modèles.


Comment exercer le droit à l’effacement face à un modèle d’IA ?

L’effectivité du droit à l’oubli demeure discutée.


L’anonymisation est-elle encore suffisante ?

Les progrès des capacités de réidentification alimentent un débat croissant.


Le RGPD est-il suffisant ?

L’adoption de l’AI Act a relancé les discussions sur la nécessité d’un encadrement spécifique de l’intelligence artificielle.


12. Articles Dabo Tibi Ius de référence

Articles fondamentaux

« IA et RGPD : les recommandations de la CNIL à l’épreuve du droit »

Date : 27 janvier 2026
Thèmes : RGPD, conformité, CNIL, IA


« Comment déployer une IA générative ? La CNIL apporte de premières précisions »

Date : 24 janvier 2026
Thèmes : IA générative, conformité, données personnelles


« La protection des données personnelles prend-elle de vitesse le règlement sur l’IA ? »

Date : 13 février 2026 (mise à jour 20 février 2026)
Thèmes : RGPD, AI Act, gouvernance des données


Données d’entraînement et webscraping

« Ai-je le droit d’entraîner mon IA sur des données scrappées ? »

Date : 1er avril 2026
Thèmes : webscraping, données d’entraînement, base légale


« Revoir le webinaire – Développement d’un système IA, webscraping : comment mobiliser la base légale de l’intérêt légitime ? »

Date : 3 avril 2026
Thèmes : intérêt légitime, collecte de données, entraînement des modèles


IA générative et données personnelles

« L’intelligence artificielle générative et protection des données personnelles : quelles responsabilités ? »

Date : 13 février 2026
Thèmes : responsabilité, IA générative, données personnelles


« Le droit à l’oubli à l’ère de ChatGPT : un droit “effacé” »

Date : 12 mars 2026
Thèmes : droit à l’effacement, mémoire des modèles, RGPD


« Questions juridiques autour de la mémoire de l’IA »

Date : 1er avril 2026
Thèmes : conservation des données, mémoire algorithmique


Open data et anonymisation

« L’open data au défi de l’IA : comment assurer une bonne anonymisation des décisions de justice ? »

Date : 20 février 2026
Thèmes : anonymisation, réidentification, open data


« Open data sans IA ? »

Date : 13 février 2026
Thèmes : données publiques, intelligence artificielle


13. Pour aller plus loin

Fiches Dabo Tibi Ius connexes

  • RGPD
  • AI Act
  • Données personnelles
  • CNIL
  • IA générative
  • Open data
  • Gouvernance de l’IA
  • Droits et libertés fondamentaux
  • Explicabilité
  • Systèmes d’IA à haut risque

Méthodologie : Cette fiche a été générée avec l’assistance de l’intelligence artificielle à partir de la base documentaire Dabo Tibi Ius, en privilégiant les articles de la catégorie « Données personnelles et IA », notamment ceux consacrés au RGPD, à la CNIL, au webscraping, aux données d’entraînement, au droit à l’oubli, à la mémoire des modèles, à l’open data et à l’articulation entre le RGPD et l’AI Act. Elle a vocation à fournir une synthèse informative et pédagogique et ne constitue pas un avis juridique.