Parlons RIA, Règlement sur l’Intelligence Artificielle | Les données et la gouvernance des données dans le cadre des systèmes d’IA à haut risque

Dans ce sixième épisode, les experts de TNP Trust reviennent sur la notion d’explicabilité dans l’intelligence artificielle et sur sa mise en oeuvre opérationnelle.
Nos experts Rim Ferhah et El Yazid DAKHIL, spécialistes du cadre réglementaire de l’IA chez TNP, abordent la thématique des données et de la gouvernance des données dans le cadre des systèmes d’IA à haut risque, telle que prévue par le Règlement IA (RIA ou AI Act).
Ils abordent les points clés suivants :
- Les définitions de l’article 3 du RIA (données d’entrainement, de validation et de test)
- Une description opérationnelle des phases d’entrainement, de validation et de test d’un modèle d’IA
- Une analyse des exigences de l’article 10 du RIA relatives à la gouvernance des données

Parlons RIA, règlement sur l’Intelligence Artificielle, c’est quoi ?
Une série de podcasts lancée par TNP TRUST DATA PROTECTION & AI, dédiée au cadre réglementaire de l’intelligence artificielle, pour comprendre les enjeux du Règlement IA, ses impacts opérationnels et les clés d’une gouvernance conforme.
Rim
Bonjour à toutes et à tous, et bienvenue dans ce nouvel épisode de Parlons RIA, le podcast dédié au décryptage du cadre réglementaire de l’intelligence artificielle.
Je suis Rim FERHAH, Directrice Associée au sein de TNP consultants, et aujourd’hui j’ai le plaisir d’échanger avec El Yazid DAKHIL consultant data scientiste dans l’équipe TNP TRUST.
Dans cet épisode, nous allons nous concentrer sur un sujet clé du RIA : les données et la gouvernance des données dans le cadre des systèmes d’IA à haut risque. Nous allons commencer par les définitions de l’article 3, avant d’illustrer concrètement les phases d’entrainement, de validation et de test d’un modèle d’IA, et ensuite on analysera point par point les exigences de l’article 10 applicable à ces systèmes.
Commençons par les définitions posées par le RIA, qui distingue plusieurs types de données tout au long du cycle de vie d’un système d’IA.
Yazid
Oui, première catégorie : « les données d’entrainement ». Ce sont les données utilisées pour entraîner un système d’IA en ajustant ses paramètres entraînables. » C’est la définition donnée à l’Article 3, point 29.
Ensuite, on a les données de validation. Le règlement les définit comme « les données utilisées pour fournir une évaluation du système d’IA entraîné et pour régler ses paramètres non entraînables ainsi que son processus d’apprentissage, afin, notamment, d’éviter tout sous-ajustement ou surajustement. » C’est l’Article 3, point 30.
Et enfin, les données de test. « Les données utilisées pour fournir une évaluation indépendante du système d’IA afin de confirmer la performance attendue de ce système avant sa mise sur le marché ou sa mise en service. » Définition de l’Article 3, point 32.
Rim
Le RIA définit donc les notions de données d’entrainement de validation et de test. Mais concrètement comment se déroule le processus de développement d’un modèle d’IA ? et comment s’articule ces 3 phases dans la pratique ?
Yazid
Concrètement, le processus est le suivant. D’abord, le modèle s’entraîne sur des données, c’est-à-dire qu’il ajuste ses paramètres internes en fonction des données qu’il reçoit et des « patterns » qu’il identifie au sein de ces données.
Analogie de l’examen : c’est la période des cours et des révisions.
Ensuite, le modèle est évalué sur un nouveau jeu de données. On lui demande de réaliser des inférences sur ces données. Dans le cas de l’entraînement supervisé, on ne fournit au modèle que les questions et pas les réponses. Les réponses sont conservées afin de mesurer le taux d’erreur du modèle.
Rim
À ce stade, une version définitive ou proche d’être définitive du modèle n’existe pas encore, c’est bien ça ?
Yazid
Exactement. Des paramètres d’architecture du modèle peuvent encore être modifiés. Ce sont les paramètres appelés par le RIA comme étant des paramètres non entrainables, c’est-à-dire des paramètres qui ne s’ajustent pas durant l’entraînement mais qui sont fixés en amont de l’entrainement.
Rim
Cette phase sert également à détecter le surapprentissage et à ajuster le processus d’entraînement si besoin
Yazid
Oui, la validation n’est donc pas une évaluation définitive du modèle. Elle s’intègre pleinement dans la phase d’ajustement du modèle. L’entraînement et la validation constituent un processus itératif, qui se termine lorsqu’une version jugée stable et performante du modèle a été développée.
Analogie de l’examen : ce sont les examens blancs.
Enfin, un nouveau jeu de données, différent des jeux d’entraînement et de validation, est utilisé pour réaliser une évaluation finale du modèle.
L’objectif est de tester le modèle dans un contexte proche de ses conditions réelles d’utilisation futures, comme l’indique le RIA. C’est pour cela que le test n’est réalisé qu’une fois qu’une version satisfaisante du modèle ait été développée, avant sa mise en service ou sur le marché.
Analogie de l’examen : c’est l’examen final.
Rim
On vient donc de voir comment s’articulent concrètement les phases d’entraînement, de validation et de test d’un modèle d’IA, jusqu’à son évaluation finale.
Maintenant, passons aux mesures relatives à la gouvernance des données qui sont prévues à l’article 10 et qui doivent encadrer l’ensemble de ce processus.
Je propose de les analyser point par point. Pour commencer, on va évoquer les choix de conception pertinents. De quoi parle t on concrètement ?
Yazid
Le règlement ne donne pas de liste exhaustive de ce qui constitue « les choix de conception », on peut pourtant penser à :
- L’architecture du modèle, par exemple un réseau de neurones profond.
- Le paramétrage, comme le nombre de couches ou le choix des fonctions d’activation.
- L’approche retenue dans le choix d’un modèle pré-entraîné.
Une fois ces choix de conception posés, le RIA s’intéresse aux données. Quelles sont alors les exigences du règlement en matière de collecte des données notamment lorsqu’il s’agit de données à caractère personnel ?
Rim
Ce point concerne les processus de collecte des données, leur origine, et, dans le cas de données à caractère personnel, l’objectif initial de la collecte des données.
Comme le rappelle la CNIL dans ses recommandations pour le développement des systèmes d’IA conformes au RGPD, lorsque des données personnelles sont réutilisées pour entraîner un modèle d’IA, et que cette finalité n’était pas prévue au moment de la collecte, il est alors nécessaire de vérifier la compatibilité de cette nouvelle finalité avec l’objectif initial.
Cette vérification s’effectue au moyen du test de compatibilité, sauf dans certains cas particuliers : par exemple lorsque les personnes concernées ont donné leur consentement, lorsque la réutilisation est autorisée par un texte, ou encore lorsque les données sont utilisées à des fins de recherche scientifique ou de production de statistiques. Enfin, une vigilance particulière est requise lorsque les données utilisées proviennent de sources externes, par exemple des données publiquement accessibles ou acquises auprès de tiers, comme des data brokers.
Dans ces situations, il est essentiel de vérifier que la base de données réutilisée n’a pas été constituée de manière manifestement illicite.
Une fois les données collectées, encore faut-il s’assurer qu’elles soient préparées de manière adéquate avant leur utilisation par le modèle. Quelles sont concrètement les opérations de préparation des données et pourquoi sont-elles si structurantes pour le fonctionnement du modèle ?
Yazid
Les opérations de préparation des données incluent notamment l’annotation, l’étiquetage, le nettoyage, la mise à jour, l’enrichissement et l’agrégation.
En apprentissage supervisé, les données sont enrichies d’informations dérivées d’une interprétation humaine, permettant au modèle de comprendre le contenu d’une donnée.
Rim
Le RIA parle d’étiquetage et d’annotation. Peux-tu nous expliquer la différence entre les deux ?
Yazid
Premièrement, l’étiquetage. Il s’agit de l’ajout d’un label à la donnée permettant de répondre à une question binaire ou de l’assigner à une catégorie prédéfinie. C’est souvent suffisant pour les modèles de classification.
Exemple : une entreprise développe un modèle cherchant à identifier des images contenant un passage piéton. Les images d’entraînement se verront attribuer une étiquette répondant à la question : « Est-ce que l’image contient un passage piéton ? »
Deuxièmement, l’annotation. Elle suit la même logique que l’étiquetage mais ajoute un niveau de détail supérieur. Un ou plusieurs tags sont ajoutés afin de permettre au modèle de réaliser des tâches plus précises et complexes.
Dans l’exemple du passage piéton, les images étiquetées se verront annotées avec un rectangle délimitant précisément le passage piéton.
Rim
On vient donc de voir comment l’annotation et l’étiquetage permettent d’ajouter du sens aux données. Mais encore faut-il que ces données soient fiables. C’est là qu’intervient le nettoyage des données.
Le nettoyage de données, en quoi consiste t il concrètement ?
Yazid
Le nettoyage des données regroupe l’ensemble des opérations visant à améliorer la qualité des données brutes avant leur utilisation :
- Détection et correction des erreurs
- Gestion des valeurs manquantes
- Gestion des doublons
- Traitement du bruit et des valeurs aberrantes
- Harmonisation et standardisation
- Validation finale de l’état des données
Rim
Le RIA cite également l’obligation de documenter les opérations d’enrichissements de données, est-ce lié à ce que tu disais sur l’annotation et l’étiquetage ?
Yazid
Pas vraiment, l’enrichissement de données consiste à ajouter de nouvelles informations à des données existantes pour en accroître la valeur et le contexte. Par exemple :
- Croisement avec des données externes
- Ajout d’informations dérivées comme le calcul de l’âge à partir d’une date de naissance.
Rim
Autre notion évoquée par le RIA, l’agrégation de donnée, comme son nom l’indique cela revient à regrouper les données c’est bien ça ?
Yazid
Tout à fait, l’agrégation de données consiste à regrouper plusieurs données individuelles pour produire une information synthétique à un niveau plus élevé.
Par exemple :
- Agrégation par le calcul, comme une moyenne ou une médiane
- Agrégation par regroupement, par zone géographique
Rim
Une fois les données collectées, préparés et structurés, le RIA impose une étape supplémentaire : la formulation d’hypothèses. De quoi parle t on exactement ?
Yazid
Cela concerne ce que les données sont censées mesurer, c’est-à-dire le lien entre la donnée et la valeur qu’on souhaite lui attribuer.
Analogie de l’examen : les notes mesurent le niveau de compétence de l’élève.
Cela concerne aussi ce que les données représentent, notamment les catégories de personnes concernées.
Exemple, dans un contexte scolaire avec des données comme les notes, les absences et l’historique disciplinaire, on peut formuler les hypothèses suivantes :
- Les notes mesurent le potentiel académique.
- Les absences mesurent la motivation.
- Les sanctions mesurent le comportement et le niveau de discipline.
Rim
On voit donc que la formulation d’hypothèses vise à expliciter ce que les données sont censées mesurer.
Autre point. Le RIA exige une évaluation de la disponibilité, de la quantité et de l’adéquation des jeux de données nécessaires, et impose également un examen permettant de repérer d’éventuels biais . Comment en pratique détecte t on ces biais et quels leviers peut-on actionner pour les prévenir ou les atténuer ?
Yazid
Il existe trois sources majeures de biais dans un système d’IA : les données, l’algorithme et l’utilisateur.
L’évaluation des biais commence par l’identification des catégories de personnes impactées.
L’objectif est ensuite, pour chaque catégorie, d’évaluer les erreurs du modèle et de quantifier les différentiels d’erreur.
Concrètement, il s’agit de vérifier si le modèle se trompe de manière similaire sur toutes les catégories de personnes.
Cette analyse met souvent en évidence des insuffisances sous-jacentes, notamment en matière de données. C’est pourquoi le règlement impose également d’identifier les lacunes ou insuffisances pertinentes en matière de données qui empêchent le respect du règlement et la manière dont ces lacunes et insuffisances peuvent être comblées.
Rim
Merci pour cet éclairage Yazid. Nous arrivons à la fin de cet épisode. Ce podcast était consacré aux obligations de gouvernance de données applicables aux systèmes d’IA à haut risque. Si vous avez des questions ou souhaitez approfondir certains points, n’hésitez pas à nous contacter.
D’autres épisodes et publications sont à venir afin de poursuivre le décryptage du RIA, tant d’un point de vue juridique que technique

