Un « renseignements personnel » est défini, en vertu de la Loi sur la protection des renseignements personnels et les documents électroniques (LPRPDÉ), article 2(1), « tout renseignement concernant un individu identifiable ». La Loi 25 du Québec définit de façon semblable un renseignement personnel comme « tout renseignement qui concerne une personne physique et permet, directement ou indirectement, de l’identifier ». L’article 23 de la Loi 25 du Québec considère qu’un « renseignement concernant une personne physique est anonymisé lorsqu’il est, en tout temps, raisonnable de prévoir dans les circonstances qu’il ne permet plus, de façon irréversible, d’identifier directement ou indirectement cette personne ».
Par conséquent, quand l’anonymisation est effectuée selon les meilleures pratiques généralement reconnues, incluant les critères énoncés dans le Règlement sur l’anonymisation des renseignements personnels, adopté récemment au Québec, les données ne sont plus considérées comme renseignement personnel au sens de la loi.
L’anonymisation peut être un défi, selon les caractéristiques de l’ensemble de données (par ex. : la taille, le contenu et le format), ou peut même s’avérer impossible. Ceci pourrait être le cas lorsque l’usage prévu de données peut seulement être atteint en conservant des identifiants personnels à un tel point que l’identification serait probablement possible. Un autre facteur à considérer est l’avancement technologique qui pourrait mener à la réidentification des données qui ont précédemment été considérées anonymisées.
Cet article se concentre sur les exigences d’anonymisation des données au Canada, plus spécifiquement en vertu de la loi la plus stricte en ce moment, la Loi 25 du Québec et son règlement d’anonymisation. Nous aborderons ensuite les défis de se conformer dans le contexte de l’IA, notamment les grands modèles de langage (LLM), et nous offrirons des conseils et des solutions. Enfin, nous introduirons le logiciel de dépersonnalisation de Private AI, une solution technologique qui peut venir appuyer les efforts d’anonymisation des données personnelles.
Les exigences d’anonymisation au Canada
La loi relative à la protection de la vie privée fédérale qui est présentement en vigueur, la Loi sur la protection des renseignements personnels et les documents électroniques (LPRPDE), contient peu de critères afin de réaliser une anonymisation des données personnelles. Le concept est mentionné une seule fois en tant qu’alternative légitime pour éliminer des données personnelles, sans définir les modalités de l’anonymisation. Le projet de loi C-27, comprenant la Loi sur la protection de la vie privée des consommateurs, qui vise à moderniser la LPRPDE, définit l’anonymisation et fait la distinction entre l’anonymisation et la dépersonnalisation.
Selon la Loi sur la protection de la vie privée des consommateurs proposée, un renseignement personnel anonymisé signifie « de modifier définitivement et irréversiblement, conformément aux meilleures pratiques généralement reconnues, des renseignements personnels afin qu’ils ne permettent pas d’identifier un individu, directement ou indirectement, par quelque moyen que ce soit ». Bien que stricte, cette définition donne lieu à interprétation lorsqu’elle réfère aux « meilleures pratiques généralement reconnues ». Il est également discutable présentement à savoir si la mesure législative proposée deviendra une loi avant la prochaine élection canadienne. Après les élections, son sort demeure incertain.
Des critères et modalités applicables à l’anonymisation des renseignements personnels ont été davantage définis en vertu de la Loi 25 du Québec, et plus précisément en vertu du Règlement sur l’anonymisation des renseignements personnels, entré en vigueur en mai 2024.
Le processus d’anonymisation exigé en vertu du règlement est le suivant :
Les conséquences de la contravention de la provision d’anonymisation
Avant d’explorer les défis de conformité dans le contexte de l’IA, nous décrirons brièvement les conséquences possibles de ne pas anonymiser les données dans le cadre du Règlement afin nous sachions ce qui pourrait être en jeu.
Il existe des pouvoirs de sanctions importants en vertu de la Loi 25 : des sanctions administratives pécuniaires qui ne visent pas tant à punir, mais à encourager la conformité, et des pénalités comprenant des infractions pénales passibles d’amendes.
Le fait de pas anonymiser des données personnelles correctement pourrait attirer des conséquences des deux régimes. Nous exposons les provisions exactes plus bas, mais en bref, l’amende maximale pour les entreprises qui n’anonymisent pas correctement des données est de 25 millions de dollars ou le montant correspondant à 4 % de l’exercice financier précédent si ce dernier montant est plus élevé. Veuillez noter qu’au moment de rédiger cet article, aucune mesure de la sorte n’a été entreprise pour une telle infraction. Nous supposons, cependant, qu’une amende aussi élevée serait attribué seule à une violation flagrante de la loi.
Les défis de la conformité dans le contexte de l’IA
L’anonymisation des données est une excellente technique de protection des données dans le contexte de l’IA parce qu’elle minimise les risques. De plus, comme nous l’avons mentionné, cela signifie que les lois qui protègent la vie privée ne s’applique pas, réduisant ainsi le fardeau de se conformer.
Cependant, ceci sous-entend que le cas d’usage de l’organisation permet l’anonymisation. Si l’anonymisation ne peut pas être atteinte sans excessivement affecter l’exactitude des résultats ou de l’utilité du système IA en général, ce n’est pas un problème en soit; cela signifie en revanche que les diverses exigences de protection de la vie privée doivent être respectées en ce qui concerne les données personnelles.
Mais bien qu’il n’y ait pas d’obligations légales explicites d’anonymiser des données, il y a l’obligation légale de minimiser leur usage et la divulgation de renseignement personnels au nécessaire afin d’atteindre les finalités pour lequelles les données ont été recueillies. Ceci pourrait être interprété à signifier que s’il est possible d’anonymiser sans mettre en péril l’objectif prévu, il devient impératif de le faire.
Voyons maintenant pourquoi l’anonymisation est particulièrement importante, et qu’en même temps, particulièrement difficile à effectuer dans le contexte de l’usage et du développement de l’IA.
L’IA requiert beaucoup de données d’entraînement, plus que ce que le cerveau humain puisse facilement imaginer. Ceci rend difficile de savoir ce qu’est un renseignement personnel dans l’ensemble des données étant donné que pour la majeure partie, ces données sont souvent automatiquement extraites de l’Internet au lieu d’être choisies individuellement.
Sachez que la légalité de la pratique du moissonnage de données personnelles (Web scraping) est présentement un sujet d’actualité, surtout dans l’Union européenne (article en anglais) avec différents points de vue. D’après le document du Commissariat à la protection de la vie privée du Canada, Principes pour des technologies de l’intelligence artificielle (IA) générative responsables, dignes de confiance et respectueuses de la vie privée, les renseignements personnels disponibles en ligne n’échappent pas aux lois sur la protection de la vie privée en vigueur.
Ainsi, lorsque les données d’entraînement sont extraites de l’Internet, les grands modèles de langage (LLM) commerciaux contiennent des renseignements personnels, même au-delà des données de figures publiques et plus important encore, ces renseignements personnels peuvent être extraits du modèle par requête par un adversaire. Ces données peuvent également être exposées par mégarde. Pour un exemple frappant qui illustre ceci, nous vous invitons à lire le cas de Korean chatbot Lee-Luda (article en anglais) qui a dévoilé que certaines données d’entraînement recueillies non par moissonnage sur le Web, mais bien parvenant de messages d’usagers, comprenant des conversations intimes entre partenaires, à leurs usagers. Ceci est dû à un phénomène appelé mémorisation des données (article en anglais). Bien que les LLM ne conservent pas leurs données d’entraînement physiquement, l’entraînement de modèles a la capacité de reproduire verbatim des aspects de ses données d’entraînement.
Des recherches sont présentement en cours pour que les LLM « désapprennent » (article en anglais) les informations sensinbles que nous voulons protégées, mais ces techniques ne sont pas encore finalisées.
Si le cas d’usage le permet, la meilleure façon de prévenir des enjeux de protection de la vie privée avec l’IA est d’éviter d’inclure des renseignements personnels dans les données d’entraînement et pour prévenir que de telles données soient incluses dans les requêtes du modèle. Ces requêtes sont divulguées au fournisseur du modèle et peuvent être utilisées pour améliorer le modèle, c’est-à-dire que la requête peut être mémorisée et pourrait potentiellement divulguer des renseignements à d’autres usagers dans le futur.
Cependant, comme nous l’avons mentionné plus tôt, cela va dépendre sur le cas d’usage si l’anonymisation de données d’entraînement est réalisable du point de vue de l’utilitaire de données – si des données sont nécessaires ou utiles pour que le modèle fonctionne, le retirer n’est pas une bonne option.
Ceci signifie que si vous développez un système IA, vous devez mener une analyse complète en ce qui concerne la nécessité de chaque point de données utilisés et le volume global de renseignements personnels requis pour l’entraînement. Il est ensuite recommandé de retirer les points de données qui ne sont pas nécessaires avant l’entraînement afin de vous conformer au principe de minimisation des données.
La solution de Private AI qui appuie l’anonymisation des données
Private AI peut détecter, rédiger ou remplacer des renseignements personnels avec des données synthétiques, mettant ainsi à profit son modèle d’apprentissage automatique optimisé pour de grands volumes de données non structurées. Ceci est possible dans 53 langues et pour une variété de différents types de fichiers avec une précision sans précédent (articles en anglais). Cette technologie aide à s’assurer que seulement des données essentielles sont utilisées pour l’entraînement de l’IA et les opérations, aidant ainsi à rendre des renseignements personnels anonymes ou dépersonnalisés, ou encore en créant des données synthétiques à la place de renseignements personnels.
Pour l’usage de système d’IA, les organisations ont tout intérêt à utiliser PrivateGPT de Private AI, qui s’assure que les requêtes d’usagers soient assainies – par ex. : des renseignements personnels sont retirés des requêtes – avant qu’elles soient envoyées au système d’IA. Selon le cas, les renseignements personnels qui doivent être exclues de la requête peuvent être sélectionnés à un niveau très granulaire pour assurer l’utilité des requêtes. Avant que la réponse du système soit renvoyée à l’usager, les renseignements personnels sont automatiquement insérés dans l’extrant sans jamais avoir été divulgués au modèle.
Veuillez noter que pour arriver à une anonymisation complète, le retrait d’identifiants directs et indirects pourrait ne pas être assez, tout dépendant de l’ensemble des données. Dans tous les cas, il est recommandé de le faire, et exigé en vertu du Règlement d’anonymisation des renseignements personnels du Québec de mener une évaluation des risques de réidentification afin de confirmer que le risque de réidentification est faible.
Conclusion
Cet article aborde comment l’anonymisation et la minimisation des renseignements personnels sont des sujets complexes, particulièrement dans le contexte de l’IA, où l’apparition de nouvelles technologies forgent le paysage en constante évolution, créant ainsi de nouveaux défis et de nouvelles solutions. Si vous souhaitez avoir de l’aide pour naviguer le contexte complexe de l’IA, communiquez avec Consultation Etika. Nous pouvons vous offrir des conseils spécialisés sur les exigences et les meilleures pratiques à garder en tête. Nous pouvons également vous mettre en contact avec l’équipe de Private AI pour que vous ayez accès à une technologie de pointe pour vous appuyer avec des solutions pratiques.
2 octobre 2024
Auteures :
Kathrin Gardhouse – Vice-présidente – Gouvernance des données et de l’IA
Bernadette Sarazin – PDG et Cheffe de la protection de la vie privée