Candidater
Comprendre le monde,
éclairer l’avenir

Souvent perçue comme bridant l’innovation, la régulation des données vise à permettre aux concepts d’éthique et de performance d’aller de pair s’agissant de l’IA.

Table ronde animée par Éric Brousseau, directeur de la chaire Gouvernance et régulation de l’université Paris Dauphine – PSL, avec Isabelle Ryl, INRIA & PR[AI]RIE, Camille Penzo, PEReN (Pôle d’Expertise de la Régulation Numérique), Pierre-Carl Langlais, OpSci, Giada Pistilli, Hugging Face & Sorbonne

La France et l’Europe sont souvent perçues comme étant plus aptes à réguler qu’à innover. Mais, si complexe soit-elle, la relation entre régulation et innovation s’avère incontournable pour favoriser le développement d’IA à la fois éthiques et performantes.

Le défi – et il est de taille ! – consiste à trouver le bon équilibre entre un cadre réglementaire trop strict et un flou juridique car, en incitant à trop de prudence pour le premier ou en encourageant les pratiques peu respectueuses du droit et des principes pour le second, tous deux nuisent à l’innovation.

D’abord très pro-régulation, la France a finalement rejoint des pays plus ouverts. « Pour une fois, nous ne sommes pas partis avec trop de retard et nous avons une chance de nous positionner. Mais si nous verrouillons tout, c’en sera fini ! »,estime Isabelle Ryl, directrice de l’institut PR[AI]RIE. Le risque existe, notamment, de conduire les entreprises à se développer dans les pays où toutes les données sont blanches.

Une innovation sous contraintes

Des contraintes économiques

Un premier frein à l’innovation vient des contraintes économiques. En effet, la recherche en IA requiert des ressources humaines, des ressources de calcul et des données, donc un niveau élevé d'investissement et d'ingénierie. Or, les moyens dont disposent les organismes de recherche n’étant pas comparables à ceux des entreprises, la recherche se fait dans des entreprises géantes, ou en collaboration avec ces dernières – ce qui engendre, du même coup, des problèmes liés à l’accès aux données.

Recherche publique et privée, monde économique et académique, progression des connaissances et recherche pure… : il est crucial d’y voir clair dans ce paysage très intriqué, à la fois pour le bien de la connaissance universelle et pour la maîtrise de la technologie. 

Isabelle Ryl observe, en outre, que les temps de transfert entre la recherche fondamentale et la valorisation de ses résultats par les startups sont désormais très réduits, et que cette accélération ne va pas sans créer de frictions.

Des contraintes techniques

Souvent, lorsque la loi précède l’innovation, le risque existe de rencontrer des cas dans lesquels on ne saura pas faire. Connaître la technologie des deep fakes et leurs applications possibles, par exemple, est indispensable pour contrer certains usages comme la manipulation électorale.

“Vouloir réguler et fixer des limites, éthiques ou autres, est une bonne chose sous réserve de pouvoir techniquement le faire”

En d’autres termes, vouloir réguler et fixer des limites, éthiques ou autres, est une bonne chose sous réserve de pouvoir techniquement le faire. 

Il faut également distinguer les données des usages. En l’occurrence, avec les IA génératives, les principales craintes concernent les usages. Faire la part des choses entre, d’une part, le fait de posséder ou non une connaissance et, d’autre part, l'usage que l’on fait de cette connaissance, est un enjeu crucial.

La transparence est également essentielle, pour des questions de droit, mais aussi pour être en mesure d’expliquer avec quelles données un modèle d’IA a été entraîné ou pour détecter ses biais.

L'ouverture, condition d'une IA éthique

Le modèle ouvert BLOOM a bénéficié de l’apport du supercalculateur Jean Zay et de l’implication de nombreux chercheurs du CNRS, effort que Camilla Penzo (PEReN) qualifie d’inédit de la part d’un État. Cet investissement doit se poursuivre pour que la science libre, en open source, continue à se développer. Face au secteur privé nord-américain, qui risque de tout submerger, l’ouverture des codes, des modèles et des données est essentielle.

À cet égard, une position claire doit être prise : l’utilisation de machines qui ont été entraînées avec des données ne respectant pas le règlement européen ne devrait pas être autorisée en Europe. C’est la condition pour que des modèles éthiques puissent entrer sur le marché. 

S’il est probablement trop tard pour instaurer un même niveau de compétitivité, il faut malgré tout « faire avec » et maximiser ce qui peut être fait pour exiger des modèles à la fois éthiques et performants. De la même façon, « le fait qu’il ne soit pas possible de vérifier toutes les données ne doit pas conduire à accepter qu’aucune ne le soit », considère Camilla Penzo.

Le fine-tuning, pour faire de l'IA un variable commun 

Pour Pierre-Carl Langlais, de l’institut de recherche OpSci, les modèles open source sont en train de rattraper ChatGPT et favorisent « l’émergence d’un écosystème qui a effectué un travail de conversion, de structuration et de consolidation grâce à l’intégration de centaines de milliers d’exemples d’instructions et de conversations »

Au-delà de ce premier enjeu, le fine-tuning vise à faire de l’acclimatation, y compris culturelle. C’est d’autant plus crucial que si ces modèles sont multilingues en théorie, tel n’est pas encore le cas en pratique. Llama, par exemple, est à 90 % en anglais, le reste étant réparti en 8 % de code et 2 % d’autres langues (dont 0,16 % de français – nécessairement standard, donc peu propice à la diversité). En outre, le langage et le style ont un impact immédiat sur les représentations culturelles.

“Créer des modèles ouverts et développer des écosystèmes adaptables grâce au fine-tuning permet de se réapproprier l’IA”

Créer des modèles ouverts et développer des écosystèmes adaptables grâce au fine-tuning permet de se réapproprier l’IA, en passant d’une IA potentiellement ouverte à un véritable commun. De fait, le fine-tuning n’est une opération ni lourde ni coûteuse (du fine-tuning léger permet de geler une partie du modèle pour n’en modifier qu’un petit corpus, tandis que la quantisation permet de compresser les modèles), mais avec un fort impact. En revanche, il requiert un travail de réflexion et de design : à quoi servira le modèle, comment choisir les données… ? Ce savoir en construction n’est pas encore systématisé, mais il permet de répondre à la question « Comment favoriser une IA éthique et performante ? ». 

De fait, construire un tel modèle, c’est construire une vision culturelle et éthique. « Or, en matière de diversité culturelle, être éthique c’est aussi être performant », constate Pierre-Carl Langlais.

Avec l’élargissement du word embedding, les éléments intégrés ne sont plus seulement de l’ordre de la syntaxe, mais aussi de l’ordre de la culture. C’est à coup sûr, dans ce domaine que la régulation devrait aller. 

Par ailleurs, au-delà de la régulation, il convient aussi de créer des incitations pour faire émerger des modèles différents. Mais la notion de capabilité générale a besoin de modèles généralistes. À cet égard, Benoît Sagot, chercheur à l’INRIA, confirme que l’on ne sait pas encore adapter les règles d’entraînement des données à différents contextes : les acteurs ont besoin de modèles de fondation qui accumulent de l’information et de la structure avant d’être spécialisés sur des tâches, des corpus ou des contextes spécifiques.

S’agissant de possibles modèles spécifiques, Camille Penzo (PEReN) ajoute que la question primordiale est celle de la finalité : « s’il faut avoir accès à l’information relative à la complexité d’un document pour le comprendre, la seule façon d’y parvenir est d’utiliser un modèle comportant cette complexité et de le fine-tuner. »

Le consentement, pour un juste équilibre entre liberté et sécurité

Principal Ethicist chez Hugging Face, Giada Pistilli observe que la modération des contenus, visant à trouver le juste équilibre entre liberté et sécurité, est un défi inédit s’agissant du machine learning

Plateforme open source d’hébergement de modèles, de data sets et de spaces (applications complètes d’un modèle d’IA), Hugging Face fonctionne suivant une logique community-driven. En son sein, l’équipe Machine learning and Society regroupe des chercheurs scientifiques, des linguistes computationnels et des responsables de policy interne et externe. « En tant que chercheuse en philosophie, je favorise la recherche interdisciplinaire à mi-chemin entre policy et régulation », précise Giada Pistilli.

Par ailleurs, Hugging Face applique une content policy stricte, dont l’une des valeurs piliers est le consentement. À cet égard, une importante réflexion est en cours concernant les modèles entraînés avec des données non consenties, afin de mettre en place des mécanismes d’opt-out. Mais cela soulève une question écologique, puisque toute sortie d’un data set d’entraînement imposer d’entraîner à nouveau le modèle, ce qui s’avère coûteux en énergie, en calcul et en ingénierie. Pour Giada Pistilli, « l’opt-out n’est pas viable à terme, mais mérite d’être envisagé comme un premier pas vers un futur plus consenti. »

Enfin, Hugging Face met l’accent sur l’ouverture éthique (ethical openess), en proposant un stage-to-release : le déploiement d’un modèle ou d’une application ayant vocation à être hébergée sur la plateforme doit respecter différents mécanismes de sécurité.

Les auteurs