Connect with us

Le nouveau modèle GPAI de la Commission européenne – Que signifie cela pour la formation de l’IA ?

Leaders d’opinion

Le nouveau modèle GPAI de la Commission européenne – Que signifie cela pour la formation de l’IA ?

mm

En juillet, la Commission européenne (CE) a publié un nouveau modèle de intelligence artificielle à usage général (GPAI). Cela signifie que les fournisseurs d’IA doivent divulguer le contenu saisi dans les modèles pour les former. Cela fait suite à des mois et des mois de titres concernant les créateurs alléguant que le contenu a été utilisé sans consentement pour former l’IA.

Avec ce nouveau modèle, l’UE a clarifié sa position : la transparence est maintenant non négociable. La formation en boîte noire, où quelque chose est créé sans révéler ses mécanismes internes, ne sera pas une option pour les développeurs d’IA. Cela marque un changement significatif, car opérer en Europe nécessitera désormais une visibilité totale sur les entrées de modèle et la provenance des données de formation, ce qui obligera à réévaluer la collecte et l’utilisation des données.

De nombreux ont souligné la différence frappante entre cela et le plan d’action américain pour l’IA récemment publié, qui se concentre fortement sur la dérégulation. Comme pour toute nouvelle loi ou réglementation, les entreprises doivent maintenant prendre stock et évaluer exactement comment le modèle GPAI aura un impact sur les opérations.

Si elles opèrent dans plusieurs régions, elles feront de même avec le plan d’action américain pour l’IA, ce qui complique encore les choses. En raison de la nature complexe de ces éléments et du fait que la réglementation du développement de l’IA de cette manière est un territoire inexploré, les sorties des développeurs seront probablement très différentes.

Décortiquer le modèle d’intelligence artificielle à usage général

En juillet de cette année, la Commission européenne a publié un modèle obligatoire pour les fournisseurs de GPAI afin qu’ils puissent publier un résumé public des données utilisées pour former leurs modèles. Dans le cadre de la loi sur l’IA de l’UE, les fournisseurs doivent divulguer des catégories de données telles que des ensembles de données publiquement disponibles, des données privées sous licence, du contenu web scrapé, des données utilisateur et des données synthétiques. L’objectif est de permettre aux détenteurs de droits d’auteur, aux utilisateurs et aux développeurs en aval d’exercer leurs droits légaux en vertu du droit de l’UE.

Les GPT sont formés avec de grandes quantités de données ; cependant, sur le marché actuel, il existe peu d’informations sur l’origine de ces données. Le résumé public que ce modèle présente fournira une vue d’ensemble complète des données utilisées pour former un modèle, listera les principales collections de données et expliquera les autres sources utilisées.

Comparer et contraster, plan d’action américain pour l’IA

En comparaison, les États-Unis sont déterminés à gagner la course à l’IA et à maintenir leur avance concurrentielle sur la Chine, car l’administration Trump a annoncé son plan d’action pour l’IA plus tôt cet été. Ce nouveau cadre d’IA vise à accélérer la construction de centres de données à consommation d’énergie qui alimentent les systèmes d’IA en assouplissant les réglementations environnementales. Dans le même temps, il cherche à augmenter les exportations mondiales de technologies d’IA américaines. Comportant 90 recommandations, le plan reflète les efforts croissants des États-Unis pour rester en tête de leurs concurrents mondiaux.

Le plan est construit autour de trois piliers principaux – l’accélération de l’innovation, la construction de l’infrastructure d’IA américaine et la promotion du leadership dans la diplomatie et la sécurité de l’IA internationales.

Dans le cadre de ce plan, un élément clé mis en évidence par le plan souligne la poussée « open-source » de l’Amérique pour alimenter à la fois l’innovation et l’accessibilité. De même, le plan met en évidence la façon dont le gouvernement américain « mènera par l’exemple » en ce qui concerne la croissance de l’IA – grâce à la formation, aux échanges de talents et à l’expansion de l’adoption dans les industries.

Avec ce plan, les États-Unis visent à rationaliser toutes les réglementations technologiques actuelles, en particulier les réglementations environnementales, pour s’assurer que la législation n’entrave pas la croissance, tout en encourageant une distribution internationale plus large des logiciels et du matériel d’IA américains. Cette approche « anti-réglementaire » marque un changement clair par rapport aux cadres précédents axés sur l’éthique, la transparence et l’innovation responsable – se déplaçant plutôt vers un plan d’action plus agressif « innovation d’abord ».

Le morceau manquant

Il est utile de prendre un pas en arrière à ce stade et de considérer si ces actes, bien que différents, pourraient souffrir des mêmes défauts qui amèneront les développeurs à voir un manque de valeur dans le respect de ceux-ci. Les approches de l’UE et des États-Unis laissent un vide critique autour de la propriété intellectuelle dans les ensembles de données de formation de l’IA. La loi sur l’IA de l’UE exige des résumés de données de formation et une politique de conformité aux droits d’auteur, mais elle n’établit pas de cadre scalable pour identifier ou licencier les œuvres sous copyright.

Aux États-Unis, il n’existe aucune règle spécifique – laissant les entreprises d’IA naviguer dans un cadre juridique en évolution façonné par les décisions de justice et les litiges en cours avec les détenteurs de droits. Au-delà du texte juridique, ce qui manque, c’est le côté pratique ; aucune des deux approches ne définit des méthodes industrielles praticables pour détecter le contenu protégé à grande échelle, vérifier l’utilisation légale ou rationaliser la licence. Jusqu’à ce que de telles solutions soient définies, l’incertitude entourant les droits d’auteur dans la formation de l’IA restera un défi important pour l’industrie.

Le coût caché des entreprises qui sautent la traçabilité de l’IA

Malgré certaines des failles de ces réglementations, on suppose que celles-ci amèneront les développeurs d’IA à se concentrer fortement sur la façon de rester à flot d’un point de vue juridique – mais ce n’est pas toujours le cas. En fait, la véritable division dans l’IA en ce moment n’est pas entre la réglementation de l’UE et celle des États-Unis, mais entre les entreprises qui investissent dans la traçabilité aujourd’hui et celles qui parient qu’elles n’auront pas à le faire. C’est une répétition de ce que nous avons vu il y a des années avec la mise en œuvre du Règlement général sur la protection des données (RGPD) – les entreprises qui ont construit la confidentialité dès le départ non seulement ont évité les amendes, mais ont également gagné la confiance des consommateurs et un accès plus fluide aux autres marchés qui ont plus tard reproduit les normes du RGPD.

Le même schéma peut émerger avec l’IA. La traçabilité des données de formation et des décisions de modèle deviendra probablement une norme mondiale, et les entreprises qui retardent devront réorganiser leurs systèmes à l’avenir. Revenir en arrière pour ajouter la documentation, la traçabilité de la provenance et les fonctionnalités d’audit à un système existant est beaucoup plus coûteux et complexe que de les construire dès le départ, en détournant l’attention des constructions plus axées sur le ROI que l’entreprise souhaite réaliser.

En d’autres termes, la traçabilité et la transparence ne sont pas des options facultatives ; elles doivent être intégrées dans les systèmes d’IA dès le premier jour. Les entreprises qui les traitent comme des afterthoughts risquent de ralentir l’innovation, de faire face à des réactions réglementaires et de perdre la course de manière permanente.

L’IA éthique nécessite l’unité mondiale

D’un point de vue macro, ces approches polarisées créent un véritable problème pour les entreprises mondiales. Les entreprises dans des marchés à réglementation légère comme les États-Unis peuvent évoluer plus rapidement à court terme, mais lorsqu’elles décident d’entrer dans l’UE, elles sont confrontées à un mur de conformité : les règles de traçabilité et de documentation de la loi sur l’IA nécessitent des capacités qu’elles n’ont jamais construites.

Rééquiper la traçabilité de la provenance, la documentation et les fonctionnalités d’audit dans un système existant est coûteux, lent et perturbateur, surtout parce que la traçabilité est l’une des parties les plus intensives en ressources de la conformité. C’est le même schéma que nous avons vu avec le RGPD, où les retardataires dans la confidentialité par conception ont lutté avec des rénovations coûteuses et un accès retardé au marché, tandis que les premiers venus ont gagné un avantage durable.

Viktorija Lapenyte est la responsable juridique des produits chez Oxylabs. Avec plus d'une décennie d'expérience juridique dans le secteur des technologies de l'information, Viktorija Lapėnytė a développé une expertise approfondie dans la navigation des défis commerciaux et réglementaires complexes en tant que conseillère juridique interne. Aujourd'hui, Viktorija est la responsable juridique des produits chez Oxylabs, une plateforme de collecte d'intelligence web leader sur le marché. L'équipe de Viktorija se spécialise dans les complexités juridiques des technologies de données émergentes, de la conformité et de la gestion des risques réglementaires à la confidentialité des données et aux discussions à l'échelle de l'industrie sur l'acquisition responsable de données.