La période des fêtes n'en finit pas d'être endeuillée. Station de ski du canton du Valais, Crans-Montana fut le théâtre d'un drame impensable. Chaque Saint-Sylvestre aura désormais le goût de la mort et...
La fin de l’année aura été marquée par la proposition du député RN, Jean-Philippe Tanguy, de rouvrir des maisons closes. À l’en croire, celles-ci s’envisageraient un peu comme des phalanstères du sexe...
À l’heure où la laïcité occupe une place centrale dans le débat public, tout en faisant l’objet de nombreuses approximations, les Éditions LexisNexis publie le premier Code de la laïcité et du fait religieux...
On connaîtra le 16 janvier la décision de la Cour de cassation, sur la prescription du crime reproché à Yves Chatain, qui a avoué en 2022 avoir tué Marie-Thérèse Bonfanti, une livreuse de journaux de 25...
En trois ans à peine, l’intelligence artificielle générative a muté : d’un simple outil d’exécution, elle est devenue une force d’analyse, de synthèse et d’action autonome. Avec l’IA agentique – capable...
La transparence est bien souvent la condition de l'effectivité des droits. L'assertion relève de l'évidence. Et pourtant... Dans une opposition stérile entre innovation et régulation, le législateur a failli renoncer à la transparence en matière d'intelligence artificielle (IA). En quelques mots, les modèles d'IA - comme Chat- GPT, Sora, Gemini... - apprennent grâce à un entraînement sur des grandes quantités de données. À ce stade, on sait que la qualité du modèle dépend en partie de la qualité des données. Notamment, l'entraînement à partir de données synthétiques, c'est-à-dire générées par d'autres modèles d'IA, conduit à terme à la dégénérescence du modèle. En outre, si l'utilisation de contenus du domaine public peut constituer une expérience intéressante, elle ne permet pas de créer un outil pertinent, répondant aux besoins contemporains. Enfin, certains spécialistes pointent la saturation des performances des grands modèles de langage en raison du manque de données, celles « disponibles » ayant en grande majorité été exploitées.
Aussi, la collecte et l'utilisation de données de qualité, qui reflètent la créativité humaine, constituent un enjeu essentiel à la survie même de la technologie. Ces données de qualité bénéficient souvent de la protection du droit d'auteur ou des droits voisins - ensemble romans, vidéos, images, musiques, contenus de presse... Or les conditions actuelles d'utilisation de ces objets protégés ne sont pas satisfaisantes. Si la directive 2019/790 sur le droit d'auteur dans le marché unique numérique a bien prévu une exception de fouille de textes et de données, pour tous les acteurs et tous les usages - y compris commerciaux -, qui semble couvrir l'opération d'entraînement des modèles d'IA, c'est à la condition que le bénéficiaire ait eu un accès licite aux contenus et que le titulaire de droits n'ait pas exercé son opt out - ou clause de réservation de droits, qui permet un retour au monopole et donc au principe d'autorisation (et de rémunération). C'est là qu'intervient la nécessaire transparence. Comment savoir si le fournisseur d'IA a eu un accès licite aux contenus, qu'il n'a pas utilisé de contenus protégés sans autorisation ?
Pour répondre à cette situation de blocage, le Règlement européen sur l'IA impose aux fournisseurs une obligation de transparence qui se traduit par la mise en place d'une politique interne de respect de l'acquis communautaire en matière de droit d'auteur et de droits voisins et la mise à disposition d'un « résumé suffisamment détaillé » des contenus ayant servi à l'entraînement. Que cache cet oxymore en plus de révéler le lobbying incroyable exercé sur cette disposition légale ?
Pour donner à l'exigence légale un « effet utile », comme le préconise souvent la CJUE, le rapport du CSPLA (Conseil Supérieur de la Propriété Littéraire et Artistique - Rapport de mission du CSPLA sur la mise en œuvre du RIA) suggère une lecture globale et finaliste des dispositions. Remis à la ministre de la Culture le 9 décembre, il a vocation à participer à la réflexion sur la position de la France au sujet du canevas de résumé qui devra être proposé dans quelques semaines par le Bureau de l'IA, organe de la Commission européenne.
Dans ce cadre, l'obligation de transparence a vocation à permettre aux parties qui y ont intérêt d'exercer et de faire respecter leurs droits. Elle est cependant limitée par le secret des affaires qui bénéficie aux entreprises d'IA. Dès lors, le résumé des sources d'entraînement doit être complet en termes de contenu mais non sur les techniques utilisées (tokenisation, méthodes de filtrage...). En résumé : les ingrédients, mais pas la recette !
À la veille des fêtes de fin d'année, la métaphore culinaire s'imposait. Bonnes fêtes à toutes et tous. Dans la vie réelle.
Tous les champs marqués d'un astérisque (*) sont obligatoires