La poursuite pour droits d'auteur du New York Times veut qu'OpenAI supprime toutes les instances GPT
En août, on a appris que le New York Times envisageait de rejoindre la légion croissante de créateurs qui poursuivent les sociétés d’IA pour détournement de leur contenu. Le Times aurait négocié avec OpenAI concernant la possibilité d’obtenir une licence pour son matériel, mais ces négociations ne se sont pas déroulées sans heurts. Ainsi, huit mois après que l’entreprise aurait envisagé de poursuivre en justice, la plainte a été déposée .
Le Times cible diverses entreprises sous l’égide d’OpenAI, ainsi que Microsoft, un partenaire OpenAI qui l’utilise à la fois pour alimenter son service Copilot et a contribué à fournir l’infrastructure pour la formation du grand modèle linguistique GPT. Mais la poursuite va bien au-delà de l’utilisation de matériel protégé par le droit d’auteur dans la formation, alléguant que les logiciels basés sur OpenAI contourneront volontiers le paywall du Times et attribueront au Times des informations erronées hallucinées.
Le procès note que le Times dispose d’un personnel important qui lui permet de faire des choses comme consacrer des journalistes à un large éventail de domaines et de s’engager dans un journalisme d’investigation important, entre autres. Grâce à ces investissements, le journal est souvent considéré comme une source faisant autorité sur de nombreux sujets.
Tout cela coûte de l’argent, et le Times gagne cet argent en limitant l’accès à ses reportages via un robuste paywall. De plus, chaque édition imprimée comporte une notification de droit d’auteur, les conditions d’utilisation du Times limitent la copie et l’utilisation de tout matériel publié, et il peut être sélectif quant à la manière dont il autorise ses articles. En plus de générer des revenus, ces restrictions l’aident également à maintenir sa réputation de voix faisant autorité en contrôlant la manière dont ses œuvres apparaissent.
La poursuite allègue que les outils développés par OpenAI compromettent tout cela. « En fournissant du contenu au Times sans la permission ou l’autorisation du Times, les outils des défendeurs sapent et nuisent à la relation du Times avec ses lecteurs et privent le Times de revenus d’abonnement, de licence, de publicité et d’affiliation », affirme la poursuite.
Une partie de l’utilisation non autorisée alléguée par le Times a eu lieu lors de la formation de différentes versions de GPT. Avant GPT-3.5, les informations sur l’ensemble de données de formation étaient rendues publiques. L’une des sources utilisées est une vaste collection de documents en ligne appelée « Common Crawl », qui, selon la poursuite, contient des informations provenant de 16 millions d’enregistrements uniques provenant de sites publiés par le Times. Cela place le Times comme la troisième source la plus référencée, derrière Wikipédia et une base de données de brevets américains.
OpenAI ne divulgue plus autant de détails sur les données utilisées pour la formation des versions GPT récentes, mais tout indique que les articles en texte intégral du NY Times font toujours partie de ce processus (beaucoup plus d’informations à ce sujet dans un instant.) Attendez-vous à un accès aux informations de formation. être un problème majeur lors de la découverte si cette affaire avance.
Pas seulement une formation
Un certain nombre de poursuites ont été intentées concernant l’ utilisation de matériel protégé par le droit d’auteur lors de la formation de systèmes d’IA . Mais la poursuite du Times va bien plus loin en montrant comment le matériel ingéré lors de l’entraînement peut ressortir lors de l’utilisation. « Les outils GenAI des accusés peuvent générer un résultat qui récite textuellement le contenu du Times, le résume fidèlement et imite son style expressif, comme le démontrent de nombreux exemples », affirme la poursuite.
La poursuite allègue – et nous avons pu le vérifier – qu’il est comiquement facile d’amener des systèmes alimentés par GPT à proposer du contenu qui est normalement protégé par le paywall du Times. La poursuite montre un certain nombre d’exemples de GPT-4 reproduisant de grandes sections d’articles presque textuellement.
La poursuite comprend des captures d’écran de ChatGPT recevant le titre d’un article du New York Times et demandant le premier paragraphe, ce qu’il livre. Obtenir le texte qui suit est apparemment aussi simple que de demander à plusieurs reprises le paragraphe suivant.
ChatGPT a apparemment comblé cette lacune entre la préparation de ce procès et le présent. Nous avons saisi certaines des invites affichées dans la poursuite et avons été informés : « Je recommande de consulter le site Web du New York Times ou d’autres sources réputées », bien que nous ne puissions pas exclure que le contexte fourni avant cette invite puisse produire du matériel protégé par le droit d’auteur.