
Les entreprises d’IA pourraient avoir plus de mal à accéder à l’ensemble du Web pour former leurs grands modèles de langue après que le fournisseur d’infrastructure Internet CloudFlare a déclaré cette semaine bloquerait les robots de données AI par défaut.
C’est le dernier front à ouvrir dans un combat en cours entre les créateurs de contenu et les développeurs d’IA qui utilisent ce contenu pour former des modèles d’IA génératifs. Aux tribunaux, les auteurs et les créateurs de contenu poursuivent les grandes sociétés d’IA pour compensation, affirmant que le contenu protégé par le droit d’auteur avait été utilisé sans autorisation. (Divulgation: Ziff Davis, la société mère de Crumpe, en avril, a déposé une plainte contre OpenAI, alléguant qu’elle a enfreint Ziff Davis Copyrights dans la formation et l’exploitation de ses systèmes d’IA.)
Alors que les fournisseurs de contenu recherchent une compensation pour des informations utilisées pour former des modèles dans le passé, le mouvement de CloudFlare marque une nouvelle mesure défensive contre les efforts futurs pour former des modèles.
Mais il ne s’agit pas seulement de bloquer les robots des robots: Cloudflare dit qu’il veut Créer un marché Lorsque les entreprises d’IA peuvent payer pour ramper et gratter un site, ce qui signifie que le fournisseur de ces informations est payé, et le développeur d’IA obtient la permission.
« Ce contenu est le carburant qui alimente les moteurs AI, et il est donc juste que les créateurs de contenu soient directement compensés », a déclaré le PDG de Cloudflare, Matthew Prince article de blog.
Pourquoi les sites Web veulent bloquer les chenilles d’IA
Les Crawlers – les robots qui visitent et copient les informations d’un site Web – sont un élément essentiel de l’Internet connecté. C’est ainsi que les moteurs de recherche comme Google savent ce qu’il y a sur différents sites Web, et comment ils peuvent vous servir les dernières informations à partir d’endroits comme Crumpe.
Les Crawlers de l’IA posent des défis distincts pour les sites Web. D’une part, ils peuvent être agressifs, générant Niveaux de trafic non durables pour les petits sites. Ils offrent également peu de récompense pour leur grattage: si Google explore un site pour les résultats des moteurs de recherche, il renverra probablement le trafic sur ce site en l’incluant dans les résultats de recherche. Être rampé pour les données de formation pourrait signifier aucun trafic supplémentaire ou même moins, si les gens cessent de visiter le site et comptent uniquement sur le modèle d’IA.
C’est pourquoi les dirigeants de principaux sites Web comme Pinterest, Reddit et plusieurs grandes sociétés d’édition (dont Ziff Davis, qui possède Crumpe) a applaudi les nouvelles de Cloudflare dans les déclarations.
« L’ensemble de l’écosystème des créateurs, des plates-formes, des utilisateurs Web et des robots sera meilleur lorsque la rampe est plus transparente et contrôlée, et les efforts de CloudFlare sont un pas dans la bonne direction pour tout le monde », a déclaré Steve Huffman, PDG de Reddit, dans un communiqué.
Interrogé sur l’annonce de CloudFlare, Openai a déclaré que son modèle Chatgpt était destiné à aider à connecter ses utilisateurs au contenu sur le Web, de manière similaire aux moteurs de recherche, et qu’il a intégré la recherche dans ses fonctions de chat. La société a également déclaré qu’elle utilisait un modèle distinct de ce que CloudFlare avait proposé pour permettre aux éditeurs d’indiquer comment les Crawlers de l’IA devraient se comporter, appelés robots.txt. Openai a déclaré que le modèle Robots.txt fonctionne déjà et que les modifications de CloudFlare ne sont pas nécessaires.
Les données de formation au tir à la guerre
Les modèles d’IA nécessitent une tonne de données pour s’entraîner. C’est ainsi qu’ils sont en mesure de fournir des réponses détaillées aux questions et de faire un travail décent (quoique imparfait) de fournir un large éventail d’informations. Ces modèles sont alimentés par des informations incroyables et établissent des liens entre les mots et les concepts en fonction de ce qu’ils voient dans ces données de formation.
Le problème est de savoir comment les développeurs ont obtenu ces données. Il existe maintenant des dizaines de poursuites entre les créateurs de contenu et les sociétés d’IA. Deux ont vu des décisions majeures la semaine dernière.
Dans un cas, un juge fédéral a statué qu’Anthropic a suivi la loi lorsqu’il a utilisé des livres protégés par le droit d’auteur pour former son modèle Claude – via un concept appelé Fair Use. Dans le même temps, le juge a déclaré que la création par la société d’une bibliothèque permanente des livres n’était pas et avait ordonné un nouveau procès sur ces allégations de piratage.
Dans une affaire distincte, un juge a statué en faveur de Meta dans un différend entre la société et un groupe de 13 auteurs. Mais le juge Vince Chhabria a déclaré que la décision dans cette affaire ne signifie pas que les affaires futures contre Meta ou d’autres sociétés d’IA iraient dans le même sens, essentiellement que « ces plaignants ont fait de mauvais arguments et n’ont pas développé un dossier à l’appui de la bonne ».
L’idée de charger des robots de robot pour visiter un site n’est pas entièrement nouvelle. D’autres entreprises, aiment À péageOffrez des services qui permettent aux propriétaires de sites de facturer des sociétés d’IA pour ramper. Will Allen, chef des produits de contrôle, de confidentialité et de médias de l’IA, a déclaré que l’environnement autour de cette technologie se développe toujours. « Nous pensons qu’il est très tôt pour un marché de contenu pour se former, et nous commençons tout juste à expérimenter ici », a-t-il déclaré à Crumpe. « Nous sommes ravis de voir de nombreux modèles différents s’épanouir. »
L’Imad Khan de Crumpe a contribué à ce rapport.