Reddit commencera à vous facturer pour former des modèles d’IA à partir de ses archives extrêmement humaines

Reddit commencera à vous facturer pour former des modèles d’IA à partir de ses archives extrêmement humaines

Si vous souhaitez enseigner un grand modèle de langage (LLM) à une IA et que vous souhaitez qu’elle apprenne du subreddit u / 420NarutoConspiracy, vous devrez bientôt payer pour cela.

Steve Huffman, fondateur et PDG de l’agrégateur de nouvelles et de discussions sociales Reddit, a récemment déclaré au New York Times qu’il prévoyait de facturer aux entreprises accédant à son API pour extraire 18 ans de contenu principalement créé par l’homme. Les détails des nouvelles conditions générales sont disponibles dans l’annonce suivante sur Reddit .

L’API continuera d’être gratuite pour les développeurs travaillant sur des bots et d’autres outils Reddit, ainsi que pour les chercheurs travaillant sur des projets académiques ou à but non lucratif. Mais le simple fait d’utiliser les discussions Reddit à des fins de formation à l’IA aura un coût, dont le montant exact devrait apparaître dans les prochaines semaines.

« L’ensemble de données Reddit est vraiment précieux », a déclaré Huffman dans une interview avec le Times. « Mais nous n’avons pas à donner gratuitement toute cette valeur à certaines des plus grandes entreprises du monde.

« Crawler Reddit, créer de la valeur et ne pas restituer cette valeur à nos utilisateurs est quelque chose avec lequel nous avons des problèmes. Il est maintenant temps pour nous de faire les choses correctement. »

Les commentaires et les conversations sur Reddit sont devenus une ressource riche pour apprendre les LLM en IA. ChatGPT et Google Bard citent les données Reddit comme l’une de leurs sources. Dans leur analyse d’un seul sous-ensemble (12 millions) de l’ensemble de données de génération d’images Stable Diffusion (2,3 milliards), Andy Baio et Simon Willison ont noté que « les plates-formes de contenu généré par les utilisateurs ont été une énorme source de données d’image » . Les sources de données de nombreuses IA publiées aujourd’hui par le Washington Post ont révélé que « la compilation de texte à partir de liens hautement notés par les utilisateurs de Reddit » est incluse dans GPT-3.

Alors que Reddit a l’intention de restreindre l’accès à l’IA, il entend fournir aux développeurs et aux modérateurs de meilleurs outils pour travailler au sein de leurs communautés. Les applications Reddit pour iOS et Android offriront des moyens de visualiser rapidement l’histoire d’un utilisateur, de mettre à jour les règles de la communauté et de mieux gérer plusieurs files d’attente de mods.

Le changement de Reddit pour l’accès à l’API intervient alors que la société devrait entrer en bourse au second semestre 2023, selon The Information. La société a déposé confidentiellement une offre publique initiale en décembre 2021 . Selon Reuters , il avait espéré une valorisation de 15 milliards de dollars, mais a retardé le dépôt jusqu’à ce que les conditions du marché, en particulier autour des entreprises technologiques, s’améliorent.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *