Reddit zal je in rekening brengen om AI-modellen te trainen uit zijn uiterst menselijke archieven
Als je bezig bent met het onderwijzen van een groot taalmodel (LLM) aan een AI en je wilt dat deze leert van de subreddit u/420NarutoConspiracy, zul je er binnenkort voor moeten betalen.
Steve Huffman, oprichter en CEO van sociaal nieuws- en discussie-aggregator Reddit, vertelde onlangs aan The New York Times dat hij van plan is bedrijven die toegang hebben tot zijn API te laten betalen voor het extraheren van 18 jaar grotendeels door mensen gemaakte inhoud. Details van de nieuwe voorwaarden zijn beschikbaar in de volgende aankondiging op Reddit .
De API blijft gratis voor ontwikkelaars die werken aan bots en andere Reddit-tools, en voor onderzoekers die werken aan academische of non-profitprojecten. Maar het simpelweg gebruiken van Reddit-discussies voor AI-trainingsdoeleinden brengt kosten met zich mee, waarvan het exacte bedrag de komende weken naar voren zal komen.
“De dataset van Reddit is echt waardevol”, zei Huffman in een interview met de Times. “Maar we hoeven al die waarde niet gratis weg te geven aan enkele van de grootste bedrijven ter wereld.
“Het crawlen van Reddit, het creëren van waarde en het niet teruggeven van die waarde aan onze gebruikers is iets waar we problemen mee hebben. Dit is het moment voor ons om de zaken recht te zetten.”
De opmerkingen en gesprekken op Reddit zijn een rijke bron geworden voor het leren van AI LLM’s. ChatGPT en Google Bard noemen de Reddit-gegevens als een van hun bronnen. In hun analyse van slechts één subset ( 12 miljoen) van de Stable Diffusion (2,3 miljard) dataset voor beeldgeneratie, merkten Andy Baio en Simon Willison op dat “door gebruikers gegenereerde contentplatforms een enorme bron van beeldgegevens zijn geweest”. gegevensbronnen voor veel AI’s die vandaag door The Washington Post zijn gepubliceerd, ontdekten dat “het samenstellen van tekst van links die hoog worden gewaardeerd door Reddit-gebruikers” is opgenomen in GPT-3.
Hoewel Reddit van plan is de toegang tot AI te beperken, is het van plan ontwikkelaars en moderators betere tools te bieden om binnen hun community’s te werken. De Reddit-apps voor iOS en Android bieden manieren om snel het verhaal van een gebruiker te bekijken, communityregels bij te werken en meerdere mod-wachtrijen beter af te handelen.
De wijziging van Reddit naar API-toegang komt omdat het bedrijf volgens The Information in de tweede helft van 2023 naar de beurs zal gaan . Het bedrijf heeft in vertrouwen een beursgang aangevraagd in december 2021 . Volgens Reuters had het gehoopt op een waardering van $ 15 miljard, maar stelde het de indiening uit totdat de marktomstandigheden, vooral rond technologiebedrijven, verbeterden.
Geef een reactie