Business

Inside Big Tech’s underground race to buy AI training data

[ad_1]

NEW YORK: Op zijn hoogtepunt begin jaren 2000 was Photobucket 's werelds grootste site voor het hosten van afbeeldingen. Het was de mediaruggengraat voor ooit populaire diensten als Myspace en Friendster, had 70 miljoen gebruikers en was goed voor bijna de helft van de Amerikaanse onlinefotomarkt.

Volgens analysetracker Soortgelijkeweb gebruiken vandaag de dag nog slechts 2 miljoen mensen Photobucket. Maar de generatieve AI-revolutie kan dit nieuw leven inblazen.

CEO Ted Leonard, die het 40 man sterke bedrijf uit Edwards, Colorado leidt, vertelde Reuters dat hij in gesprek is met meerdere technologiebedrijven om een ​​licentie te verkrijgen voor de 13 miljard foto's en video's van Photobucket, zodat deze gebruikt kunnen worden om generatieve AI-modellen te trainen die als reactie daarop nieuwe inhoud kunnen produceren. naar tekstprompts.

Hij heeft tarieven besproken van tussen de 5 cent en $1 dollar per foto en meer dan $1 per video, zei hij, waarbij de prijzen sterk varieerden, zowel per koper als per gezocht soort beeldmateriaal.

“We hebben met bedrijven gesproken die hebben gezegd: 'we hebben veel meer nodig', voegde Leonard eraan toe, waarbij een koper hem vertelde dat ze meer dan een miljard video's wilden, meer dan zijn platform heeft.

“Je krabt op je hoofd en zegt: waar haal je dat vandaan?”

Photobucket weigerde zijn potentiële kopers te identificeren, daarbij verwijzend naar commerciële vertrouwelijkheid. De lopende onderhandelingen, die nog niet eerder zijn gerapporteerd, suggereren dat het bedrijf mogelijk op miljarden dollars aan content zit en geven een kijkje in een bruisende datamarkt die ontstaat in de haast om generatieve AI-technologie te domineren.

Technologiereuzen als Google, Meta en het door Microsoft gesteunde OpenAI gebruikten aanvankelijk gratis grote hoeveelheden gegevens die ze van internet hadden geplukt om generatieve AI-modellen zoals ChatGPT te trainen die de menselijke creativiteit kunnen nabootsen. Ze hebben gezegd dat dit zowel legaal als ethisch is, hoewel ze vanwege deze praktijk te maken krijgen met rechtszaken van een reeks auteursrechthouders.

Tegelijkertijd betalen deze technologiebedrijven ook stilletjes voor inhoud die achter betaalmuren en inlogschermen is opgesloten, wat aanleiding geeft tot een verborgen handel in alles, van chatlogs tot lang vergeten persoonlijke foto's van vervaagde sociale media-apps.

“Er is momenteel een haast om auteursrechthouders te pakken te krijgen die privécollecties hebben met spullen die niet beschikbaar zijn om te worden geschrapt”, zegt Edward Klaris van advocatenkantoor Klaris Law, dat zegt dat het eigenaren van inhoud adviseert over deals ter waarde van tientallen miljoenen dollars. per stuk om archieven van foto's, films en boeken in licentie te geven voor AI-training.

Reuters sprak met meer dan 30 mensen met kennis van AI-datadeals, waaronder huidige en voormalige leidinggevenden bij betrokken bedrijven, advocaten en consultants, om de eerste diepgaande verkenning van deze jonge markt te geven – met details over de soorten inhoud die worden gekocht, de prijzen die werkelijkheid worden, plus toenemende zorgen over het risico dat persoonlijke gegevens in AI-modellen terechtkomen zonder medeweten of uitdrukkelijke toestemming van mensen.

OpenAI, Google, Meta, Microsoft, Apple en Amazon weigerden allemaal commentaar te geven op specifieke datadeals en discussies voor dit artikel, hoewel Microsoft en Google Reuters verwezen naar gedragscodes voor leveranciers die bepalingen over gegevensprivacy bevatten.

Google voegde eraan toe dat het “onmiddellijk actie zou ondernemen, tot en met beëindiging” van zijn overeenkomst met een leverancier als het een overtreding zou ontdekken.

Veel grote marktonderzoeksbureaus zeggen dat ze nog niet eens zijn begonnen met het inschatten van de omvang van de ondoorzichtige AI-datamarkt, waar bedrijven vaak geen afspraken openbaar maken. De onderzoekers die dat wel doen, zoals Business Research Insights, schatten de markt nu op ongeveer $2,5 miljard en voorspellen dat deze binnen tien jaar bijna $30 miljard zou kunnen groeien.

GENERATIEVE GEGEVENS GOUDKOORT

De datalandroof komt omdat makers van grote generatieve AI-basismodellen steeds meer onder druk komen te staan ​​om rekening te houden met de enorme hoeveelheden inhoud die ze in hun systemen invoeren, een proces dat bekend staat als 'training' en dat intensieve rekenkracht vereist en vaak maanden in beslag neemt. .

Technologiebedrijven zeggen dat de technologie onbetaalbaar zou zijn als ze geen gebruik zouden kunnen maken van enorme archieven met gratis verzamelde webpaginagegevens, zoals die van de non-profitrepository Common Crawl, die zij omschrijven als 'openbaar beschikbaar'.

Hun aanpak heeft niettemin geleid tot een golf van auteursrechtzaken en regelgevende hitte, terwijl uitgevers ertoe zijn aangezet code aan hun websites toe te voegen om scraping te blokkeren.

Als reactie hierop zijn de makers van AI-modellen begonnen met het afdekken van risico's en het veiligstellen van de datatoevoerketens, zowel via deals met contenteigenaren als via een snelgroeiende industrie van datamakelaars die zijn opgedoken om aan de vraag te voldoen.

In de maanden nadat ChatGPT eind 2022 debuteerde, sloten bedrijven als Meta, Google, Amazon en Apple bijvoorbeeld allemaal overeenkomsten met beeldaanbieder Shutterstock om honderden miljoenen afbeeldingen, video's en muziekbestanden in zijn bibliotheek te gebruiken voor training, aldus iemand die bekend is met de regelingen.

De deals met Big Tech-bedrijven varieerden aanvankelijk van $25 miljoen tot $50 miljoen per stuk, hoewel de meeste later werden uitgebreid, vertelde Shutterstock's Chief Financial Officer Jarrod Yahes aan Reuters. Kleinere technologiespelers hebben dit voorbeeld gevolgd en zorgden de afgelopen twee maanden voor een nieuwe “vlaag van activiteit”, voegde hij eraan toe.

Yahes weigerde commentaar te geven op individuele contracten. De Apple-overeenkomst en de omvang van de andere deals zijn niet eerder openbaar gemaakt.

Een concurrent van Shutterstock, Freepik, vertelde Reuters dat het overeenkomsten had gesloten met twee grote technologiebedrijven om het grootste deel van zijn archief van 200 miljoen afbeeldingen in licentie te geven tegen 2 tot 4 cent per afbeelding. Er zitten nog vijf soortgelijke deals in de pijplijn, zei CEO Joaquin Cuenca Abela, die weigerde kopers te identificeren.

OpenAI, een vroege klant van Shutterstock, heeft ook licentieovereenkomsten getekend met ten minste vier nieuwsorganisaties, waaronder The Associated Press en Axel Springer. Thomson Reuters, de eigenaar van Reuters News, zei afzonderlijk dat het overeenkomsten heeft gesloten om nieuwsinhoud in licentie te geven om AI-grote taalmodellen te helpen trainen, maar maakte geen details bekend.

'ETHISCHE INHOUD'

Er ontstaat ook een industrie van toegewijde AI-databedrijven, die de rechten op inhoud uit de echte wereld, zoals podcasts, korte video's en interacties met digitale assistenten, veiligstellen, terwijl ze ook netwerken van kortetermijncontractwerkers opbouwen om vanaf het begin op maat gemaakte beelden en stemvoorbeelden te produceren. , vergelijkbaar met een Uber-achtige gig-economie voor data.

Het in Seattle gevestigde Defined.ai licentieert gegevens aan een reeks bedrijven, waaronder Google, Meta, Apple, Amazon en Microsoft, vertelde CEO Daniela Braga aan Reuters.

De tarieven variëren per koper en type inhoud, maar Braga zei dat bedrijven over het algemeen bereid zijn om $1 tot $2 per afbeelding, $2 tot $4 per korte video en $100 tot $300 per uur voor langere films te betalen. Het markttarief voor tekst is $ 0,001 per woord, voegde ze eraan toe.

Afbeeldingen van naaktheid, die de meest gevoelige behandeling vereisen, kosten $ 5 tot $ 7, zei ze.

Defined.ai deelt die inkomsten met contentproviders, zei Braga. Het brengt zijn datasets op de markt als ‘ethisch afkomstig’, omdat het toestemming verkrijgt van mensen van wie het de gegevens gebruikt en persoonlijk identificeerbare informatie verwijdert, voegde ze eraan toe.

Een van de leveranciers van het bedrijf, een in Brazilië gevestigde ondernemer, zei dat hij de eigenaren van de foto's, podcasts en medische gegevens die hij verzamelt, ongeveer 20 tot 30 procent van de totale dealbedragen betaalt.

De duurste afbeeldingen in zijn portfolio zijn de afbeeldingen die worden gebruikt om AI-systemen te trainen die inhoud zoals grafisch geweld blokkeren die door de technologiebedrijven wordt geblokkeerd, zei de leverancier, die sprak op voorwaarde dat zijn bedrijf niet werd geïdentificeerd, daarbij verwijzend naar commerciële gevoeligheid.

Om aan deze verzoeken te voldoen, verkrijgt hij afbeeldingen van plaatsen delict, conflictgeweld en operaties – voornamelijk van respectievelijk de politie, freelance fotojournalisten en medische studenten – vaak op plaatsen in Zuid-Amerika en Afrika waar het verspreiden van grafische afbeeldingen gebruikelijker is, zei hij.

Hij zei dat hij sinds het begin van de oorlog daar in oktober beelden heeft ontvangen van freelancefotografen in Gaza, plus enkele beelden uit Israël aan het begin van de vijandelijkheden.

Zijn bedrijf huurt verpleegsters in die gewend zijn aan het zien van gewelddadige verwondingen om de beelden te anonimiseren en te annoteren, die verontrustend zijn voor ongetrainde ogen, voegde hij eraan toe.

'Ik zou het riskant vinden'

Hoewel licenties een aantal juridische en ethische problemen zouden kunnen oplossen, roept het opnieuw tot leven wekken van de archieven van oude internetnamen als Photobucket als brandstof voor de nieuwste AI-modellen andere problemen op, vooral op het gebied van de privacy van gebruikers, aldus veel van de geïnterviewde spelers uit de sector.

Er zijn AI-systemen betrapt op het uitspugen van exacte kopieën van hun trainingsgegevens, waarbij ze bijvoorbeeld het Getty Images-watermerk, woordelijke alinea's van New York Times-artikelen en afbeeldingen van echte mensen uitspuugden. Dat betekent dat de privéfoto's of intieme gedachten van een persoon die tientallen jaren geleden zijn gepost, mogelijk in generatieve AI-outputs kunnen terechtkomen zonder voorafgaande kennisgeving of expliciete toestemming.

Leonard, CEO van Photobucket, zegt dat hij op een solide juridische basis zit, daarbij verwijzend naar een update van de servicevoorwaarden van het bedrijf in oktober die het bedrijf het “onbeperkte recht” geeft om geüploade inhoud te verkopen met als doel AI-systemen te trainen. Hij ziet licentiegegevens als een alternatief voor het verkopen van advertenties.

“We moeten onze rekeningen betalen, en dit zou ons de mogelijkheid kunnen geven om gratis accounts te blijven ondersteunen”, zei hij.

Braga van Defined.ai zei dat ze het vermijden van het verwerven van inhoud van ‘platform’-bedrijven zoals Photobucket en de voorkeur geeft aan het verkrijgen van foto’s op sociale media van influencers die ze maken, van wie ze zegt dat ze een duidelijkere claim hebben op licentierechten.

“Ik zou het erg riskant vinden”, zei Braga over platforminhoud. “Als er een soort AI is die iets genereert dat lijkt op een foto van iemand die dat nooit heeft goedgekeurd, is dat een probleem.”

Photobucket is niet het enige platform dat licenties omarmt. Moederbedrijf Automattic van Tumblr zei vorige maand dat het inhoud deelde met 'geselecteerde AI-bedrijven'. In februari meldde Reuters dat Reddit een deal had gesloten met Google om de inhoud ervan beschikbaar te maken voor het trainen van de AI-modellen van laatstgenoemde.

Voorafgaand aan de beursintroductie in maart maakte Reddit bekend dat zijn activiteiten op het gebied van datalicenties het onderwerp zijn van een onderzoek van de Amerikaanse Federal Trade Commission en erkende dat het in strijd zou kunnen zijn met de zich ontwikkelende regelgeving op het gebied van privacy en intellectueel eigendom.

De FTC, die bedrijven in februari waarschuwde voor het met terugwerkende kracht wijzigen van de servicevoorwaarden voor AI-gebruik, weigerde commentaar te geven op het Reddit-onderzoek of te zeggen of zij andere deals voor trainingsdata onderzocht.

[ad_2]

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *