3 jul. 2023 7 min read

De verstrekkende gevolgen voor het internet van het massale gebruik van generatieve AI worden langzaamaan duidelijk

Ik ben weer terug uit Griekenland en heb me dit weekend vastgebeten in een berg ongelezen nieuwsbrieven en artikelen. Ik ben zowaar bij en heb ook nog de tijd gevonden om een nieuwsbrief voor je samen te stellen:

De kwaliteit van het internet en van taalmodellen gaat omlaag door het massale gebruik van generatieve AI.
Google en ~~Facebook~~ Meta moeten uitgevers gaan betalen in Canada.
Twitter stopt eerder dan dat zijn gebruikers met Twitter stoppen.

1. De kwaliteit van het internet en van taalmodellen gaat omlaag door het massale gebruik van generatieve AI

Door de massale beschikbaarheid van generatieve AI verandert het internet razendsnel. Ik heb dit jaar al ontzettend veel geschreven over hoe het verkeer vanuit Google onder druk staat en hoe redacties worstelen met de vraag hoe generatieve AI wel en niet ingezet dient te worden. Het internet verandert in een moordend tempo, zo vat James Vincent van The Verge samen:

In recent months, the signs and portents have been accumulating with increasing speed. Google is trying to kill the 10 blue links. Twitter is being abandoned to bots and blue ticks. There’s the junkification of Amazon and the enshittification of TikTok. Layoffs are gutting online media. A job posting looking for an “AI editor” expects “output of 200 to 250 articles per week.” ChatGPT is being used to generate whole spam sites. Etsy is flooded with “AI-generated junk.” Chatbots cite one another in a misinformation ouroboros. LinkedIn is using AI to stimulate tired users. Snapchat and Instagram hope bots will talk to you when your friends don’t. Redditors are staging blackouts. Stack Overflow mods are on strike. The Internet Archive is fighting off data scrapers, and “AI is tearing Wikipedia apart.” The old web is dying, and the new web struggles to be born.

Terwijl belangrijke informatiebronnen die zijn gemaakt door mensen (Wikipedia, Reddit, Stack Overflow) zonder ook maar iets van een vergoeding worden gebruikt om taalmodellen te trainen, worden er zonder dat het enige moeite kost ontelbaar veel pagina's op het internet gepubliceerd die volledig zijn gegenereerd door AI. De informatie op deze pagina's is van relatief lage kwaliteit en is bedoeld om via verkeer uit Google geld te verdienen met advertenties. Links minder belangrijk maken binnen Google en door AI gegenereerde antwoorden geven zou een oplossing zijn, maar ook de antwoorden die Google's taalmodel genereert zijn van relatief lage kwaliteit. En dat niet alleen: het zorgt ervoor dat het minder interessant wordt om originele, handgemaakte teksten te publiceren op internet, omdat je geen verkeer meer uit Google krijgt. Waardoor automatisch gegenereerde content uiteindelijk alleen maar meer de overhand krijgt.

En daar doet zich nog een probleem voor: je wilt een taalmodel trainen met tekst die door mensen is geschreven. Bronnen als Wikipedia, Reddit, Stack Overflow en nieuwssites zijn ontzettend belangrijk voor een goed werkend taalmodel. Wat je niet wilt is dat de modellen worden getraind met content die is gegenereerd door een taalmodel, want dan gaat de kwaliteit van het model uiteindelijk omlaag. Casey Newton schrijft in zijn nieuwsbrief Platformer over onderzoek dat hiernaar is gedaan:

A second, more worrisome study comes from researchers at the University of Oxford, University of Cambridge, University of Toronto, and Imperial College London. It found that training AI systems on data generated by other AI systems — synthetic data, to use the industry’s term — causes models to degrade and ultimately collapse.

Je wilt taalmodellen dus eigenlijk trainen op dataset van internetcontent van voor 2022. Op het huidige internet kun je modellen niet goed meer trainen en dat wordt met de dag slechter. De razendsnelle ontwikkeling van taalmodellen zou dus nog wel eens in rap tempo kunnen afnemen, omdat er geen kwalitatieve, recente trainingsdata beschikbaar is.

De implicaties van de explosie van generatieve AI en in het bijzonder de brede beschikbaarheid van taalmodellen worden steeds duidelijker, maar brengen vooral veel onzekerheid met zich mee. Het internet verandert voorgoed, maar hoe precies is afwachten. Zoals James Vincent opmerkt: dat is grotendeels afhankelijk van de keuzes die we nu maken.

Really, the changes AI is currently causing are just the latest in a long struggle in the web’s history. Essentially, this is a battle over information — over who makes it, how you access it, and who gets paid. But just because the fight is familiar doesn’t mean it doesn’t matter, nor does it guarantee the system that follows will be better than what we have now. The new web is struggling to be born, and the decisions we make now will shape how it grows.

2. Google en Facebook Meta moeten uitgevers gaan betalen in Canada

Het is inmiddels een beetje een standaardverhaal aan het worden: een land besluit wetgeving in te voeren om bedrijven als Google en ~~Facebook~~ Meta te laten betalen aan nieuwsuitgevers en vervolgens gaan de bedrijven in kwestie dreigen om dan maar nieuws van hun platforms te halen. Uiteindelijk worden er deals met uitgevers gesloten en komt alles toch nog goed.

Dit keer is het feest in Canada. Zowel ~~Facebook~~ Meta als Google dreigen te stoppen met het aanbieden van links naar nieuwssites zodra de Online News Act in werking treedt. De wet is vergelijkbaar met een wet die in februari 2021 in werking trad in Australië. Daar blokkeerde Facebook daadwerkelijk voor een heel korte tijd links naar nieuwssites, maar sloot vervolgens alsnog deals met uitgevers. Dat Facebook zo snel bijdraaide, heeft lobbyende uitgevers en overheden in andere landen alleen maar gesterkt om de internetgiganten te dwingen om te betalen aan nieuwsuitgevers.

Dat klinkt als goed nieuws voor de nieuwsindustrie, maar deze ontwikkeling heeft een belangrijke keerzijde. Zowel in Australië als Canada hebben de techreuzen controle over met wie ze uiteindelijk deals sluiten en deze deals zijn ook niet openbaar. In de praktijk resulteert dit erin dat grote uitgevers een goede deal binnenhalen, omdat hun content belangrijk is voor Facebook en Google, maar kleine spelers het nakijken hebben. Zoals Niemanlab het treffend omschrijft: de techbedrijven bepalen wie de winnaars zijn en wie de verliezers. Dat kan natuurlijk nooit de bedoeling zijn van de wetgeving, maar zal de grote uitgevers die druk hebben gelobbyd voor deze wet niet slecht uitkomen...

Wanneer de Online News Act precies in werking treedt in Canada is overigens nog niet bekend, maar het zal nog dit jaar gebeuren.

Ook in andere landen is dergelijke wetgeving in de maak, waaronder in Spanje (waar Google News jarenlang niet beschikbaar was) en het Verenigd Koninkrijk. Daar verwachten uitgevers dat ook Apple moet gaan betalen vanwege het gebruik van hun nieuws binnen Apple News. Als er één partij is die ik daadwerkelijk zie stoppen met het aanbieden van nieuws in plaats van te gaan betalen, dan is het Apple. Apple News speelt slechts een bescheiden rol in de dienstverlening van Apple en is ook maar in een paar landen uitgerold. Door te stoppen met de dienst verliest Apple bijzonder weinig, terwijl voor Facebook en Google nieuws een stuk belangrijker is.

3. Twitter stopt eerder dan dat zijn gebruikers met Twitter stoppen

Als me één ding duidelijk is geworden sinds de overname van Twitter door Elon Musk, dan is het dat Twitter-gebruikers simpelweg te verslaafd zijn aan het platform om ermee te stoppen. Daarmee praat ik ook voor mezelf: ik merk dat ik sinds afgelopen najaar steeds minder ben gaan tweeten, maar toch blijf ik terugkomen.

Ondanks alle trollen, alle haatberichten en alle extreemrechtse roeptoeters - zelfs ondanks de continue onvoorspelbare veranderingen en bizarre beleidskeuzes - blijft Twitter zijn aantrekkingskracht houden. Er is geen ander sociaal medium waar zoveel journalisten, experts en politici deelnemen aan een gesprek. Er is geen ander sociaal medium dat zo'n sterk 'live-karakter' heeft. Er is geen platform waar je zo makkelijk links kunt delen met je publiek.

Sinds de overname van Twitter door Elon Musk zagen we Mastodon, HIVE, Post, BlueSky en wat al niet meer voorbij komen, maar niets kon Twitter tot nu toe vervangen. Zelfs de bizarre limieten op het gebruik van Twitter dit weekend zorgden ervoor dat men gewoon door bleven tweeten.

Daarover gesproken: het is aannemelijk dat de beperkingen van Twitter worden veroorzaakt door het feit dat Elon Musk niet meer wil betalen voor Google Cloud. Een deel van Twitters infrastructuur draait op servers van Google en het contract met Google liep afgelopen vrijdag af. Net voor het zover was besloot Twitter dat tweets niet langer mochten worden bekeken door niet-gebruikers - wat een timing. Zaterdag volgde er een beperking op het aantal tweets dat je als gebruiker dagelijks mag bekijken. In eerste instantie was die limiet 600 tweets. Zelfs betalende Twitter Blue-gebruikers werd een limiet opgelegd, maar die was met 6000 wel een stuk hoger. Volgens Elon Musk was de reden dat Twitter massaal werd leeggetrokken om trainingsdata voor kunstmatige intelligentie te verzamelen, maar die onderbouwing wordt massaal in twijfel getrokken.

Ondanks de bizarre beperking van dit weekend blijven twitteraars gewoon de app openen en tweeten. Sterker nog: er lijkt niks leuker dan te klagen over Elon Musk en als een soort ramptoerist te volgen hoe Twitter zichzelf verder de verdoemenis in helpt.

Uiteindelijk lijkt er maar één ding dat Twitter-verslaafden kan stoppen: het einde van Twitter. Als het Elon Musk niet lukt het tij te keren en meer geld te gaan verdienen, dan zou de dag kunnen komen dat Twitter het simpelweg niet meer doet. Dan gaan we zien wat de afkickverschijnselen zullen zijn.

4. Dit heb ik de afgelopen twee weken gelezen

Volgens NU.nl zou John de Mol, na het niet doorgaan van de fusie met RTL, Talpa Network binnen twee jaar willen verkopen.
Morgen start de veiling van de landelijke FM-frequenties. Hoe dat werkt en wat de gevolgen zijn, wordt goed uitgelegd in dit artikel.
De manier waarop lokale omroepen worden bekostigd is volgens het Commissariaat voor de Media "niet optimaal".
Er lijkt een koper te zijn gevonden voor het failliete Vice.
De Zwitserse krant Wiener Zeitung verschijnt niet langer op papier. Twee derde van de redactie is ontslagen, de rest gaat online verder onder de naam WZ.
De Duitse krant Bild heeft 200 mensen ontslagen. Hun werk zou deels worden overgenomen door kunstmatige intelligentie, maar dat klopt niet volgens de uitgever.
Voor de intro van de nieuwe serie Secret Invasion gebruikte Marvel beelden die zijn gegenereerd door kunstmatige intelligentie en daarom zijn de kunstenaars die normaal gesproken dit soort werk doen boos.
The Verge deed een groot onderzoek naar hoe Amerikanen aankijken tegen AI. Van alle technologische ontwikkelingen verwachten de meeste mensen (74 procent) dat dit een grote impact gaat hebben op de maatschappij.
Meta heeft een AI-model gemaakt dat op basis van twee seconden aan audio-opnames stemmen kan klonen en indrukwekkende resultaten oplevert. Het wordt vooralsnog niet beschikbaar gemaakt, vanwege de risico's die de onderzoekers zien.
YouTube gaat het mogelijk maken om video's volledig automatisch na te synchroniseren door gebruik te maken van kunstmatige intelligentie. Daarnaast krijgt de videodienst eindelijk de mogelijkheid om thumbnails te A/B-testen.
Vimeo heeft een aantal handige AI-tools beschikbaar gesteld voor videomakers.
Podcastdienst Acast maakt het voor uitgevers mogelijk om podcasts achter een betaalmuur te plaatsen die is gekoppeld aan hun abonneesysteem.
WordPress.com biedt gebruikers de mogelijkheid om betaalde nieuwsbrieven te versturen.
Betalende Twitter-gebruikers mogen nu posts van maximaal 25.000 tekens schrijven. Of volgers de posts ook kunnen zien is met de huidige limieten echter maar zeer de vraag...
4 miljoen Snapchat-gebruikers betalen voor Snapchat+ en kunnen daardoor nieuwe functies als eerste gebruiken.