Alle grote techbedrijven en AI-startups gebruiken webcrawlers die het internet afstruinen om zoveel mogelijk data te verzamelen om AI-modellen te trainen. In eerste instantie gebeurde dat zonder dit vooraf bekend te maken, na toenemende kritiek kwamen de bedrijven met de mogelijkheid om deze crawlers uit te sluiten. Doe je niks, dan wordt je site nog steeds opgenomen in trainingsdatasets en kunnen diensten als ChatGPT de site bezoeken om vragen te beantwoorden.

In november en in mei heb ik een overzicht gemaakt van hoe de Nederlandse nieuwssites hiermee omgaan. OpenAI wordt massaal geblokkeerd, maar veel andere bedrijven, inclusief Facebook en Google, mogen vaak gewoon hun gang gaan. Misschien omdat media het helemaal prima vinden, maar er kunnen ook andere beweegredenen zijn.

De eerste is dat het bijna een dagtaak is om bij te houden welke crawlers er allemaal langskomen op je site en wat ze doen. Er komen steeds weer nieuwe AI-startups bij die hun eigen trainingsdata verzamelen. Daarnaast ontwikkelen bedrijven vaak nieuwe crawlers met een andere naam, zonder dat aan de grote klok te hangen. Op die manier kunnen ze steeds opnieuw sites leegtrekken die eigenlijk geen toestemming gaven. Meta is de laatste die dat doet, al maakt dat in Nederland geen verschil: landelijke nieuwssites blokkeerden de oude crawler van het bedrijf al niet.

De tweede reden dat media crawlers gewoon toelaten is de angst dat het negatieve gevolgen heeft als ze deze blokkeren. Dit geldt specifiek voor de bestaande techbedrijven, die ook om andere redenen crawlers over het internet sturen.

Neem Google: dit bedrijf haalt teksten van sites om via generatieve AI antwoorden te geven op zoekvragen. In de EU is die functie nog niet beschikbaar, maar daarbuiten wordt hij in steeds meer landen uitgerold. Het probleem is dat als je Google wil blokkeren om content van jouw site te gebruiken voor het genereren van deze antwoorden, dat gevolgen heeft voor je vindbaarheid in Google, schrijft Bloomberg.

Wat ook opvalt is dat Google geen deals sluit met uitgevers om toegang te krijgen tot hun site voor zijn AI-toepassingen. Waar OpenAI inmiddels tientallen uitgevers betaalt om op basis van de content op hun site vragen te kunnen beantwoorden in ChatGPT, betaalt Google niemand. Alleen met Reddit heeft de zoekmachine een miljoenendeal gesloten. Het verkeer vanuit de zoekmachine is namelijk veel te belangrijk voor nieuwssites, dus je zou eigenlijk kunnen concluderen dat Google de macht die het daarmee heeft misbruikt om toegang te hebben tot sites voor AI-toepassingen.

De vraag is natuurlijk hoe hier in de EU tegenaan wordt gekeken. Niet voor niets doet Google hier nog niks met AI-antwoorden in zijn zoekmachine. Maar ook in de VS ligt het bedrijf onder druk nu een rechter onlangs besliste dat Google een illegaal monopolie in handen heeft. Ook in het thuisland worden de duimschroeven dus aangedraaid en zou het zomaar kunnen dat het techbedrijf gedwongen wordt of zich gedwongen voelt om hier netter mee om te gaan.

Techjournalisten zijn geschokt door fotomanipulatiefunctie in nieuwe smartphone van Google

Het tweede stuk van deze week is nog een verhaal over kunstmatige intelligentie. En ook hierin speelt Google een twijfelachtige hoofdrol.

Vorige week linkte ik al even naar de nieuwe AI-mogelijkheden van Google's nieuwste smartphone de Pixel 9. Eén van de de functionaliteiten heet 'Reimagine', waarmee je op basis van een tekstopdracht (een prompt) dingen kan toevoegen aan een foto's. De toevoegingen zien er realistisch uit en de technologie is zo toegankelijk dat techjournalisten die de Pixel 9 mogen reviewen zich wezenloos zijn geschrokken.

"(...) I’m more convinced than ever that none of us are ready for what’s coming", schrijft reviewer Allison Johnson in een artikel. En een dag later publiceerde een collega een veel langer stuk met de veelzeggende titel 'No one’s ready for this'.

De journalisten van The Verge konden met een beetje creatief prompten zaken als autowrakken, rokende bommen en bloederige lichamen onder een laken toevoegen aan een foto. Niet met specialistische software, maar gewoon met hun smartphone. En het ziet er ook nog eens hyperrealistisch uit:

Foto: The Verge (de wrakken en het bebloede laken zijn door Google's AI toegevoegd aan de foto)

Foto: The Verge (de drank en drugs zijn door google's AI toegevoegd aan de foto)

Nu waren dit soort bewerkingen al mogelijk met AI-tools, maar het was geen standaardfunctie van een smartphone. Hiermee komt de technologie opeens in de handen van heel veel mensen en kost het gebruik geen enkele moeite. Dat maakt een fundamenteel verschil. En dat baart de journalisten van The Verge zorgen:

(...) the default assumption about a photo is about to become that it’s faked, because creating realistic and believable fake photos is now trivial to do. We are not prepared for what happens after.

Waar een kritische houding op de herkomst en authenticiteit van beeldmateriaal al veel langer belangrijk was, wordt twijfel nu de grondhouding. En dat heeft verstrekkende gevolgen. Vorige week schreef ik nog hoe de keerzijde van het creëren en bewerken van media door AI ertoe leidt dat je voortaan alles in twijfel kunt trekken. Dat verhaal sluit perfect aan bij wat de redactie van The Verge betoogt.

Of zoals Sarah Jeong het stuk 'No one’s ready for this' afsluit:

We briefly lived in an era in which the photograph was a shortcut to reality, to knowing things, to having a smoking gun. It was an extraordinarily useful tool for navigating the world around us. We are now leaping headfirst into a future in which reality is simply less knowable. The lost Library of Alexandria could have fit onto the microSD card in my Nintendo Switch, and yet the cutting edge of technology is a handheld telephone that spews lies as a fun little bonus feature.

We are fucked.

