Het mediabeleid van het nieuwe kabinet lijkt enkel over de NPO te gaan
In deze nieuwsbrief wil ik het met je hebben over:
- Mediabeleid gaat over veel meer dan de NPO, maar dat is niet terug te vinden in het regeerakkoord.
- Bijna alle landelijke nieuwsmedia blokkeren actief bots van AI-bedrijven, maar blijven achter de feiten aanlopen.
Mediabeleid gaat over veel meer dan de NPO, maar dat is niet terug te vinden in het regeerakkoord
Dat D66, CDA en VVD gisteren hun regeerakkoord hebben gepresenteerd is waarschijnlijk geen nieuws voor je, maar toch wil ik het er even over hebben. En dan specifiek over de mediaparagraaf van het akkoord. Of eigenlijk: de paragraaf 'media en cultuur'.
De paragraaf bestaat uit acht punten, waarvan er vier over media gaan en vier over cultuur. De vier punten die over de media gaan, gaan grotendeels over de publieke omroep. Over commerciële media schrijven de partijen:
Er komt een integraal mediabeleid, uitgaande van een pluriform media-aanbod en bestaande uit zowel commerciële spelers als de publieke omroep. (...) met meer aandacht voor samenwerking met commerciële partijen en coproducties.
We blijven gericht investeren in de professionalisering van de publieke omroep, onafhankelijke en regionale journalistiek en persveiligheid.
Over de toegang tot betrouwbare informatie en de lastige verhouding tussen de Nederlandse media en big tech gaat het niet. Het gaat in relatief detail over omroepbestuurders en de hervorming van de landelijke publieke omroep, maar over de echte uitdagingen gaat het eigenlijk niet.
Iets wat je maandag ook al zag in het mediadebat in de Tweede Kamer afgelopen maandag. Alle gesprekken over de media in Den Haag zijn gekaapt door de discussie over de toekomst van het omroepbestel. Ze zouden echter moeten gaan over toegang tot betrouwbare informatie en het behoud van een divers en kwalitatief journalistiek aanbod in een wereld waarin big tech een steeds groter monopolie heeft op de toegang tot informatie, algoritmes leidend zijn in wat mensen wel en niet te zien krijgen en kunstmatige intelligentie de verdienmodellen van uitgevers en omroepen nog verder onder druk zet.
Wat wel positief is, is dat het veel gaat over online veiligheid. Aanpak van desinformatie en online beïnvloeding, een minimumleeftijd voor toegang tot social media voor kinderen en aanpak van deepfakes zijn enkele onderwerpen die daarin voorbij komen. Het is positief om te zien dat dit zoveel aandacht krijgt van het nieuwe kabinet, maar op het gebied van de journalistiek en de toekomst van het Nederlandse medialandschap is er ook urgentie nodig. En die ontbreekt volledig in dit akkoord.
Bijna alle landelijke nieuwsmedia blokkeren actief bots van AI-bedrijven, maar blijven achter de feiten aanlopen
Om controle te houden over wat techbedrijven doen met de inhoud van je website, kun je in robots.txt aangeven welke bots je site mogen bezoeken om informatie op te halen. In het verleden werd dit vooral gebruikt om Google instructies te geven dat bepaalde pagina's niet mochten worden geïndexeerd, maar de afgelopen drie jaar is daar door de opkomst van taalmodellen snel verandering in gekomen.
Sites worden de hele dag door bezocht door allerlei bots van allerlei techbedrijven die verschillende doelen hebben. Ze komen data verzamelen om AI-modellen te trainen, een site bezoeken omdat een gebruiker van een chatbot of agent specifiek om iets vraagt, data ophalen voor zoekindexen (en niet alleen die van Google; vrijwel elke chatbot heeft tegenwoordig ook een eigen zoekindex) etc.
Het worden er steeds meer en als je ze al wilt blokkeren dan loop je eigenlijk altijd achter de feiten omdat er weer een nieuwe bot het internet op is gestuurd door een techbedrijf. Je loopt uiteindelijk altijd achter de feiten aan. Daar komt bij dat niet van elk botje helemaal duidelijk is wat hij doet. Neem FacebookBot: die wordt volgens sommige bronnen gebruikt om metadata op te halen voor links op Facebook en volgens andere bronnen is het een scraper om trainingsdata te verzamelen. Het resulteert erin dat veel nieuwssites hem niet blokkeren en anderen wel.
In mei 2024 heb ik voor het laatst een overzicht gemaakt van wie welk AI-bedrijf blokkeert. Deze week heb ik geprobeerd een nieuw overzicht te maken, maar heel eerlijk: het is inmiddels zo complex dat het moeilijk te doen is. Ik heb uiteraard toch een poging gedaan. Die is zeker niet compleet, want er zijn nog veel meer bedrijven en bots. Maar de belangrijkste zitten erbij waardoor het volgens mij een goed beeld geeft. Wat me daarbij meteen opviel, is dat veel Nederlandse media tegenwoordig veel meer, en vooral completer, bots zijn gaan blokkeren dan twee jaar geleden.
Trainingsdata verzamelen
Om te beginnen heb ik een overzicht gemaakt van wie welke bots blokkeert om trainingsdata te verzamelen. Daarbij valt op dat Hart van Nederland en Metro gewoon iedereen toelaten en de rest eigenlijk iedereen blokkeert. Uitzonderingen zijn Meta en Apple. Sommige media blokkeren die niet, omdat het invloed zou hebben op respectievelijk de weergave van links op Facebook en de aanwezigheid binnen Apple News. Of dat klopt is zeer de vraag, omdat er sites zijn die de bots blokkeren en geen problemen lijken te hebben met Facebook en Apple News.
| Site | OpenAI | Meta | Amazon | Anthropic | Apple | ByteDance | Common Crawl | Diffbot | |
|---|---|---|---|---|---|---|---|---|---|
| AD | ⛔️ | ⛔️ | - | ⛔️ | ⛔️ | ⛔️ | ⛔️ | ⛔️ | ⛔️ |
| Hart van Nederland | - | - | - | - | - | - | - | - | - |
| Metro | - | - | - | - | - | - | - | - | - |
| NOS.nl | ⛔️ | ⛔️ | ⛔️ | ⛔️ | ⛔️ | ⛔️ | ⛔️ | ⛔️ | ⛔️ |
| NRC | ⛔️ | ⛔️ | - | ⛔️ | ⛔️ | - | ⛔️ | ⛔️ | ⛔️ |
| NU.nl | ⛔️ | ⛔️ | - | ⛔️ | ⛔️ | ⛔️ | ⛔️ | ⛔️ | ⛔️ |
| RTL Nieuws | ⛔️ | ⛔️ | - | ⛔️ | ⛔️ | ⛔️ | ⛔️ | ⛔️ | ⛔️ |
| Telegraaf | ⛔️ | ⛔️ | ⛔️ | ⛔️ | ⛔️ | - | ⛔️ | ⛔️ | ⛔️ |
| Volkskrant | ⛔️ | ⛔️ | - | ⛔️ | ⛔️ | ⛔️ | ⛔️ | ⛔️ | ⛔️ |
Actuele informatie ophalen
Naast de scrapers voor trainingsdata zijn er steeds meer bots die worden gebruikt om zoekindexen op te bouwen en om op basis van een vraag of opdracht van een gebruiker je site te bezoeken. Of je die wilt blokkeren is een keuze. In principe zijn dit bots die uiteindelijk resultaten opleveren voor gebruikers met bronvermelding. Tegelijkertijd halen ze nog steeds informatie van je site en gebruiken die, waardoor iemand in principe je site niet meer hoeft te bezoeken.
Het was lastig om hier een goed overzicht van te maken, omdat er steeds nieuwe toepassingen komen die soms een eigen bot krijgen en soms niet. Ik heb geprobeerd om onderscheid te maken tussen het opbouwen van een zoekindex en het bezoeken van een site op basis van een vraag/opdracht van een gebruiker, als AI-bedrijven voor beide losse bots hebben.
| Site | OpenAI Search | OpenAI User | Meta Search | Meta User | Anthropic Search | Anthropic User | Perplixity | Mistral | |
|---|---|---|---|---|---|---|---|---|---|
| AD | ⛔️ | ⛔️ | - | - | ⛔️ | ⛔️ | ⛔️ | ⛔️ | ⛔️ |
| Hart van Nederland | - | - | - | - | - | - | - | - | - |
| Metro | - | - | - | - | - | - | - | - | - |
| NOS.nl | - | ⛔️ | - | - | ⛔️ | - | ⛔️ | ⛔️ | - |
| NRC | ⛔️ | ⛔️ | - | - | ⛔️ | ⛔️ | ⛔️ | ⛔️ | ⛔️ |
| NU.nl | - | ⛔️ | - | - | ⛔️ | - | ⛔️ | ⛔️ | - |
| RTL Nieuws | - | ⛔️ | - | - | ⛔️ | - | ⛔️ | ⛔️ | - |
| Telegraaf | - | ⛔️ | - | - | ⛔️ | - | ⛔️ | ⛔️ | - |
| Volkskrant | - | ⛔️ | - | - | ⛔️ | - | ⛔️ | ⛔️ | ⛔️ |
Wat me hierbij opviel is, los van het feit Hart van Nederland en Metro niemand blokkeren, veel bots die zoekindexen opbouwen niet worden geblokkeerd. Dat kan een bewuste keuze zijn, maar het gaat hierbij ook vaak over relatief nieuwe bots. meta-webindexer wordt bijvoorbeeld door niemand geblokkeerd, zelfs niet door AD en NRC die alle andere zoekbots wel op de zwarte lijst hebben gezet. Alles wijst er dus op dat nieuwsmedia continu achter de feiten aan blijven lopen, iets dat bijna niet te voorkomen is in een landschap dat zo snel verandert.
Google wordt overigens door niemand geblokkeerd en de reden daarvoor is simpel: als je niet wilt dat Google informatie van je site gebruikt voor AI-overzichten of de AI modus moet je heel de zoekmachine blokkeren. Een bewuste keuze van Google: het bedrijf kan als enige de macht die het heeft met de zoekmachine misbruiken om sites te dwingen om het gebruik van hun data voor AI-antwoorden toe te staan.
Kort
- Het Noord-Hollands Dagblad maakt een dagelijkse nieuwspodcast die door text-to-speech-technologie wordt voorgelezen. De teksten worden door de redactie geschreven en het uiteindelijke resultaat wordt voor publicatie ook nog eens gecontroleerd. Een interessant experiment, maar de afgelopen jaren is dit al veelvuldig geprobeerd en luisteren er weinig mensen naar podcasts/audiobulletins waarin nieuwsberichten worden voorgelezen. Niet als een mens het voorleest en al helemaal niet als een computer het doet.
- De Nederlandse tak van tijdschriftenuitgever Hearst heeft een deal gesloten met de startup Opt Out Advertising om advertenties te kunnen uitserveren aan bezoekers die cookies weigeren.
- Grote kranten als The New York Times en The Guardian willen niet langer dat The Internet Archive al hun artikelen archiveert. De reden heeft weinig met de archivering zelf te maken, maar techbedrijven gebruiken The Internet Archive om trainingsdata voor AI-modellen te verzamelen. Als je de bots van techbedrijven blokkeert gebruiken ze op die manier alsnog je artikelen als trainingsdata. Deze situatie is in mijn ogen problematisch, want The Internet Archive heeft een belangrijke rol in het bewaren en beschikbaar maken van internethistorie.
- De video-app Sora van OpenAI was korte tijd een hype in de VS, nadat de app daar in oktober werd gelanceerd. Na een piek in downloads in november, is het aantal mensen dat de app installeert echter hard teruggelopen. Ook het gebruik is afgelopen maand flink afgenomen.
- Ik heb al vaker geschreven dat ik me zorgen maak over hoe dystopisch de visie van Meta op de toekomst van social media is. Tegenover aandeelhouders heeft Mark Zuckerberg deze week nog maar weer een keer bevestigd dat hij gelooft dat feeds die zijn gevuld met door AI gegenereerde media de toekomst zijn van social media.
- Daarnaast is Mark Zuckerberg ervan overtuigd dat het overgrote deel van de brillen die mensen dragen over een paar jaar slimme brillen zijn.
- De problemen met de Amerikaanse TikTok, die vlak na de overname door een groep bedrijven en investeerders ontstonden, lijken opgelost. De zorgen die toen ontstonden over wat er gebeurt met de app en het aanbevelingsalgoritme zijn echter niet verdwenen.
- De Canadese overheid voert gesprekken met Meta om links naar nieuwssites weer terug te brengen naar Facebook in Canada. Meta blokkeerde die in 2023 na invoering van de Online News Act, die het bedrijf verplichte om uitgevers te betalen. Als onderdeel van de handelsoorlog met de VS, zou Canada bereid zijn om de wet af te zwakken.