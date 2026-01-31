In deze nieuwsbrief wil ik het met je hebben over:

Mediabeleid gaat over veel meer dan de NPO, maar dat is niet terug te vinden in het regeerakkoord.

Bijna alle landelijke nieuwsmedia blokkeren actief bots van AI-bedrijven, maar blijven achter de feiten aanlopen.

Dat D66, CDA en VVD gisteren hun regeerakkoord hebben gepresenteerd is waarschijnlijk geen nieuws voor je, maar toch wil ik het er even over hebben. En dan specifiek over de mediaparagraaf van het akkoord. Of eigenlijk: de paragraaf 'media en cultuur'.

De paragraaf bestaat uit acht punten, waarvan er vier over media gaan en vier over cultuur. De vier punten die over de media gaan, gaan grotendeels over de publieke omroep. Over commerciële media schrijven de partijen:

Er komt een integraal mediabeleid, uitgaande van een pluriform media-aanbod en bestaande uit zowel commerciële spelers als de publieke omroep. (...) met meer aandacht voor samenwerking met commerciële partijen en coproducties.

We blijven gericht investeren in de professionalisering van de publieke omroep, onafhankelijke en regionale journalistiek en persveiligheid.

Over de toegang tot betrouwbare informatie en de lastige verhouding tussen de Nederlandse media en big tech gaat het niet. Het gaat in relatief detail over omroepbestuurders en de hervorming van de landelijke publieke omroep, maar over de echte uitdagingen gaat het eigenlijk niet.

Iets wat je maandag ook al zag in het mediadebat in de Tweede Kamer afgelopen maandag. Alle gesprekken over de media in Den Haag zijn gekaapt door de discussie over de toekomst van het omroepbestel. Ze zouden echter moeten gaan over toegang tot betrouwbare informatie en het behoud van een divers en kwalitatief journalistiek aanbod in een wereld waarin big tech een steeds groter monopolie heeft op de toegang tot informatie, algoritmes leidend zijn in wat mensen wel en niet te zien krijgen en kunstmatige intelligentie de verdienmodellen van uitgevers en omroepen nog verder onder druk zet.

Wat wel positief is, is dat het veel gaat over online veiligheid. Aanpak van desinformatie en online beïnvloeding, een minimumleeftijd voor toegang tot social media voor kinderen en aanpak van deepfakes zijn enkele onderwerpen die daarin voorbij komen. Het is positief om te zien dat dit zoveel aandacht krijgt van het nieuwe kabinet, maar op het gebied van de journalistiek en de toekomst van het Nederlandse medialandschap is er ook urgentie nodig. En die ontbreekt volledig in dit akkoord.

Om controle te houden over wat techbedrijven doen met de inhoud van je website, kun je in robots.txt aangeven welke bots je site mogen bezoeken om informatie op te halen. In het verleden werd dit vooral gebruikt om Google instructies te geven dat bepaalde pagina's niet mochten worden geïndexeerd, maar de afgelopen drie jaar is daar door de opkomst van taalmodellen snel verandering in gekomen.

Sites worden de hele dag door bezocht door allerlei bots van allerlei techbedrijven die verschillende doelen hebben. Ze komen data verzamelen om AI-modellen te trainen, een site bezoeken omdat een gebruiker van een chatbot of agent specifiek om iets vraagt, data ophalen voor zoekindexen (en niet alleen die van Google; vrijwel elke chatbot heeft tegenwoordig ook een eigen zoekindex) etc.

Het worden er steeds meer en als je ze al wilt blokkeren dan loop je eigenlijk altijd achter de feiten omdat er weer een nieuwe bot het internet op is gestuurd door een techbedrijf. Je loopt uiteindelijk altijd achter de feiten aan. Daar komt bij dat niet van elk botje helemaal duidelijk is wat hij doet. Neem FacebookBot: die wordt volgens sommige bronnen gebruikt om metadata op te halen voor links op Facebook en volgens andere bronnen is het een scraper om trainingsdata te verzamelen. Het resulteert erin dat veel nieuwssites hem niet blokkeren en anderen wel.

In mei 2024 heb ik voor het laatst een overzicht gemaakt van wie welk AI-bedrijf blokkeert. Deze week heb ik geprobeerd een nieuw overzicht te maken, maar heel eerlijk: het is inmiddels zo complex dat het moeilijk te doen is. Ik heb uiteraard toch een poging gedaan. Die is zeker niet compleet, want er zijn nog veel meer bedrijven en bots. Maar de belangrijkste zitten erbij waardoor het volgens mij een goed beeld geeft. Wat me daarbij meteen opviel, is dat veel Nederlandse media tegenwoordig veel meer, en vooral completer, bots zijn gaan blokkeren dan twee jaar geleden.

Trainingsdata verzamelen

Om te beginnen heb ik een overzicht gemaakt van wie welke bots blokkeert om trainingsdata te verzamelen. Daarbij valt op dat Hart van Nederland en Metro gewoon iedereen toelaten en de rest eigenlijk iedereen blokkeert. Uitzonderingen zijn Meta en Apple. Sommige media blokkeren die niet, omdat het invloed zou hebben op respectievelijk de weergave van links op Facebook en de aanwezigheid binnen Apple News. Of dat klopt is zeer de vraag, omdat er sites zijn die de bots blokkeren en geen problemen lijken te hebben met Facebook en Apple News.

Site OpenAI Google Meta Amazon Anthropic Apple ByteDance Common Crawl Diffbot AD ⛔️ ⛔️ - ⛔️ ⛔️ ⛔️ ⛔️ ⛔️ ⛔️ Hart van Nederland - - - - - - - - - Metro - - - - - - - - - NOS.nl ⛔️ ⛔️ ⛔️ ⛔️ ⛔️ ⛔️ ⛔️ ⛔️ ⛔️ NRC ⛔️ ⛔️ - ⛔️ ⛔️ - ⛔️ ⛔️ ⛔️ NU.nl ⛔️ ⛔️ - ⛔️ ⛔️ ⛔️ ⛔️ ⛔️ ⛔️ RTL Nieuws ⛔️ ⛔️ - ⛔️ ⛔️ ⛔️ ⛔️ ⛔️ ⛔️ Telegraaf ⛔️ ⛔️ ⛔️ ⛔️ ⛔️ - ⛔️ ⛔️ ⛔️ Volkskrant ⛔️ ⛔️ - ⛔️ ⛔️ ⛔️ ⛔️ ⛔️ ⛔️

Actuele informatie ophalen

Naast de scrapers voor trainingsdata zijn er steeds meer bots die worden gebruikt om zoekindexen op te bouwen en om op basis van een vraag of opdracht van een gebruiker je site te bezoeken. Of je die wilt blokkeren is een keuze. In principe zijn dit bots die uiteindelijk resultaten opleveren voor gebruikers met bronvermelding. Tegelijkertijd halen ze nog steeds informatie van je site en gebruiken die, waardoor iemand in principe je site niet meer hoeft te bezoeken.

Het was lastig om hier een goed overzicht van te maken, omdat er steeds nieuwe toepassingen komen die soms een eigen bot krijgen en soms niet. Ik heb geprobeerd om onderscheid te maken tussen het opbouwen van een zoekindex en het bezoeken van een site op basis van een vraag/opdracht van een gebruiker, als AI-bedrijven voor beide losse bots hebben.

Site OpenAI Search OpenAI User Google Meta Search Meta User Anthropic Search Anthropic User Perplixity Mistral AD ⛔️ ⛔️ - - ⛔️ ⛔️ ⛔️ ⛔️ ⛔️ Hart van Nederland - - - - - - - - - Metro - - - - - - - - - NOS.nl - ⛔️ - - ⛔️ - ⛔️ ⛔️ - NRC ⛔️ ⛔️ - - ⛔️ ⛔️ ⛔️ ⛔️ ⛔️ NU.nl - ⛔️ - - ⛔️ - ⛔️ ⛔️ - RTL Nieuws - ⛔️ - - ⛔️ - ⛔️ ⛔️ - Telegraaf - ⛔️ - - ⛔️ - ⛔️ ⛔️ - Volkskrant - ⛔️ - - ⛔️ - ⛔️ ⛔️ ⛔️

Wat me hierbij opviel is, los van het feit Hart van Nederland en Metro niemand blokkeren, veel bots die zoekindexen opbouwen niet worden geblokkeerd. Dat kan een bewuste keuze zijn, maar het gaat hierbij ook vaak over relatief nieuwe bots. meta-webindexer wordt bijvoorbeeld door niemand geblokkeerd, zelfs niet door AD en NRC die alle andere zoekbots wel op de zwarte lijst hebben gezet. Alles wijst er dus op dat nieuwsmedia continu achter de feiten aan blijven lopen, iets dat bijna niet te voorkomen is in een landschap dat zo snel verandert.

Google wordt overigens door niemand geblokkeerd en de reden daarvoor is simpel: als je niet wilt dat Google informatie van je site gebruikt voor AI-overzichten of de AI modus moet je heel de zoekmachine blokkeren. Een bewuste keuze van Google: het bedrijf kan als enige de macht die het heeft met de zoekmachine misbruiken om sites te dwingen om het gebruik van hun data voor AI-antwoorden toe te staan.

