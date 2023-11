Veel dank dat je met jouw lidmaatschap me steunt bij het maken van mijn nieuwsbrief. Vandaag deel ik een klein onderzoekje waarvoor ik de tijd heb kunnen vrijmaken dankzij de betalende leden van mijn nieuwsbrief.

Welke Nederlandse nieuwssites blokkeren bots van AI-bedrijven?

In augustus maakte OpenAI bekend dat het mogelijk werd om de bot die webpagina's verzamelt om zijn GPT-taalmodellen te trainen te blokkeren. Via het bestand robots.txt, dat sites op hun server hebben staan om crawlers te vertellen wat en hoe ze een site mogen doorzoeken, kwam er specifieke instructie waar de bot van OpenAI naar luistert. Tot op heden werd robots.txt voornamelijk gebruikt om Google instructies te geven hoe een site moest worden geïndexeerd en slechts een beperkt deel van alle websites gebruikte het ook om crawlers te blokkeren.

Sinds OpenAI aankondigde dat je er via robots.txt voor kon zorgen dat je site niet wordt gebruikt als trainingsdata voor GPT, is dat wel anders. Er verschenen, zeker in september, veelvuldig artikelen over uitgevers die gebruik maakten van deze mogelijkheid en de GPT-crawler de toegang tot hun site ontzegde.