OpenAI heeft een eigen web crawler met de naam GPTBot. Deze bot bezoekt internetpagina’s en consumeert informatie. Deze informatie wordt gebruikt om taalmodellen – zoals GPT 4 – slimmer te maken.
Heb jij een website en wil je niet dat deze GPTBot informatie ‘steelt’ van je website? En wil je voorkomen dat jouw informatie straks vindbaar is via ChatGPT? Dan kun je de GPTBot blokkeren. Dit doe je in het robots.txt-bestand. In robots.txt staat welke pagina’s crawlers van zoekmachines mogen bekijken en welke pagina’s niet opgenomen mogen worden. Er zijn plugins beschikbaar om een robots.txt-bestand te maken (zoals Yoast SEO), maar je kunt ook old school een bestandje toevoegen of aanpassen op je server. Wil je controleren of je al een robots.txt-bestand hebt? Ga dan naar jouwdomein.nl/robots.txt.
Voeg de onderstaande regel toe aan het robots.txt-bestand om GPTBot geen toegang te geven tot je website:
User-agent: GPTBot
Disallow: /
Het schuine streepje betekent dat GPTBot geen toegang heeft tot de hele website. Wil je bepaalde mappen wel of niet beschikbaar maken, dan kan dat als volgt:
User-agent: GPTBot
Disallow: /geen-toegang/
Allow: /geen-toegang/wel-toegang/
GPTBot heeft nu wel toegang tot de hoofdmap (www.jouwdomein.nl), maar niet tot de map /geen-toegang/ (bijv. www.jouwdomein.nl/geen-toegang/pagina.html) en alle mappen die eronder vallen. Allow kun je dan gebruiken om een uitzondering te maken. In bovenstaand geval heeft de crawler wel toegang tot /geen-toegang/wel-toegang/ (ook al staat /geen-toegang/ op de blacklist).
Een nog hardere aanpak is het blokkeren van de IP-adressen van GPTBot. Op dit moment zijn dit de IP-adressen die GPTBot gebruikt, maar de kans is groot dat dit er in de toekomst meer worden:
20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28
Controleer deze pagina om alle IP-adressen in te zien.
Is het slim om GPTBot te blokkeren?
In sommige gevallen wel. Als er privacygevoelige informatie op jouw website staat, dan kan het verstandig zijn om GPTBot te blokkeren. We raden sowieso aan om informatie over medewerkers zoveel mogelijk af te schermen. Dit geldt bijvoorbeeld ook voor systemen achter de website, zoals het beheergedeelte van WordPress (vaak /wp-admin).
Staan er veel blogs en producten op je website? Dan kan het weer interessant zijn om de website ‘open’ te houden voor GPTBot. Zo wordt GPT 4 (of 5, 6, etc) alsmaar beter en wie weet verwijst de AI in de toekomst naar jouw website als iemand zoekt naar jouw product of dienst.