GEO & AI SEO

Hoe AI websites
crawlt

AI-zoekmachines sturen crawlers naar je website om content op te halen. GPTBot, OAI-SearchBot, PerplexityBot, ClaudeBot en andere bots bezoeken dagelijks miljoenen websites. OpenAI's crawlactiviteit is verdrievoudigd sinds augustus 2025. AI-crawlers genereren inmiddels meer dan 50 miljard requests per dag. In dit artikel lees je welke AI-crawlers er zijn, hoe ze zich gedragen, hoeveel serverbelasting ze veroorzaken en hoe je ze beheert via robots.txt.

3x

toename in OpenAI's crawlactiviteit sinds aug 2025

50 mld

AI-crawler requests per dag

3,6x

meer requests van ChatGPT-User dan Googlebot

5%

van websites blokkeert AI-crawlers via robots.txt

Welke AI-crawlers bezoeken je website

GPTBot. OpenAI's primaire crawler voor trainingsdata. GPTBot crawlt websites om content te verzamelen die kan worden gebruikt voor het trainen van toekomstige AI-modellen. Het is niet dezelfde crawler die ChatGPT gebruikt voor real-time zoeken. GPTBot gebruikt gemiddeld 1,7 KB per request, wat relatief licht is. Je kunt GPTBot apart blokkeren of toestaan in robots.txt.

OAI-SearchBot. OpenAI's crawler voor ChatGPT's zoekfunctionaliteit. Als iemand een vraag stelt aan ChatGPT en het de webzoekmodus gebruikt, haalt OAI-SearchBot de relevante pagina's op. Dit is de crawler die je wilt toestaan als je geciteerd wilt worden in ChatGPT-antwoorden. OAI-SearchBot en GPTBot zijn onafhankelijk: je kunt de een blokkeren en de ander toestaan.

ChatGPT-User en directe URL-requests

ChatGPT-User. Dit is de user agent die wordt gebruikt wanneer een ChatGPT-gebruiker specifiek een URL deelt in een gesprek. ChatGPT-User doet 3,6 keer meer requests dan Googlebot. Het gedrag is anders dan GPTBot en OAI-SearchBot: het bezoekt specifieke URL's op verzoek van gebruikers in plaats van systematisch te crawlen.

PerplexityBot. De crawler van Perplexity. Perplexity haalt content in real-time op wanneer een gebruiker een vraag stelt. PerplexityBot is controversieel: onderzoek van Cloudflare heeft aangetoond dat Perplexity soms ongedeclareerde crawlers gebruikt en user agents wisselt om robots.txt-blokkering te omzeilen. Dat maakt het moeilijker om Perplexity's crawlgedrag te controleren.

ClaudeBot en Googlebot

ClaudeBot. Anthropic's crawler voor Claude. ClaudeBot crawlt websites om content te verzamelen voor training en voor Claude's zoekfunctionaliteit. Anthropic respecteert robots.txt en biedt duidelijke documentatie over hoe je ClaudeBot kunt beheren.

Googlebot. Google's traditionele crawler die nu ook content ophaalt voor Google AI Overviews. Googlebot is de langst bestaande en meest gerespecteerde crawler. Je hoeft geen aparte configuratie te doen voor AI Overviews; als Googlebot je site kan crawlen, kan Google AI Overviews je content gebruiken. Meer over hoe deze zoekmachines zich onderscheiden lees je in hoe AI-zoekmachines verschillen van Google.

Hoe AI-crawlers technisch werken

AI-crawlers werken anders dan Googlebot. Googlebot crawlt systematisch: het volgt links, bouwt een index op en bezoekt pagina's periodiek om wijzigingen te detecteren. AI-crawlers combineren twee benaderingen: systematisch crawlen voor trainingsdata (GPTBot, ClaudeBot) en on-demand crawlen voor real-time zoeken (OAI-SearchBot, PerplexityBot).

Bij on-demand crawlen haalt de AI-crawler een pagina op op het moment dat een gebruiker een vraag stelt. Perplexity is het meest agressief in on-demand crawlen. Het bezoekt meerdere pagina's per vraag, verwerkt de content en genereert een antwoord met citaties. Dat verklaart waarom Perplexity pagina's binnen uren na publicatie kan citeren: het wacht niet op een indexeringscyclus.

De meeste AI-crawlers renderen geen JavaScript. Ze lezen de ruwe HTML die je server teruggeeft. Als je website afhankelijk is van JavaScript om content te laden (React, Angular, Vue zonder server-side rendering), dan zien AI-crawlers een lege pagina. Googlebot is een uitzondering: het kan JavaScript renderen, maar zelfs Googlebot heeft hier soms moeite mee. Voor maximale crawlbaarheid moet je content in de HTML-broncode staan. Meer hierover lees je in wat AI leest op websites.

Serverbelasting is een reëel aandachtspunt. AI-crawlers genereren meer dan 50 miljard requests per dag, ruim 1% van al het webverkeer. Op individuele websites varieert de impact. Shared hosting-sites melden dat AI-bots 5 tot 10% van alle requests uitmaken. De bandbreedte per request verschilt sterk: GPTBot gebruikt 1,7 KB per request, terwijl Meta's crawler tot 190 KB per request gebruikt.

Voor kleine websites op shared hosting kan de extra belasting merkbaar zijn. De oplossing is niet om alle AI-crawlers te blokkeren (dan verlies je AI-zichtbaarheid), maar om je crawlbudget te beheren. Gebruik de Crawl-delay directive in robots.txt om de snelheid te beperken. Zorg dat je server caching correct is ingesteld zodat herhaalde requests minder belasting veroorzaken.

Controleer je server-logs regelmatig op AI-crawler activiteit. Als de belasting te hoog is, beperk dan de crawlsnelheid via robots.txt in plaats van AI-crawlers volledig te blokkeren.

robots.txt instellen voor AI-crawlers

robots.txt is het bestand waarmee je controleert welke crawlers je website mogen bezoeken en welke pagina's ze mogen crawlen. Voor AI-crawlers kun je per user agent bepalen wat je toestaat. De belangrijkste user agents zijn: GPTBot (OpenAI training), OAI-SearchBot (ChatGPT zoeken), ChatGPT-User (gebruiker deelt URL), PerplexityBot (Perplexity), ClaudeBot (Claude) en Google-Extended (Google AI training).

De strategische keuze is: wil je dat AI je content gebruikt voor training, voor real-time zoeken, of beide? Als je geciteerd wilt worden in AI-antwoorden, moet je OAI-SearchBot, PerplexityBot en ClaudeBot toestaan. Als je niet wilt dat je content wordt gebruikt voor modeltraining, kun je GPTBot en Google-Extended blokkeren terwijl je de zoek-crawlers toestaat. Die twee doelen zijn onafhankelijk van elkaar.

De groei van AI-blokkering

Circa 5% van alle websites heeft inmiddels hun robots.txt aangepast om AI-crawlers te blokkeren. Dat was 1% in mid-2024. De stijging weerspiegelt de groeiende bewustwording, maar ook de zorgen over het gebruik van content voor AI-training. In Nederland heeft BREIN actie ondernomen om Common Crawl (een veelgebruikte trainingsdata-bron) te verzoeken 2 miljoen artikelen van Nederlandse nieuwsmedia te verwijderen. Het debat over AI en content-eigendom is in volle gang.

Een aandachtspunt: niet alle AI-crawlers respecteren robots.txt even goed. OpenAI en Anthropic hebben zich gecommitteerd aan het respecteren van robots.txt. Perplexity heeft een controversieel trackrecord. Cloudflare-onderzoek heeft aangetoond dat Perplexity ongedeclareerde crawlers en wisselende user agents gebruikt om blokkering te omzeilen. Dat betekent dat het blokkeren van PerplexityBot in robots.txt mogelijk niet volledig effectief is.

Voor de meeste bedrijven is de aanbevolen strategie: sta AI-zoek-crawlers toe en blokkeer alleen training-crawlers als je daar bezwaar tegen hebt. Je wilt gevonden worden in AI-antwoorden. Dat vereist dat AI je content kan ophalen. Blokkeer je alle AI-crawlers, dan word je onzichtbaar in de snelst groeiende zoekkanalen. Lees meer over die strategische keuze in hoe bedrijven zichtbaar blijven in AI.

Blokkeer niet alle AI-crawlers tegelijk. Sta zoek-crawlers toe voor AI-zichtbaarheid en blokkeer alleen training-crawlers als je dat bewust kiest.

Naast robots.txt is je sitemap belangrijk voor AI-crawlbaarheid. Een up-to-date sitemap.xml helpt AI-crawlers om je pagina's te ontdekken. Zorg dat je sitemap alle belangrijke pagina's bevat, dat de lastmod-datums correct zijn en dat je sitemap in Google Search Console en Bing Webmaster Tools is ingediend. Bing is relevant omdat ChatGPT de Bing-index gebruikt voor real-time zoeken.

Wordt je website gecrawld door AI?

VestVale monitort automatisch of ChatGPT, Gemini, Claude en Google AI je bedrijf citeren. Ontdek of AI je content vindt en gebruikt.

Aan de slag | vanaf €19,95/mnd

Hoe AI-crawlers verschillen van Googlebot

Googlebot crawlt systematisch en voorspelbaar. Het volgt een crawlschema, respecteert crawlbudgetten en bouwt een uitgebreide index op. Google heeft decennia aan ervaring in het beheren van crawlerrelaties met website-eigenaren. AI-crawlers zijn nieuwer en minder voorspelbaar. Ze crawlen agressiever, volgen minder gevestigde protocollen en hun gedrag verandert regelmatig naarmate de platforms zich ontwikkelen.

Een belangrijk verschil is het doel van het crawlen. Googlebot bouwt een index op die later wordt doorzocht. AI-crawlers halen content vaak on-demand op: op het moment dat een gebruiker een vraag stelt. Dat maakt de laadsnelheid van je pagina extra belangrijk voor AI-zichtbaarheid. Als je pagina drie seconden nodig heeft om te laden, kan de AI-crawler besluiten om door te gaan naar een snellere bron. Bij Googlebot heb je meer marge omdat het asynchroon indexeert.

JavaScript-rendering: het grootste verschil

Googlebot rendert JavaScript (zij het met een vertraging). AI-crawlers doen dat vrijwel nooit. Dit is het grootste technische verschil. Een website die volledig draait op client-side JavaScript kan prima ranken in Google maar volledig onzichtbaar zijn voor ChatGPT en Perplexity. De HTML-broncode is wat telt voor AI-crawlers. Alles wat niet in de initiële HTML-response staat, bestaat niet voor AI. Meer hierover lees je in hoe AI websites leest.

De crawlfrequentie verschilt ook. Googlebot bezoekt de meeste pagina's periodiek, afhankelijk van het crawlbudget en de verwachte updatefrequentie. AI-crawlers zijn minder voorspelbaar. OpenAI's crawlactiviteit is verdrievoudigd in minder dan een jaar. Dat patroon kan zich herhalen naarmate AI-zoeken groeit. Bereid je server voor op toenemende belasting van AI-crawlers.

Structured data voor AI vs. Google

Structured data wordt door alle crawlers gelezen, maar de manier waarop verschilt. Googlebot gebruikt structured data primair voor rich results in de zoekresultaten. AI-crawlers gebruiken structured data als directe input voor het genereren van antwoorden. FAQPage-schema wordt door Googlebot gebruikt om FAQ rich results te tonen. Dezelfde structured data wordt door AI-crawlers gebruikt om vraag-antwoord paren direct te extraheren en in AI-antwoorden te plaatsen. Lees meer in waarom structured data belangrijk is.

De conclusie is dat je website technisch moet zijn geoptimaliseerd voor beide werelden: de traditionele Google-index en de nieuwe AI-crawlers. In de praktijk betekent dat: HTML-first content, snelle laadtijden, volledige structured data en een correct geconfigureerde robots.txt. Als je site goed werkt voor Googlebot en je AI-crawlers niet blokkeert, heb je een solide basis voor zichtbaarheid in beide kanalen. Meer over hoe AI technisch met je content omgaat lees je in hoe AI content interpreteert.

Je website optimaal crawlbaar maken voor AI

Zet content in HTML, niet in JavaScript

AI-crawlers renderen geen JavaScript. Alle tekst die je geciteerd wilt zien, moet in de HTML-broncode staan. Gebruik server-side rendering als je een JavaScript-framework gebruikt. Test door je pagina te laden met JavaScript uitgeschakeld.

Houd je sitemap up-to-date

Een accurate sitemap.xml helpt AI-crawlers om je pagina's te ontdekken. Zorg dat alle belangrijke pagina's erin staan en dat lastmod-datums correct zijn. Dien je sitemap in bij Google Search Console en Bing Webmaster Tools.

Sta AI-zoek-crawlers toe

Controleer je robots.txt en zorg dat OAI-SearchBot, PerplexityBot en ClaudeBot niet worden geblokkeerd. Je kunt training-crawlers (GPTBot, Google-Extended) apart blokkeren als je dat wilt. Zoek-crawlers toestaan is essentieel voor AI-zichtbaarheid.

Minimaliseer laadtijd

Snelle pagina's worden beter gecrawld. AI-crawlers hebben crawlbudgetten: hoe sneller je pagina laadt, hoe meer pagina's ze per sessie kunnen verwerken. Optimaliseer afbeeldingen, schakel caching in en minimaliseer server-responstijden.

Gebruik schone URL-structuur

Descriptieve URL's helpen AI-crawlers om de structuur van je website te begrijpen. /diensten/boekhouding-zzp/ is beter dan /page?id=423. Vermijd dynamische parameters waar mogelijk. Gebruik een logische hierarchie die je contentstructuur weerspiegelt.

Overweeg llms.txt

Een llms.txt bestand in je root-directory helpt AI-modellen om je website te navigeren. Het bevat een samenvatting van je site, je belangrijkste pagina's en je contactgegevens. Nog maar weinig websites hebben dit, waardoor het een vroeg concurrentievoordeel biedt.

Veelgestelde vragen

Kan ik GPTBot en OAI-SearchBot apart beheren?

Ja. GPTBot (training) en OAI-SearchBot (ChatGPT zoeken) zijn onafhankelijke user agents in robots.txt. Je kunt GPTBot blokkeren om te voorkomen dat je content wordt gebruikt voor training, terwijl je OAI-SearchBot toestaat zodat je geciteerd kunt worden in ChatGPT-antwoorden. Ze hebben aparte regels nodig in je robots.txt.

Respecteert Perplexity mijn robots.txt?

Niet altijd. Cloudflare-onderzoek heeft aangetoond dat Perplexity ongedeclareerde crawlers en wisselende user agents gebruikt om robots.txt-blokkering te omzeilen. Het blokkeren van PerplexityBot in robots.txt is daarom mogelijk niet volledig effectief. Als je Perplexity wilt blokkeren, overweeg aanvullende maatregelen op serverniveau.

Hoeveel serverbelasting veroorzaken AI-crawlers?

Dat varieert per site. Op typische shared hosting-sites maken AI-bots 5 tot 10% van alle requests uit. De bandbreedte per request verschilt sterk: GPTBot gebruikt 1,7 KB per request, terwijl Meta's crawler tot 190 KB gebruikt. Monitor je server-logs om de impact op jouw site te meten en gebruik Crawl-delay als het te veel wordt.

Moet ik AI-crawlers blokkeren of toestaan?

Als je zichtbaar wilt zijn in AI-antwoorden: toestaan. AI-zoekmachines zijn het snelst groeiende zoekkanaal. Blokkeer je ze, dan word je onzichtbaar in ChatGPT, Perplexity en Claude. Je kunt training-crawlers (GPTBot, Google-Extended) blokkeren als je bezwaar hebt tegen het gebruik van je content voor modeltraining, maar sta de zoek-crawlers toe.

Renderen AI-crawlers JavaScript?

Nee, de meeste AI-crawlers lezen alleen de ruwe HTML. JavaScript-content wordt niet gerenderd en is daardoor onzichtbaar. Googlebot is een uitzondering en kan JavaScript beperkt renderen. Als je website content laadt via JavaScript, implementeer server-side rendering. Test je pagina met JavaScript uitgeschakeld om te zien wat AI ziet.

Wordt je website gevonden door AI?

VestVale monitort automatisch of ChatGPT, Gemini, Claude en Google AI je bedrijf citeren. Ontdek of AI-crawlers je content vinden en gebruiken.

Vanaf €19,95/mnd excl. btw. Maandelijks opzegbaar.