Crawl budget
Crawl budget to limit zasobów, jakie Googlebot przeznacza na crawlowanie Twojej witryny w określonym czasie. W praktyce: ile URL-i robot odwiedzi w ciągu doby, zanim ruszy do innych zadań. Dla małych stron (do kilkuset URL-i) temat marginalny — dla sklepów z dziesiątkami tysięcy podstron, lokalnych portali i serwisów newsowych to fundament.
Co składa się na crawl budget
Google opiera go na dwóch elementach: crawl rate limit (ile żądań na sekundę serwer wytrzyma bez spowolnień) i crawl demand (jak bardzo dane URL-e są interesujące — popularność, świeżość, ranga w indeksie). Wysoki crawl rate przy niskim demand to marnowanie zasobów, niski rate przy wysokim demand — wąskie gardło hostingu.
Co marnuje crawl budget
Duplikaty treści (te same opisy pod różnymi URL-ami), strony parametryczne z faceted search, niekończące się pętle filtrów, kalendarze, sortowanie produktów po atrybutach, redirecty łańcuchowe (A → B → C → D), soft 404 i thin content. Każda taka strona to żądanie Googlebota, które nie buduje widoczności.
Jak zoptymalizować
Robots.txt blokujący ścieżki parametryczne, kanonikalizacja duplikatów, klarowna sitemap.xml z aktualnymi datami modyfikacji, eliminacja redirect chains, szybki TTFB. Search Console w sekcji „Statystyki indeksowania" pokazuje wykres żądań, status code i czas odpowiedzi — to pierwszy punkt diagnostyczny.
Kiedy realnie się tym zajmować
Jeśli widzisz, że nowe URL-e indeksują się tygodniami albo Google przestał odwiedzać partie sklepu — to sygnał, że budget jest wyczerpany na śmieci. Dla stron firmowych 5-stronicowych to nieistotny problem. Próg uwagi: zwykle 5–10 tys. URL-i albo dynamiczna struktura z dużą liczbą wariantów.