Jak sprawdzić, ile crawl budgetu zużywa moja strona?

W Google Search Console wejdź w Ustawienia → Statystyki indeksowania. Zobaczysz liczbę żądań Googlebota dziennie, czas odpowiedzi serwera i status code. Anomalie (gwałtowne skoki, długotrwałe spadki, dużo 4xx/5xx) to sygnał, że robot natyka się na problemy.

Czy crawl budget to to samo co indexing budget?

Nie. Crawl budget to ile URL-i robot odwiedzi. Indexing budget to ile z nich faktycznie trafi do indeksu. Można zmarnować crawl na strony, które Google i tak nie zaindeksuje (np. odfiltruje jako duplikaty lub thin content) — to najczęstszy scenariusz w sklepach z faceted search.

Czy mała strona musi się tym przejmować?

Nie. Dla witryn do ~500 URL-i Googlebot crawluje wszystko bez większych problemów. Crawl budget staje się tematem przy 10k+ URL-i, dużej dynamice publikacji (newsy, ecommerce) lub przy źle skonfigurowanym faceted search, który generuje miliony wariantów.

Czy szybszy serwer realnie zwiększa crawl budget?

Tak, pośrednio. Google podnosi crawl rate, jeśli widzi, że serwer odpowiada szybko i nie zwraca błędów. Słaby TTFB i błędy 5xx skłaniają Googlebota do ograniczenia tempa — żeby nie obciążyć serwera. Dobry hosting i CDN to inwestycja w crawl efficiency.

Crawl budget — SEOGods

Crawl budget to limit zasobów, jakie Googlebot przeznacza na crawlowanie Twojej witryny w określonym czasie. W praktyce: ile URL-i robot odwiedzi w ciągu doby, zanim ruszy do innych zadań. Dla małych stron (do kilkuset URL-i) temat marginalny — dla sklepów z dziesiątkami tysięcy podstron, lokalnych portali i serwisów newsowych to fundament.

Co składa się na crawl budget

Google opiera go na dwóch elementach: crawl rate limit (ile żądań na sekundę serwer wytrzyma bez spowolnień) i crawl demand (jak bardzo dane URL-e są interesujące — popularność, świeżość, ranga w indeksie). Wysoki crawl rate przy niskim demand to marnowanie zasobów, niski rate przy wysokim demand — wąskie gardło hostingu.

Co marnuje crawl budget

Duplikaty treści (te same opisy pod różnymi URL-ami), strony parametryczne z faceted search, niekończące się pętle filtrów, kalendarze, sortowanie produktów po atrybutach, redirecty łańcuchowe (A → B → C → D), soft 404 i thin content. Każda taka strona to żądanie Googlebota, które nie buduje widoczności.

Jak zoptymalizować

Robots.txt blokujący ścieżki parametryczne, kanonikalizacja duplikatów, klarowna sitemap.xml z aktualnymi datami modyfikacji, eliminacja redirect chains, szybki TTFB. Search Console w sekcji „Statystyki indeksowania" pokazuje wykres żądań, status code i czas odpowiedzi — to pierwszy punkt diagnostyczny.

Kiedy realnie się tym zajmować

Jeśli widzisz, że nowe URL-e indeksują się tygodniami albo Google przestał odwiedzać partie sklepu — to sygnał, że budget jest wyczerpany na śmieci. Dla stron firmowych 5-stronicowych to nieistotny problem. Próg uwagi: zwykle 5–10 tys. URL-i albo dynamiczna struktura z dużą liczbą wariantów.