Googlebot

Googlebot

Googlebot este denumirea generică pentru două tipuri de
crawlere web utilizate de Căutarea Google:

Poți identifica subtipul de Googlebot analizând
antetul cererii HTTP user-agent
din cerere. Totuși, ambele tipuri de crawlere respectă același token de produs (token user agent) în
robots.txt, astfel încât nu poți viza selectiv fie Googlebot Smartphone, fie Googlebot Desktop folosind robots.txt.

Pentru majoritatea site-urilor, Căutarea Google
indexează în principal versiunea mobilă
a conținutului. Astfel, majoritatea cererilor de crawling ale Googlebot vor fi efectuate folosind crawlerul mobil, iar o minoritate folosind crawlerul desktop.

Cum accesează Googlebot site-ul tău

Pentru majoritatea site-urilor, Googlebot nu ar trebui să acceseze site-ul tău mai des de o dată la câteva secunde, în medie. Totuși, din cauza întârzierilor, este posibil ca rata să pară ușor mai mare pe perioade scurte. Dacă site-ul tău întâmpină dificultăți în a ține pasul cu cererile de crawling ale Google, poți
reduce rata de crawling.

Când efectuează crawling pentru Căutarea Google, Googlebot accesează primii 2MB dintr-un
tip de fișier suportat, și primii 64MB dintr-un fișier PDF. Dintr-o perspectivă de redare, fiecare resursă referențiată în (cum ar fi CSS și JavaScript) este preluată separat, iar fiecare preluare de resurse este limitată de aceeași limită de dimensiune a fișierului care se aplică altor fișiere (cu excepția fișierelor PDF).
Odată ce limita de tăiere este atinsă, Googlebot oprește preluarea și trimite doar partea deja descărcată a fișierului pentru considerare la indexare. Limita de dimensiune a fișierului se aplică datelor necomprimate.
Alte crawlere Google, de exemplu Googlebot Video și Googlebot Image, pot avea
limite diferite.

Când efectuează crawling de la adrese IP din SUA, fusul orar al Googlebot este
Ora Pacificului.

Alte
proprietăți tehnice ale Googlebot
sunt descrise în prezentarea generală a crawlerelor Google.

Blocarea Googlebot de la vizitarea site-ului tău

Googlebot descoperă noi URL-uri de crawling în principal din linkuri încorporate în paginile deja crawl-uite. Este aproape imposibil să păstrezi un site secret prin nepublicarea linkurilor către acesta. De exemplu, de îndată ce cineva face clic pe un link de pe site-ul tău “secret” către un alt site, URL-ul site-ului tău “secret” poate apărea în eticheta referrer și poate fi stocat și publicat de celălalt site în jurnalul său de referințe.

Dacă dorești să împiedici Googlebot să facă crawling pe conținutul site-ului tău, ai la dispoziție
mai multe opțiuni. Amintește-ți că există o diferență între crawling și indexare; blocarea Googlebot de la crawling pe o pagină nu împiedică URL-ul paginii să apară în rezultatele căutării:

Blocarea Googlebot afectează Căutarea Google (inclusiv Discover și toate funcțiile Căutării Google), precum și alte produse cum ar fi Google Images, Google Video și Google News.

Verificarea Googlebot

Înainte de a decide să blochezi Googlebot, fii conștient că antetul cererii HTTP user-agent utilizat de Googlebot este adesea falsificat de alte crawlere. Este important să verifici că o cerere problematică provine într-adevăr de la Google. Cea mai bună modalitate de a verifica dacă o cerere provine într-adevăr de la Googlebot este să
folosești o căutare DNS inversă
pe IP-ul sursă al cererii sau să compari IP-ul sursă cu
intervalele de IP Googlebot.


Notă de Transparență E-E-A-T: Acest material reprezintă o analiză aprofundată, adaptare și traducere tehnică a documentației oficiale Google Search Central. Conținutul original este oferit de Google sub licența Creative Commons Attribution 4.0 (CC-BY 4.0). AdvancedSystems operează ca o agenție premium independentă de consultanță și audit SEO, aducând valoare adăugată prin explicarea conceptelor arhitecturale pentru piața B2B din România.

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *