Introducere în robots.txt

Introducere în robots.txt


Un fișier robots.txt indică crawler-elor motoarelor de căutare care URL-uri pot fi accesate pe site-ul tău. Acesta este utilizat în principal pentru a evita supraîncărcarea site-ului cu cereri; nu este un mecanism pentru a împiedica o pagină web să fie indexată de Google. Pentru a împiedica o pagină web să fie indexată de Google, blochează indexarea cu noindex sau protejează pagina cu parolă.

Pentru ce este folosit un fișier robots.txt?

Un fișier robots.txt este folosit în principal pentru a gestiona traficul crawler-elor către site-ul tău și de obicei pentru a împiedica un fișier să fie indexat de Google, în funcție de tipul fișierului:

Efectul robots.txt asupra diferitelor tipuri de fișiere
Pagină web

Poți folosi un fișier robots.txt pentru pagini web (, PDF sau alte
formate non-media pe care Google le poate citi),
pentru a gestiona traficul de crawling dacă crezi că serverul tău va fi copleșit de cererile
de la crawler-ul Google sau pentru a evita accesarea paginilor neimportante sau similare de pe site-ul tău.

Dacă pagina ta web este blocată cu un fișier robots.txt, URL-ul său poate apărea în continuare în rezultatele căutării, dar rezultatul căutării
nu va avea o descriere.
Fișierele de imagine, video, PDF și alte fișiere non- încorporate în pagina blocată vor
fi excluse de la crawling, de asemenea, cu excepția cazului în care sunt referite de alte pagini care sunt permise
pentru crawling. Dacă vezi acest rezultat al căutării pentru pagina ta și dorești să-l corectezi, elimină
intrarea din robots.txt care blochează pagina. Dacă dorești să ascunzi complet pagina din Căutare,
folosește
o altă metodă.

Fișier media

Folosește un fișier robots.txt pentru a gestiona traficul de crawling și, de asemenea, pentru a preveni afișarea fișierelor de imagine, video și
audio în rezultatele Căutării Google. Acest lucru nu va împiedica alte pagini sau
utilizatori să facă legături către fișierul tău de imagine, video sau audio.

Fișier resursă Poți folosi un fișier robots.txt pentru a bloca fișiere de resurse, cum ar fi imagini neimportante, scripturi,
sau fișiere de stil, dacă crezi că paginile încărcate fără aceste resurse nu vor
fi afectate semnificativ de lipsa lor
. Totuși, dacă absența acestor
resurse face ca pagina să fie mai greu de înțeles pentru crawler-ul Google, nu le bloca,
altfel Google nu va face o treabă bună în analizarea paginilor care depind de
acele resurse.

Înțelege limitările unui fișier robots.txt

Înainte de a crea sau edita un fișier robots.txt, ar trebui să cunoști limitele acestei metode de blocare a URL-urilor. În funcție de obiectivele și situația ta, s-ar putea să dorești să iei în considerare alte mecanisme pentru a te asigura că URL-urile tale nu sunt găsite pe web.

  • Regulile robots.txt pot să nu fie suportate de toate motoarele de căutare.
    Instrucțiunile din fișierele robots.txt nu pot impune comportamentul crawler-elor pe site-ul tău; depinde de crawler să le respecte. În timp ce Googlebot și alte crawler-e web respectabile respectă
    instrucțiunile dintr-un fișier robots.txt, alte crawler-e s-ar putea să nu o facă. Prin urmare, dacă dorești să păstrezi informațiile în siguranță față de crawler-ele web, este mai bine să folosești alte metode de blocare, cum ar fi
    protejarea cu parolă a fișierelor private pe serverul tău.
  • Diferite crawler-e interpretează sintaxa diferit.
    Deși crawler-ele web respectabile urmează regulile dintr-un fișier robots.txt, fiecare crawler
    ar putea interpreta regulile diferit. Ar trebui să cunoști
    sintaxa corectă pentru a te adresa
    diferitelor crawler-e web, deoarece unele s-ar putea să nu înțeleagă anumite instrucțiuni.
  • O pagină care este interzisă în robots.txt poate
    fi totuși indexată dacă este legată de alte site-uri.

    În timp ce Google nu va accesa sau indexa conținutul blocat de un fișier robots.txt, este posibil să găsim și să indexăm un URL interzis dacă este legat de alte locuri de pe web. Ca rezultat,
    adresa URL și, potențial, alte informații disponibile public, cum ar fi textul ancoră
    în legăturile către pagină, pot apărea în rezultatele Căutării Google. Pentru a preveni corect apariția URL-ului tău
    în rezultatele Căutării Google,
    protejează cu parolă fișierele pe serverul tău,
    folosește eticheta noindex meta sau antetul de răspuns,
    sau elimină complet pagina.

Creează sau actualizează un fișier robots.txt

Dacă ai decis că ai nevoie de unul, învață cum să
creezi un fișier robots.txt. Sau dacă
ai deja unul, învață cum să
îl actualizezi.

Vrei să afli mai multe? Verifică următoarele resurse:


Notă de Transparență E-E-A-T: Acest material reprezintă o analiză aprofundată, adaptare și traducere tehnică a documentației oficiale Google Search Central. Conținutul original este oferit de Google sub licența Creative Commons Attribution 4.0 (CC-BY 4.0). AdvancedSystems operează ca o agenție premium independentă de consultanță și audit SEO, aducând valoare adăugată prin explicarea conceptelor arhitecturale pentru piața B2B din România.

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *