Introducere în robots.txt

Un fișier robots.txt indică crawler-elor motoarelor de căutare care URL-uri pot fi accesate pe site-ul tău. Acesta este utilizat în principal pentru a evita supraîncărcarea site-ului cu cereri; nu este un mecanism pentru a împiedica o pagină web să fie indexată de Google. Pentru a împiedica o pagină web să fie indexată de Google, blochează indexarea cu noindex sau protejează pagina cu parolă.

Pentru ce este folosit un fișier robots.txt?

Un fișier robots.txt este folosit în principal pentru a gestiona traficul crawler-elor către site-ul tău și de obicei pentru a împiedica un fișier să fie indexat de Google, în funcție de tipul fișierului:

Efectul robots.txt asupra diferitelor tipuri de fișiere

Pagină web

Efectul robots.txt asupra diferitelor tipuri de fișiere
Pagină web	Poți folosi un fișier robots.txt pentru pagini web (, PDF sau alte formate non-media pe care Google le poate citi), pentru a gestiona traficul de crawling dacă crezi că serverul tău va fi copleșit de cererile de la crawler-ul Google sau pentru a evita accesarea paginilor neimportante sau similare de pe site-ul tău. Avertisment: Nu folosi un fișier robots.txt ca mijloc de a ascunde paginile tale web (inclusiv PDF-uri și alte formate textuale suportate de Google) din rezultatele Căutării Google. Dacă alte pagini indică către pagina ta cu text descriptiv, Google ar putea totuși să indexeze URL-ul fără a vizita pagina. Dacă dorești să blochezi pagina din rezultatele căutării, folosește o altă metodă, cum ar fi protecția cu parolă sau `noindex`. Dacă pagina ta web este blocată cu un fișier robots.txt, URL-ul său poate apărea în continuare în rezultatele căutării, dar rezultatul căutării nu va avea o descriere. Fișierele de imagine, video, PDF și alte fișiere non- încorporate în pagina blocată vor fi excluse de la crawling, de asemenea, cu excepția cazului în care sunt referite de alte pagini care sunt permise pentru crawling. Dacă vezi acest rezultat al căutării pentru pagina ta și dorești să-l corectezi, elimină intrarea din robots.txt care blochează pagina. Dacă dorești să ascunzi complet pagina din Căutare, folosește o altă metodă.
Fișier media	Folosește un fișier robots.txt pentru a gestiona traficul de crawling și, de asemenea, pentru a preveni afișarea fișierelor de imagine, video și audio în rezultatele Căutării Google. Acest lucru nu va împiedica alte pagini sau utilizatori să facă legături către fișierul tău de imagine, video sau audio. Citește mai multe despre prevenirea afișării imaginilor pe Google. Citește mai multe despre cum să elimini sau să restricționezi fișierele tale video de la afișarea pe Google.
Fișier resursă	Poți folosi un fișier robots.txt pentru a bloca fișiere de resurse, cum ar fi imagini neimportante, scripturi, sau fișiere de stil, dacă crezi că paginile încărcate fără aceste resurse nu vor fi afectate semnificativ de lipsa lor. Totuși, dacă absența acestor resurse face ca pagina să fie mai greu de înțeles pentru crawler-ul Google, nu le bloca, altfel Google nu va face o treabă bună în analizarea paginilor care depind de acele resurse.

Poți folosi un fișier robots.txt pentru pagini web (, PDF sau alte
formate non-media pe care Google le poate citi),
pentru a gestiona traficul de crawling dacă crezi că serverul tău va fi copleșit de cererile
de la crawler-ul Google sau pentru a evita accesarea paginilor neimportante sau similare de pe site-ul tău.

Dacă pagina ta web este blocată cu un fișier robots.txt, URL-ul său poate apărea în continuare în rezultatele căutării, dar rezultatul căutării
nu va avea o descriere.
Fișierele de imagine, video, PDF și alte fișiere non- încorporate în pagina blocată vor
fi excluse de la crawling, de asemenea, cu excepția cazului în care sunt referite de alte pagini care sunt permise
pentru crawling. Dacă vezi acest rezultat al căutării pentru pagina ta și dorești să-l corectezi, elimină
intrarea din robots.txt care blochează pagina. Dacă dorești să ascunzi complet pagina din Căutare,
folosește
o altă metodă.

Fișier media

Folosește un fișier robots.txt pentru a gestiona traficul de crawling și, de asemenea, pentru a preveni afișarea fișierelor de imagine, video și
audio în rezultatele Căutării Google. Acest lucru nu va împiedica alte pagini sau
utilizatori să facă legături către fișierul tău de imagine, video sau audio.

Fișier resursă Poți folosi un fișier robots.txt pentru a bloca fișiere de resurse, cum ar fi imagini neimportante, scripturi,
sau fișiere de stil, dacă crezi că paginile încărcate fără aceste resurse nu vor
fi afectate semnificativ de lipsa lor. Totuși, dacă absența acestor
resurse face ca pagina să fie mai greu de înțeles pentru crawler-ul Google, nu le bloca,
altfel Google nu va face o treabă bună în analizarea paginilor care depind de
acele resurse.

Înțelege limitările unui fișier robots.txt

Înainte de a crea sau edita un fișier robots.txt, ar trebui să cunoști limitele acestei metode de blocare a URL-urilor. În funcție de obiectivele și situația ta, s-ar putea să dorești să iei în considerare alte mecanisme pentru a te asigura că URL-urile tale nu sunt găsite pe web.

Regulile robots.txt pot să nu fie suportate de toate motoarele de căutare.
Instrucțiunile din fișierele robots.txt nu pot impune comportamentul crawler-elor pe site-ul tău; depinde de crawler să le respecte. În timp ce Googlebot și alte crawler-e web respectabile respectă
instrucțiunile dintr-un fișier robots.txt, alte crawler-e s-ar putea să nu o facă. Prin urmare, dacă dorești să păstrezi informațiile în siguranță față de crawler-ele web, este mai bine să folosești alte metode de blocare, cum ar fi
protejarea cu parolă a fișierelor private pe serverul tău.
Diferite crawler-e interpretează sintaxa diferit.
Deși crawler-ele web respectabile urmează regulile dintr-un fișier robots.txt, fiecare crawler
ar putea interpreta regulile diferit. Ar trebui să cunoști
sintaxa corectă pentru a te adresa
diferitelor crawler-e web, deoarece unele s-ar putea să nu înțeleagă anumite instrucțiuni.
O pagină care este interzisă în robots.txt poate
fi totuși indexată dacă este legată de alte site-uri.
În timp ce Google nu va accesa sau indexa conținutul blocat de un fișier robots.txt, este posibil să găsim și să indexăm un URL interzis dacă este legat de alte locuri de pe web. Ca rezultat,
adresa URL și, potențial, alte informații disponibile public, cum ar fi textul ancoră
în legăturile către pagină, pot apărea în rezultatele Căutării Google. Pentru a preveni corect apariția URL-ului tău
în rezultatele Căutării Google,
protejează cu parolă fișierele pe serverul tău,
folosește eticheta noindex meta sau antetul de răspuns,
sau elimină complet pagina.

Creează sau actualizează un fișier robots.txt

Dacă ai decis că ai nevoie de unul, învață cum să
creezi un fișier robots.txt. Sau dacă
ai deja unul, învață cum să
îl actualizezi.

Vrei să afli mai multe? Verifică următoarele resurse:

Notă de Transparență E-E-A-T: Acest material reprezintă o analiză aprofundată, adaptare și traducere tehnică a documentației oficiale Google Search Central. Conținutul original este oferit de Google sub licența Creative Commons Attribution 4.0 (CC-BY 4.0). AdvancedSystems operează ca o agenție premium independentă de consultanță și audit SEO, aducând valoare adăugată prin explicarea conceptelor arhitecturale pentru piața B2B din România.

Introducere în robots.txt