În acest articol vom prezenta următoarele:
- Ce este fișierul robots.txt?
- De ce este important fișierul robots.txt?
- Cum funcționează acest fișier?
- Cum se creează acest fișier și care sunt cele mai bune practici?
Ce este fișierul robots.txt?
Fișierul cu această denumire, după cum arată și extensia sa, este un fișier de tip text regăsit în rădăcina unui website. Robots.txt conține instrucțiuni pentru boții/roboții/crawlerii motoarelor de căutare prin care specifică exact pe care dintre pagini ar trebui și pe care dintre pagini nu ar trebui să facă crawl (să citească sau să nu citească anumite pagini ale site-ului).
Un fișier de acest tip poate fi accesat și vizualizat de către oricine. Va fi nevoie să adăugați textul „robots.txt” după URL-ul site-ului.
Exemplu:
De ce este important fișierul robots.txt?
Fișierul cu această denumire ajută la gestionarea activității crawlerilor web pe site, în așa fel încât să nu exploreze sau să indexeze pagini care nu sunt destinate publicului larg ori care nu prezintă un interes. În rândurile de mai jos enumerăm câteva dintre motivele pentru care trebuie folosit acest fișier.
1. Optimizarea din punct de vedere al bugetului de crawl
Acest buget se referă mai specific la numărul de pagini de pe site care pot fi citite de roboții Google într-un anumit interval de timp. Numărul poate să difere de la un site la altul, în funcție de dimensiune, număr total de pagini, număr de backlink-uri, etc.
În acest caz poate să apară o situație neplăcută – dacă vorbim despre un site cu un număr foarte mare de pagini, număr care depășește acest buget de crawl, există posibilitatea ca unele dintre pagini să nu fie indexate. Acele pagini neindexate nu vor obține nici poziționări și astfel efortul de a le crea va fi în zadar, întrucât nefiind indexate, nu vor fi afișate nici utilizatorilor.
Pentru această situație, blocarea acelor pagini nesemnificative sau care prezintă interes scăzut pentru utilizatori poate eficientiza folosirea bugetului de crawl în așa fel încât roboții să indexeze paginile de interes.
Conform celor de la Google, marea majoritate a deținătorilor de website-uri nu ar trebui să se îngrijoreze însă cu privire la acest buget de crawl. Acest aspect ar trebui avut în vedere doar în cazul acelor site-uri foarte mari, cu mii de pagini.
2. Blocarea de la indexare a anumitor pagini sau ascunderea unor resurse/fișiere
Roboții motoarelor de căutare nu trebuie să parcurgă fiecare pagină de pe un site, întrucât nu toate paginile sunt create pentru a fi afișate în paginile de rezultate (SERP).
Un simplu exemplu ar fi paginile de administrare de pe anumite interfețe sau CMS-uri (Content Management System). WordPress, ca exemplu, prin adăugarea atributului „Disallow” în cadrul fișierului robots.txt, exclude automat secțiunea de autentificare „/wp-admin/” pentru toți crawlerii.
O altă speță se referă la faptul că uneori proprietarii de site-uri nu vor să includă în paginile de rezultate anumite resurse precum fișiere de tip video, imagini sau diverse documente de tip PDF (și nu numai). Indiferent de tipul paginilor sau fișierelor excluse, robots.txt va preveni ca aceste resurse să fie citite și prin urmare indexate.
Cum funcționează fișierul robots.txt?
Rolul acestui fișier este de a transmite motoarelor de căutare ce pagini / URL-uri să parcurgă și – mai important – pe care să le ignore.
Motoarele de căutare activează în două direcții principale, și anume:
- explorarea întregului web pentru a descoperi conținutul publicat pe acesta;
- indexarea și livrarea conținutului către utilizatorii care caută informații.
Pe măsură ce sunt explorate paginile de pe întregul web, roboții motoarelor de căutare descoperă și indexează pagini. Un aspect foarte important este însă faptul că fișierul robots.txt este citit PRIMUL (desigur, dacă există).
În cadrul fișierului se folosește o sintaxă destul de simplă și directă. Sunt setate reguli pentru a identifica un anumit tip de crawler (user-agent – acesta poate fi crawler de la Google, de la un instrument de analiză și monitorizare precum Ahrefs sau Semrush, etc.), iar aceste reguli sunt urmate de instrucțiuni specifice.
Exemplu 1 – disallow (excludere) a mai multor crawleri proveniți din surse diverse:
Exemplu 2 – permiterea accesării pentru orice crawler, cu excepția celor de la Ahrefs:
După cum menționam și anterior, în sintaxa fișierului robots.txt sunt identificați prima dată crawlerii, prin directiva „user-agent”. În exemplele anterioare au fost folosite de asemenea și alte directive, precum „disallow” și „allow” – acestea sunt folosite pentru a permite sau a nu permite parcurgerea paginilor site-ului de către crawleri.
În cadrul fișierului robots.txt mai pot fi folosite și alte directive, precum:
- Sitemap: – această directivă indică pentru crawleri care este locația fișierului sitemap.xml
- Crawl-delay: – această directivă spune crawlerilor să întârzie parcurgerea paginilor site-ului (nu se mai aplică pentru Googlebot, însă a rămas valabilă pentru alți crawleri)
Cum se creează fișierul robots.txt și care sunt cele mai bune practici
Există diverse moduri prin care poate fi creat fișierul robots.txt. Printre acestea se numără crearea automată a acestuia cu ajutorul unui modul specific pentru CMS-ul folosit (Content Management System), însă poate fi generat automat cu ajutorul diverselor tool-uri gratuite disponibile online.
Cea mai comună metodă este însă crearea manuală a acestuia. Va trebui pur și simplu să creați un fișier cu extensia .txt – este indicat să se folosească un editor de text cât mai simplu, întrucât anumite software-uri de editare text salvează fișierele într-un alt format sau includ formatări și caractere speciale care nu sunt tolerate și pot face ca fișierul robots.txt să fie nefuncțional.
După crearea fișierului, vor fi adăugate directivele specifice: ce crawleri pot să acceseze paginile site-ului, care pagini pot fi accesate și care nu, unde poate fi găsit sitemap-ul site-ului și așa mai departe.
Odată finalizată adăugarea directivelor, fișierul va trebui salvat și încărcat în directorul rădăcină al site-ului, pentru a fi disponibil crawlerilor în momentul în care intră pe site pentru a-l citi și indexa.
Ghid de bune practici pentru fișierul robots.txt
Le enumerăm în rândurile următoare:
- se va folosi câte un rând diferit pentru fiecare directivă adăugată în fișier
Exemplu greșit: User-agent: * Disallow: /admin
Exemplu corect: User-agent: *
Disallow: /admin/
- aceeași regulă se va respecta și pentru fiecare user-agent în parte, grupând secțiunile unde este permis/nu este permis să parcurgă site-ul
- dacă se dorește excluderea tuturor fișierelor de un anume tip de la citire și indexare
– se va folosi „*” pentru a grupa toate fișierele cu denumiri diferite și aceeași extensie, iar la final se va adăuga simbolul „$” care marchează finalul denumirii acelui tip de fișier
Exemplu – pentru eliminarea de la citire și indexare a tuturor fișierelor de tip .txt de pe un site, se va folosi directiva:
User-agent: *
Disallow: /*.txt$
- comentarea liniilor din cadrul fișierului robots.txt – se poate realiza prin adăugarea simbolului „#” la începutul fiecărei linii; crawlerii ignoră acele linii care au la început „#”, însă comentarea lor poate fi utilă pentru înțelegerea mai ușoară a sintaxei și a semnificației pentru fiecare linie adăugată în acest fișier