Nem ragozom sokat, nyilván mindenki tudja, hogy a robots.txt fájl mire is való. Röviden, egyszerűen a célja az lenne, hogy egy weblap gazdája meghatározhassa, hogy a weblapjának mely részéről kívánja kizárni a kereső, gyűjtő és egyéb robotokat. Sok alkalmazás valóban figyelembe is veszi a robots.txt fájlban meghatározott korlátozásokat. Sok igen … csak épp nem mindegyik. Az gondolom senkit nem lep meg, hogy az email cím betakarító robotok nem foglalkoznak ezzel. Azonban sokak számára meglepetés lehet, hogy a legnagyobb cégek robotjai is csak afféle kalóztörvényként tekintenek a robots.txt-re, ami ugye nem is törvény, inkább csak afféle ajánlás…
A robots.txt fájl valódi feladata
Egy kereső, letöltő, gyűjtögető alkalmazásnak figyelembe kell(ene) vennie a robots.txt fájlban meghatározott korlátozásokat. Tehát első lépésként egy adott site gyökérkönyvtárából a robots.txt fájlt kell(ene) lekérnie, majd a további kérések előtt ellenőriznie kell(ene), hogy az adott kérésre vonatkozó tiltás nincs-e a vonatkozó robots.txt-ben. A robotstxt.org-on is elérhető leírás egyértelműen és világosan fogalmaz.
Szép és jó, igaz? Akkor mi a gond mégis?
A gond az, hogy még a legnagyobb cégek is érdekesen értelmezik (át) a fenti ajánlást. A robot lekéri a robots.txt fájlt, amiben egyértelmű tiltás szerepel mondjuk a /netoltsdle.html fájlra.
User-agent: * Disallow: /netoltsdle.html
A robot ezt semmibe véve, szépen letölti a /netoltsdle.html fájlt is, a tartalmát az adott cég keresője indexeli. A keresési eredmények között a /netoltsdle.html lap meg is jelenik, persze csak a címsora látható, alatta egy tájékoztató szöveg, hogy a robots.txt miatt nem jelenik meg az oldal kivonata. Csakhogy a robots.txt nem a találati listában történő megjelenést korlátozná eredendően, hanem a robotok általi elérhetőséget. Zavar ez valakit? Gondolom nem…
Hol lehet ebből gond?
Bárhol, ahol számunkra nemkívánatos tartalom kerülhet a keresők indexébe, ha csak a robots.txt-re támaszkodunk. Csak néhány példát írok.
- Félkész oldalak is bekerülhetnek a keresők találati listáiba.
- Duplikált tartalmakká válhatnak a keresőindexekből csak robots.txt által kitiltott oldalak.
- Olyasmik is a keresők indexeiben landolhatnak, amelyeket csak és kizárólag humán látogatóknak szántunk (pl. adminisztrátori, bejelentkezési, fizetési, értékelési, szavazási oldalak, affiliate linkek, stb.).
Mit tehetünk?
Gyakorlatilag nem sokat, de érdemes szem előtt tartani, hogy a legnagyobbak számára az Internet „kvázi” szabványai is csak ajánlásként kerülnek felhasználásra, egy részüket betartják, egy részüket átértelmezik, más részüket pedig figyelmen kívül hagyják. (Hoppá, ezek hajaznak Mátrixra?) Csak kiegészítésként írom le, hogy több CMS motor is a robots.txt megoldással zárná (!) ki a robotokat, ha a beállításaiban a robotok ideiglenes kizárását választjuk (pl. WordPress).
Érdemes lehet a fentiek fényében újra átgondolni a robotok kezelését az oldalakon, egy régebbi cikkünk is hasznosnak bizonyulhat.
Innentől egy félkész lap esetén se hagyatkozzunk a robots.txt fájlra, ha nem szeretnénk, hogy a keresők találatai között egy félkész lappal találkozzunk!