Plik robots.txt służy do informowania robotów co im wolno indeksować, a czego nie na Twojej stronie internetowej. Protokół nazywa się The Robots Exclusion Protocol i każda szanująca się wyszukiwarka akceptuje go.
Posługując się ulubionym przykładem, robot chce odwiedzić stronę http://SonyPlaystation3.pl, jednak zanim to zrobi musi pierwsze sprawdzić http://SonyPlaystation3.pl/robots.txt.
Jeżeli w pliku robots.txt znajdzie taki zapis:
User-agent: *
Disallow:
To oznacza, że każdy robot może indeksować wszystko na tej stronie.
Znak „*" (gwiazdka) w wierszu „User-agent" oznacza „wszystkie roboty", więc każdy robot ma dostęp do wszystkich katalogów z serwera.
Jeżeli w pliku robots.txt znajdzie taki zapis:
User-agent: *
Disallow: /
Gwiazdka („każdy robot") i komenda Disallow (zabroń) z „/" („wszystkie katalogi")= zabroń indeksacji wszystkich katalogów każdemu robotowi. To oznacza, że żaden robot nie może indeksować tej strony.
Wykluczanie wybranych katalogów:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
Katalogi cgi-bin, tmp i junk nie będą indeksowane przez robota.
Zezwalanie na indeksacje tylko konkretnemu robotowi:
User-agent: *
Disallow: /
User-agent: Google
Disallow:
Tylko Google może indeksować Twoją stronę.
Wykluczanie konkretnego robota:
User-agent: *
Disallow:
User-agent: Google
Disallow: /
Tylko Google nie może indeksować tej strony.
Gdzie umieścić plik robots.txt?
Plik robots.txt należy umieścić w głównym folderze strony internetowej, powinien się tam znajdować również plik index.* Po wejściu na swoją stronę http://SonyPlaystation3.pl/robots.txt, powinna Ci się pokazać treść pliku robots.txt.
Używając robots.txt musisz wiedzieć o tym, że roboty mogą ignorować Twój plik robots.txt, szczególnie spamboty, nie będą się przejmować plikiem robots.txt.
Błędy
Do częsty błędów należy używanie gwiazdki (*) w wierszu „Dissallow:",
BŁĄD:
Disallow: *
Osoby pisząc taką komendę, chcą zabronić indeksowania wszystkich folderów. Należy pamiętać, że w tej sytuacji jedynym prawidłowym znakiem po „Dissallaw:" jest znak „/". Gwiazdka dotyczy tylko wiersza z „User-agent:"
Pamiętaj także o wpisywaniu poprawnych nazw robotów (literówki itp.) - nawet jeśli składania pliku będzie bezbłędna, to robot „serch" nie domyśli się, że nazwa „srech" dotyczy właśnie jego.
Odmienne wytyczne dla różnych robotów
Jeśli chcemy wydać różne instrukcje, różnym robotom, po wytycznych dla pierwszego tworzymy pustą linie i wpisujemy kolejny raz „User-agent:", np.:
User-agent: Robot1
Disallow: /
User-agent: *
Disallow: /xyz/
W ten sposób zabraniamy robotowi „Robot1" indeksowania czegokolwiek, natomiast reszta robotów (* - wszystkie) ma dostęp to wszystkich katalogów z wyjątkiem folderu „xyz".
Działania automatyczne
Automatyczne sprawdzanie poprawności składnia pliku robots.txt umożliwia skrypt Robots.txt syntax checker.
Plik robots.txt można także wygenerować automatycznie korzystając z kilku dostępnych w sieci generatorów np.: Robot Control Code Generation Tool.
Na koniec proponujemy skrót najważniejszych elementów składni:
Elementy składni - skrót.
User-agent: po tym wyrażeniu wpisujemy nazwę robota, do którego będą odnosiły dalsze komendy
„*" w linii User-agent = wszystkie roboty
Disallow: / zabrania indeksowania jakiegokolwiek katalogu
Disallow: /xyz/ zabrania indeksowania katalogu „xyz"
Disallow: /xyz/tajemnica.html zabrania indeksowania pliku „tajemnica.html" z folderu „xyz"
Pusta linia - odgradza komendy dla jednego robota i umożliwia napisanie nowych dla kolejnego.
Więcej informacji http://www.robotstxt.org
Google Blokowanie lub usuwanie stron przy użyciu pliku robots.txt http://www.google.com/support/webmasters/bin/answer.py?hl=pl&answer=156449
Podziel się nim z innymi!
Korzystanie z serwisu oznacza akceptację polityki prywatności.copyright: KsiegaPozycjonera.pl. Wszelkie prawa zastrzeżone.