|
W jaki sposób zarządzać dostępem do plików i katalogów za pomocą robots.txt dla wybranych robotów sieciowych ? |
Czasem robimy oprogramowanie, które ze względów bezpieczeństwa chcemy ukryć przed indeksowaniem przez zewnętrzne skanery czyli popularnie zwane roboty sieciowe.
Musimy mieć świadomość, że sposób polegający na pliku robots.txt w głównym katalogu to tylko sposób na "dobre" roboty.
Złe roboty nie biora pod uwagę plików robots.txt i działają wg własnych zasad.
Ale chodzi o to, że pomoże nam to w opanowaniu ruchu tych dobrych robotów po naszej stronie i mozemy dzięki temu np. zapobiec dużemu obciążeniu naszego serwera.
Jak to zrobić?
Wystarczy zastosować plik robots.txt o następującej zawartości:
Opis przykładowego wymienionego powyzej robota o nazwie exabot:
http://www.exalead.com/software/services/knowledgebase/websearchengine/webmasterguide/
Większość dobrych" robotów sieciowych łącznie z googlebotem działa tak samo.