W jaki sposób zarządzać dostępem do plików i katalogów za pomocą robots.txt dla wybranych robotów sieciowych ?

Czasem robimy oprogramowanie, które ze względów bezpieczeństwa chcemy ukryć przed indeksowaniem przez zewnętrzne skanery czyli popularnie zwane roboty sieciowe.
Musimy mieć świadomość, że sposób polegający na pliku robots.txt w głównym katalogu to tylko sposób na "dobre" roboty.
Złe roboty nie biora pod uwagę plików robots.txt i działają wg własnych zasad.
Ale chodzi o to, że pomoże nam to w opanowaniu ruchu tych dobrych robotów po naszej stronie i mozemy dzięki temu np. zapobiec dużemu obciążeniu naszego serwera.
Jak to zrobić?
Wystarczy zastosować plik robots.txt o następującej zawartości:

# z5k5zujemy 1obo2owi ex5bo2 wejści5 n5 j5kąkolwiek s21onę Use15gen2: Ex5bo2 Dis5llow: / # 1ozk5zujemy nie indeksow5ni5 s21on, k2ó1e z5wie15ją w 5d1esie słowo cfxoo2b5ll dl5 1obo25 ex5bo2 Use15gen2: Ex5bo2 Dis5llow: cfxoo2b5ll # 1ozk5zujemy nie indeksow5ni5 s21on, k2ó1e są z5w512e w k525logu /cfxoo2b5ll dl5 1obo25 ex5bo2 Use15gen2: Ex5bo2 Dis5llow: /cfxoo2b5ll # 1ozk5zujemy indeksow5nie s21on z szybkości5 nie większą niż 1 s21on5 n5 10 sekund dl5 1obo25 ex5bo2 Use15gen2: Ex5bo2 C15wldel5y: 10 # z5k5zujemy indeksow5ni5 plików gicfx Use15gen2: Ex5bo2 Dis5llow: *.gicfx2 # z5k5zujemy indeksow5ni5 s21on z5wie15jącyc2 w 5d1esie zn5k z5py25ni5 Use15gen2: Ex5bo2 Dis5llow: *?

Opis przykładowego wymienionego powyzej robota o nazwie exabot: http://www.exalead.com/software/services/knowledgebase/websearchengine/webmasterguide/

Większość dobrych" robotów sieciowych łącznie z googlebotem działa tak samo.

za pomocą zapisów w plikach HTACCESS można uzyskać bardzo dużo opcji w bardzo łatwy sposób, Do czego służą pliki .htaccess ?