Powrót do listy
Numer produktu: 100spo opis ksiażki: Internet to niewyczerpane źródło informacji. Zwykle jednak znalezienie w gąszczu witryn i danych tego, co jest naprawdę potrzebne, jest zadaniem niezwykle trudnym. Wyszukiwarki internetowe, nawet te najpopularniejsze i najbardziej efektywne w działaniu, nie zawsze są odpowiednim rozwiązaniem. W takich przypadkach trzeba poszukać innego sposobu, a nawet opracować własną metodę przeszukiwania sieci. Książka "100 sposobów na tworzenie robotów sieciowych" może służyć pomocą w wielu takich właśnie przypadkach. Przedstawia sposoby tworzenia i wykorzystywania "pająków" przeszukujących sieć pod kątem określonych zasobów. W książce poruszono następujące zagadnienia: - Uwarunkowania prawne dotyczące korzystania z programów przeszukujących sieć
- Narzędzia do tworzenia robotów oraz wyszukiwania danych
- Sposoby wyszukiwania i pobierania plików multimedialnych
- Przeszukiwanie sieciowych baz danych
- Metody zapisywania zbiorów danych i aktualizowania ich
- Tworzenie zbiorów danych łatwych do przeszukiwania przez innych
W książce przedstawiono techniki tworzenia kompletnych programów przeszukujących sieć (pająków), umożliwiających odnalezienie wszystkich potrzebnych danych. Spis tresci
100 sposobów na tworzenie robotów sieciowych -- spis treści
O Autorach (7)
Wstęp (13)
Rozdział 1. Łagodne wprowadzenie (17)
-
1. Pająki i zbieranie danych: kurs na zderzenie (17)
-
2. Zasady obowiązujące pająka i jego użytkownika (19)
-
3. Anatomia strony HTML (23)
-
4. Rejestrowanie pająka (26)
-
5. Przedstawiamy się (28)
-
6. Ostrożnie z użyciem pająka (30)
-
7. Szukanie wzorców w identyfikatorach (33)
Rozdział 2. Zestaw narzędzi (37)
-
8. Instalowanie modułów Perla (40)
-
9. Po prostu pobieranie za pomocą LWP::Simple (42)
-
10. Bardziej złożone żądania - LWP::UserAgent (44)
-
11. Dodawanie do żądania nagłówków HTTP (45)
-
12. Wysyłanie danych przez LWP (47)
-
13. Uwierzytelnianie, ciasteczka i serwery proxy (49)
-
14. Obsługa względnych i bezwzględnych adresów URL (53)
-
15. Dostęp do zabezpieczonych zasobów i atrybuty przeglądarki (55)
-
16. Ograniczanie zajmowanego pasma (56)
-
17. Poszanowanie dla pliku robots.txt (60)
-
18. Dodawanie w skryptach pasków postępu (61)
-
19. Pobieranie danych za pomocą HTML::TreeBuilder (66)
-
20. Analizowanie kodu za pomocą HTML::TokeParser (69)
-
21. WWW::Mechanize 101 (72)
-
22. Pobieranie danych za pomocą WWW::Mechanize (75)
-
23. Pochwała wyrażeń regularnych (79)
-
24. Template::Extract: bezproblemowe RSS (82)
-
25. Wprowadzenie do XPath (85)
-
26. Pobieranie zasobów za pomocą curl i wget (90)
-
27. wget dla zaawansowanych (91)
-
28. Łączenie poleceń potokami (93)
-
29. Jednoczesne uruchamianie wielu narzędzi (98)
-
30. Użycie Web Scraping Proxy (100)
-
31. Zawczasu unikaj kłopotów (104)
-
32. Liczenie się ze zmiennością witryny (107)
Rozdział 3. Zbieranie plików multimedialnych (109)
-
33. Sprawa dla detektywa: Newgrounds (109)
-
34. Sprawa dla detektywa: iFilm (114)
-
35. Pobieranie filmów z Biblioteki Kongresu USA (117)
-
36. Pobieranie obrazów z Webshots (120)
-
37. Pobieranie komiksów - dailystrips (124)
-
38. Kolekcjonowanie kadrów z kamer sieciowych (126)
-
39. News Wallpaper dla naszej witryny (130)
-
40. Zapisywanie samych załączników wiadomości POP3 (133)
-
41. Pobieranie plików MP3 z listy odtwarzania (139)
-
42. Pobieranie danych z Usenetu za pomocą nget (144)
Rozdział 4. Zbieranie danych z baz danych (147)
-
43. Użycie yahoo2mbox do pobierania wiadomości z grup Yahoo! (147)
-
44. Archiwizacja wiadomości z grup Yahoo! za pomocą WWW::Yahoo::Groups (149)
-
45. Zbieranie Buzz z Yahoo! (153)
-
46. Pająki w katalogu Yahoo! (155)
-
47. Śledzenie nowości Yahoo! (162)
-
48. Szukanie rozproszone w Yahoo! i Google (164)
-
49. Idea mindshare i katalog Yahoo! w Google (168)
-
50. Wyniki z Google bez dzienników sieciowych (172)
-
51. Pająki, Google a wiele domen (174)
-
52. Pobieranie recenzji z Amazon.com (178)
-
53. Pobieranie drogą pocztową nowo dodanych na Amazon.com recenzji (180)
-
54. Pobieranie zaleceń dla klienta Amazon.com (183)
-
55. Publikowanie statystyk Amazon.com Associates (185)
-
56. Sortowanie Amazon.com według ocen klientów (187)
-
57. Alexa i produkty podobne na Amazon.com (190)
-
58. Użycie Javy do pobierania danych z Alexy (194)
-
59. Znajdowanie danych o albumie za pomocą FreeDB i Amazon.com (196)
-
60. Poszerzanie swoich horyzontów muzycznych (203)
-
61. Horoskop na co dzień (207)
-
62. Graficzna prezentacja danych: RRDTOOL (209)
-
63. Zbieranie notowań giełdowych (213)
-
64. Wszystko o autorze (216)
-
65. Bestsellery wydawnictwa O'Reilly a zainteresowanie w bibliotece (230)
-
66. Listy książek z All Consuming (233)
-
67. Śledzenie paczek FedEx (238)
-
68. Szukanie nowych komentarzy w dziennikach sieciowych (240)
-
69. Agregowanie RSS i przesyłanie zmian (244)
-
70. Użycie Link Cosmos na Technorati (251)
-
71. Szukanie powiązanych pakietów RSS (254)
-
72. Automatyczne znajdowanie interesujących nas dzienników sieciowych (264)
-
73. Pobieranie zapowiedzi programu telewizyjnego (267)
-
74. Jaka jest pogoda u Twojego gościa? (271)
-
75. Określanie trendów według lokalizacji (274)
-
76. Znajdowanie najlepszych połączeń kolejowych (279)
-
77. Palcem po mapie (282)
-
78. Angielski słowniczek (287)
-
79. Związki słów w Lexical Freenet (291)
-
80. Zmiana formatowania raportów Bugtraq (294)
-
81. Zakładki w sieci via e-mail (298)
-
82. Publikacja w swojej witrynie zakładki Ulubione (304)
-
83. Analiza cen gier w GameStop.com (311)
-
84. Na zakupy z PHP (313)
-
85. Łączenie wyników z różnych wyszukiwarek (319)
-
86. Robot Karaoke (323)
-
87. Przeszukiwanie Biur na Rzecz Poprawy Jakości Usług (326)
-
88. Szukanie ocen sanitarnych (329)
-
89. Nieprzyzwoitości mówimy nie! (332)
Rozdział 5. W trosce o własny stan posiadania (335)
-
90. Użycie crona do automatyzacji zadań (335)
-
91. Terminowe wykonywanie zadań bez crona (337)
-
92. Tworzenie kopii witryn za pomocą wget i rsync (341)
-
93. Gromadzenie wyników poszukiwań (344)
Rozdział 6. Teraz my dla innych (349)
-
94. Użycie XML::RSS do przekształcania danych (350)
-
95. Umieszczanie w witrynie nagłówków RSS (353)
-
96. Udostępniamy naszą witrynę dla wyrażeń regularnych (356)
-
97. Udostępnianie naszych zasobów dla automatów za pomocą interfejsu REST (362)
-
98. Udostępnianie zasobów przy użyciu XML-RPC (365)
-
99. Tworzenie interfejsu IM (369)
-
100. Co dalej? (372)
Skorowidz (375)
Osoby, które kupowały tą książkę kupiły również:
|