Mi a Crawler?
A Crawler olyan algoritmus, aminek az a feladata, hogy bizonyos információkat kinyerjen az oldalakból.
Léteznek például e-mail cím gyűjtő crawlerek, de a SEO eszközök is például crawlerekkel térképezik fel az oldalakat. Ezek a crawlerek jó célra lettek létrehozva és használatuk semmilyen negatív hatással nem jár.
Az általa gyűjtött adatokat a keresőmotorok algoritmusai feldolgozzák, és ezek alapján rangsorolják az egyes weboldalakat.
A crawler egy előre meghatározott címlistából indul el, majd követi az ezeken a webhelyeken fellelhető linkeket. A működése számos paraméterrel szabályozható, amelyek lehetővé teszik például a következőket:
- Milyen mélységig kövesse nyomon a webhelyeken található linkeket?
- Kövessen-e linkeket más weboldalakra, és ha igen, akkor meddig haladjon?
- Milyen típusú fájlokat és milyen méretig mentsen le?
- Hány párhuzamos szálon induljon el?
- Milyen sűrűn menjen vissza ugyanarra a webhelyre?
- A robot txt-ben beállított tiltásokat figyelembe vegye-e?