什么是搜索引擎蜘蛛?
发布:厦门SEO | 发布时间: 2008年7月2日网络蜘蛛也称搜索引擎蜘蛛,英文单词是Web Spider,如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛,当网页上存在链接,蜘蛛就会通过这些链接地址寻找网页,一直循环直到你的网站所有页面被抓取完。
搜索引擎要抓取互联网上的所有网页是不大可能的,一方面原因是抓取技术上的瓶颈,另一方面是存储技术和处理技术的问题,所以蜘蛛一般只抓取比较重要的网页,而评价网页重要性主要是依据网页的链接深度。通常网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User -agent,用于标识网络蜘蛛的身份,例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider,Yahoo网络蜘蛛的标识为Inktomi Slurp,在网站上的访问日志记录可以看出哪些搜索引擎的网络蜘蛛来过,及读了多少数据等。
如果希望搜索引擎能全面的抓取自己网站的网页,那么可以建立一个网站地图sitemap,很多网络蜘蛛会把sitemap.htm文件作为一个网站网页爬取的入口,我们可以把网站内部的所有网页链接放在这个文件里面,以供网络蜘蛛方便的把整个网站页面抓取,这样既避免遗漏网页又减小对网站服务器的负担。
我们还可以通过robots.txt来定义哪些目录不让网络蜘蛛访问,例如网站的可执行文件目录不希望被搜索引擎搜索到,那么就可以把这些目录定义为拒绝访问目录。这个文件一般放在网站服务器的根目录下。
发布:厦门SEO | 分类:SEO优化 | 评论:0 | 引用:0 | 浏览:
| TrackBack引用地址
收藏到网摘:
- 相关文章:
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。





