企业博客 网站报价 联系我们 加入收藏
首 页网站建设网站推广 新闻中心 域名注册 虚拟主机 服务中心 关于我们 合作代理 企业博客留言
久飞新闻
公司新闻
行业新闻
搜索引擎介绍
搜索引擎技巧
常见问题
建站学院
网站优化知识
域名注册知识
虚拟主机知识
企业邮箱知识
服务项目
网站建设 网站推广
服务中心 虚拟主机
SEO技术 运营维护
网站建设知识
 

·网站优化应该养成良好的SE

·网站排名百度从首页掉入10

·企业网站改版注意那些事项?

·如何把控好客户提供的参考网

·为何现在网站公司的服务价格

·别让你的公司网站成为一个摆

·网络公司为建站客户提供维护

·客户的配合度直接关系到网站

·为什么网站建好了百度收录后

·企业网站有收录无排名?如何

·合肥SEO关于网站图片的优

·合肥网络公司久飞浅谈企业网

·如何优化网站让关键词排名稳

·合肥网络公司浅谈网站管理后

·营销型网站SEO优化心得和

·网络公司必须了解的SEO细

·合肥网络公司对近期网站百度

·合肥网络公司浅谈新站如何做

·合肥中小企业为何不愿意做营

·企业网站建设优化如何凸显网

·外链新政下的SEO 企业网

·网站内容优化的三种方法 你

·企业在网络营销推广中的七大

·合肥做网站加上网站优化要多

·网站改版更换域名需要注意什

·网站优化如何分析同行竞争对

·企业网站维护包括哪些工作?

·如何利用SEO知识来维护您

·合肥网站优化如何快速提高网

·如何用问答平台推广获取更多

久飞设计理念

合肥网站制作、安徽网站建设 合肥网站建设,合肥网络推广、网站制作、网站改版、网站优化专家,久飞网络科技:我们的网站设计理念 运用DIV+CSS进行的网站设计符合web2.0网页标准,适合搜索引擎搜索;我们结合用户体验,运用网站优化技术,实现您产品的关键词在搜索引擎中排名靠前的效果

 
当前位置:首页 > > 百度和google的“蜘
百度和google的“蜘蛛”比较分析
发布日期:2008-11-12

蜘蛛抓取原理

       网络蜘蛛英文是Web Spider,是一个很好听的名字,把INTERNET比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去

的蜘蛛。网络蜘蛛是通过网页的超链接来寻找网页,从网站某一个页面(通常是首页)开始寻找,读取网站的内容,找到网页

中的其它地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个站点所有的网页都抓取完为止。如果

把整个网络当成一个网站,那么网络蜘蛛就可以用这个道理把互联网上所有的网页都抓取下来。

   对于搜索引擎来说,要抓取互联网上所有的网页是安全不可能的,容量最大的搜索引擎也不过是抓取了整个网页数量的

30%到40%之间。这其中的原因一方面是抓取技术的问题,无法遍历所有的网页。同时,由于数据量太大,在提供搜索时也会

有效率方面的影响。所以,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个

网页的链接深度。

抓取策略

   在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。

   广度优先是是最常用的方式,它是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继

续抓取在此网页中链接的所有网页。这因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。

   深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟

踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。

   由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数,对于网站设计者来说,扁平化的

网站结构设计有助于搜索引擎抓取其更多的网页。

   网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网

站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不

能完全的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页

抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。

网站与网络蜘蛛

   网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。2008年9月29日,一家门户网站——诸暨论坛http://www.zjbbs.net)就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起服务器的不稳定。网站是否就无

法和网络蜘蛛交流呢?其实不是的,有多种方法可以让网站和网络蜘蛛进行交流。一方面让网站管理员了解网络蜘蛛都来自哪

儿,做了些什么,另一方面也告诉网络蜘蛛哪些网页不应该抓取,哪些网页应该更新。

   每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个

请求,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider,Yahoo

网络蜘蛛的标识为Inktomi Slurp。如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什

么时候过来的,以及读了多少数据等等。如果网站管理员发现某个蜘蛛有问题,就通过其标识来和其所有者联系。

网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下。拿诸暨论坛

为例,他的路径就是http://www.zjbbs.net/sitemap.xml。网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或

者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到,那

么网站管理员就可以把这些目录定义为拒绝访问目录。

   现在一般的网站都希望搜索引擎能更全面的抓取自己网站的网页,因为这样可以让更多的访问者能通过搜索引擎找到此网

站。为了让本网站的网页更全面被抓取到,网站管理员可以建立一个网站地图,即Site Map。许多网络蜘蛛会把sitemap.htm

文件作为一个网站网页爬取的入口,网站管理员可以把网站内部所有网页的链接放在这个文件里面,那么网络蜘蛛可以很方便

的把整个网站抓取下来,避免遗漏某些网页,也会减小对网站服务器的负担。

作者:久飞网站建设 上一条: 合肥网络公司对近期网站百度排名下降的原因分析
来源:www.599net.cn 下一条: 改善网站内容可读性的十五个方法
合肥企业建站,合肥域名注册 合肥百度推广,合肥百度优化 PHPCMS,专业门户网站建设 合肥雅虎推广,合肥网站优化 合肥google推广,合肥谷歌优化 站长网,提供网站优化,建站资讯 阿里巴巴管理
久飞介绍 | 久飞新闻 | 客户服务 | 版权声明 | 友情链接 | 联系我们 | 网站建设 | 网站推广 | 网站优化 | 资质荣誉 | 网站地图
谷歌PageRank 版权所有: © 2006-2011 安徽久飞软件科技有限公司™  公司地址:安徽省合肥市滨湖CBD写字楼琼林苑A座16层
联系电话:400-681-0551 客服中心:400-681-0551 售后:0551-62380569 网站建设问题在线咨询! 公司邮箱:jiufei@599net.cn 皖ICP备09029478号

本站关键词:合肥网站建设公司 安徽合肥网站推广 合肥网络推广 合肥网站设计 安徽合肥网络公司 安徽合肥网站建设 合肥网站制作公司 合肥网站优化
安徽久飞软件科技有限公司 合肥网站建设、安徽专业网站设计、合肥网站建设推广合肥SEO网站优化、企业级网站服务、合肥网站制作、专业技术,优质服务,永造佳绩!