中国站长之家  
首页 | 收录查询 | Alexa排名查询 | 域名查询 | Whois查询 | IP地址查询 | PR查询 | 搜狗评级查询 | 站长工具 | 网站优化 | 天气预报 | 汇率查询
 4当前位置:站长之家 - 网站优化 - SEO优化技术 - 百度(Baidu)优化推广
让百度重新收录的方法(三)
发布时间:2006-12-25 17:25:00    浏览次数:54812
广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。
>
>  由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层, I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。
>
>  网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取(下小节会介绍),但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全**的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。
>
>  网站与网络蜘蛛
>
>  网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。今年4月,淘宝就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务器的不稳定。网站是否就无法和网络蜘蛛交流呢?其实不然,有多种方法可以让网站和网络蜘蛛进行交流。一方面让网站管理员了解网络蜘蛛都来自哪儿,做了些什么,另一方面也告诉网络蜘蛛哪些网页不应该抓取,哪些网页应该更新。
>
>  每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User- agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider, Yahoo网络蜘蛛的标识为Inktomi Slurp。如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以及读了多少数据等等。如果网站管理员发现某个蜘蛛有问题,就通过其标识来和其所有者联系。下面是博客中)2004年5月15日的搜索引擎访问日志:
>
>  网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下。网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单,例如如果对目录没有任何限制,可以用以下两行来描述:
>
>  User-agent: *
>  Disallow:
>
>  当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。
>
>  网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如:表示本网页不需要被抓取,但是网页内的链接需要被跟踪。
>
>  关于Robots.txt的语法和META Tag语法,有兴趣的读者查看文献[4]
>
>  现在一般的网站都希望搜索引擎能更全面的抓取自己网站的网页,因为这样可以让更多的访问者能通过搜索引擎找到此网站。为了让本网站的网页更全面被抓取到,网站管理员可以建立一个网站地图,即Site Map。许多网络蜘蛛会把sitemap.htm文件作为一个网站网页爬取的入口,网站管理员可以把网站内部所有网页的链接放在这个文件里面,那么网络蜘蛛可以很方便的把整个网站抓取下来,避免遗漏某些网页,也会减小对网站服务器的负担。
>
>  内容提取
>
>  搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。
>
>  对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。

上一篇:让百度重新收录的方法(二)
下一篇:百度的38个我预示互联网2.0的崛起

返回栏目:百度(Baidu)优化推广
 
【声明】:
  以上文章或资料除注明为 中国站长之家 自创或编辑整理外,均为各方收集或网友推荐所得。以上内容以共享、参考、研究为目的,不存在任何商业目的。
  未注明作者或出处的文章,并非不尊重作者及出处网站,而是有些资料来源不规范。如果您发现有涉及版权等问题请及时联系我们,本站确认后将立即更正或予以删除。
站长工具
  收录查询
  Alexa排名查询
  PageRank查询
  Sogou Rank查询
  HTTP状态查询
  HTML/JS互转工具
  JS/VBS加密/解密
  Escape加密/解密
  MD5加密
  Unicode编码转换
  中文简繁互转
  汉字转换拼音
  CSS在线编辑器
  查看网页源代码
  HTML颜色代码
  网站优化资讯
  网站历史页面查询
 
实用查询工具
  IP地址查询
  IP WHOIS查询
  天气预报查询
  汇率查询 黄金 白银
  学历查询
  身份证号码查询
  机票价格查询
  酒店预订
  列车时刻表查询
  手机号码归属地查询
  QQ强制聊天
  火星文转换器
  电子成语词典
  邮编区号查询
  车牌查询
  快递查询
  免费在线翻译
  万年历
 
域名注册查询
  域名注册查询
  WHOIS查询
  中文域名转码
  国家或地区域名

  CN域名到期时间列表
  今天CN域名删除列表
  明天CN域名删除列表
  后天CN域名删除列表

  国际域名到期时间列表
  今天国际域名删除列表
  明天国际域名删除列表
  后天国际域名删除列表
Alexa排名统计 收录查询统计 帮助中心 免责声明与隐私 广告服务 联系我们 网站地图 友情链接 用户中心
©2005-2017 - 中国站长之家 - 酷帝网站目录 - 菜鸟汇率网 - Design by Hanren - 沪ICP备05003862号
设为首页 添加收藏 我要统计