中国站长之家  
首页 | 收录查询 | Alexa排名查询 | 域名查询 | Whois查询 | IP地址查询 | PR查询 | 搜狗评级查询 | 站长工具 | 网站优化 | 天气预报 | 汇率查询
 4当前位置:站长之家 - 网站优化 - SEO优化技术 - SEO服务
网站的Web Robot设计路标
发布时间:2006-12-7 10:23:00    浏览次数:2626
 Internet越来越酷,WWW的知名度如日中天。在Internet上发布公司信息、进行电子商 务已经从时髦演化成时尚。作为一个Web Master,你可能对HTML、Javascript、Java、 ActiveX了如指掌,但你是否知道什么是Web Robot?你是否知道Web Robot和你所设 计的主页有什么关系?

Internet上的流浪汉--- Web Robot


  有时你会莫名其妙地发现你的主页的内容在一个搜索引擎中被索引,即使你从未与他们有过任何联系。其实这正是Web Robot的功劳。Web Robot其实是一些程序,它可以穿越大量Internet网址的超文本结构,递归地检索网络站点所有的内容。这些程序有时被叫“蜘蛛(Spider)”,“网上流浪汉(Web Wanderer)”,“网络蠕虫(web worms)”或Web crawler。一些Internet网上知名的搜索引擎站点(Search Engines)都有专门的Web Robot程序来完成信息的采集,例如Lycos,Webcrawler,Altavista等,以 及中文搜索引擎站点例如北极星,网易,GOYOYO等。


  Web Robot就象一个不速之客,不管你是否在意,它都会忠于自己主人的职责,任劳任怨、不知疲倦地奔波于万维网的空间,当然也会光临你的主页,检索主页内容并生 成它所需要的记录格式。或许有的主页内容你乐于世人皆知,但有的内容你却不愿被洞察、索引。难道你就只能任其“横行”于自己主页空间,能否指挥和控制Web Robot的行踪呢?答案当然是肯定的。只要你阅读了本篇的下文,就可以象一个交通 警察一样,布置下一个个路标,告诉Web Robot应该怎么去检索你的主页,哪些可以 检索,哪些不可以访问。

  其实Web Robot能听懂你的话

  不要以为Web Robot是毫无组织,毫无管束地乱跑。很多Web Robot软件给网络站点的 管理员或网页内容制作者提供了两种方法来限制Web Robot的行踪:

  1、Robots Exclusion Protocol 协议

  网络站点的管理员可以在站点上建立一个专门格式的文件,来指出站点上的哪一部分 可以被robot访问, 这个文件放在站点的根目录下,即http://.../robots.txt.

  2、Robots META tag

  一个网页作者可以使用专门的HTML META tag ,来指出某一个网页是否可以被索 引、分析或链接。

  这些方法适合于大多数的Web Robot,至于是否在软件中实施了这些方法,还依赖于 Robot的开发者,并非可以保证对任何Robot都灵验。如果你迫切需要保护自己内容, 则应考虑采用诸如增加密码等其他保护方法。

  使用Robots Exclusion Protocol协议

  当Robot访问一个 Web 站点时,比如http://www.sti.net.cn/,它先去检查文件http: //www.sti.net.cn/robots.txt。如果这个文件存在,它便会按照这样的记录格式去分析:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

  以确定它是否应该检索站点的文件。这些记录是专门给Web Robot看的,一般的浏览 者大概永远不会看到这个文件,所以千万不要异想天开地在里面加入形似 类的HTML语句或是“How do you do? where are you from?”之类假情假意的问候语。

  在一个站点上只能有一个 "/robots.txt" 文件,而且文件名的每个字母要求全部是小写。在Robot的记录格式中每一个单独的"Disallow" 行表示你不希望Robot访问的URL, 每个URL必须单独占一行,不能出现 "Disallow: /cgi-bin/ /tmp/"这样的病句。同时在一个 记录中不能出现空行,这是因为空行是多个记录分割的标志。

  User-agent行指出的是Robot或其他代理的名称。在User-agent行,’*’ 表示一个特殊的含义---所有的robot。

  下面是几个robot.txt的例子:

  在整个服务器上拒绝所有的robots:

User-agent: *
Disallow: /

允许所有的robots访问整个站点:
User-agent: *
Disallow:
或者产生一个空的 "/robots.txt" 文件。

服务器的部分内容允许所有的robot访问
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

拒绝某一个专门的robot:
User-agent: BadBot
Disallow: /

只允许某一个robot光顾:
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /

最后我们给出 http://www.w3.org/站点上的robots.txt:
# For use by search.w3.org
User-agent: W3Crobot/1
Disallow:
User-agent: *
Disallow: /Member/ # This is restricted to W3C Members only
Disallow: /member/ # This is restricted to W3C Members only
Disallow: /team/ # This is restricted to W3C Team only
Disallow: /TandS/Member # This is restricted to W3C Members only
Disallow: /TandS/Team # This is restricted to W3C Team only
Disallow: /Project
Disallow: /Systems
Disallow: /Web
Disallow: /Team

  使用Robots META tag方式

  Robots META tag 允许HTML网页作者指出某一页是否可以被索引,或是否可以用来查 找更多的链接文件。目前只有部分robot实施了这一功能。

  Robots META tag的格式为:


象其他的META tag一样,它应该放在HTML文件的HEAD区:







...

  Robots META tag指令使用逗号隔开,可以使用的指令包括 [NO]INDEX 和[NO] FOLLOW。INDEX 指令指出一个索引性robot是否可以对本页进行索引;FOLLOW 指 令指出robot是否可以跟踪本页的链接。缺省的情况是INDEX和FOLLOW。例如:






  一个好的Web 站点管理员应该将robot的管理考虑在内,使robot为自己的主页服务, 同时又不损害自己网页的安全。

HTML文档中小meta的大作用

robots.txt和Robots META标签

Robots.txt指南

Robots Meta Tag的使用


上一篇:HTML文档中小META的大作用
下一篇:门页(Door Page)

返回栏目:SEO服务
 
【声明】:
  以上文章或资料除注明为 中国站长之家 自创或编辑整理外,均为各方收集或网友推荐所得。以上内容以共享、参考、研究为目的,不存在任何商业目的。
  未注明作者或出处的文章,并非不尊重作者及出处网站,而是有些资料来源不规范。如果您发现有涉及版权等问题请及时联系我们,本站确认后将立即更正或予以删除。
站长工具
  收录查询
  Alexa排名查询
  PageRank查询
  Sogou Rank查询
  HTTP状态查询
  HTML/JS互转工具
  JS/VBS加密/解密
  Escape加密/解密
  MD5加密
  Unicode编码转换
  中文简繁互转
  汉字转换拼音
  CSS在线编辑器
  查看网页源代码
  HTML颜色代码
  网站优化资讯
  网站历史页面查询
 
实用查询工具
  IP地址查询
  IP WHOIS查询
  天气预报查询
  汇率查询 黄金 白银
  学历查询
  身份证号码查询
  机票价格查询
  酒店预订
  列车时刻表查询
  手机号码归属地查询
  QQ强制聊天
  火星文转换器
  电子成语词典
  邮编区号查询
  车牌查询
  快递查询
  免费在线翻译
  万年历
 
域名注册查询
  域名注册查询
  WHOIS查询
  中文域名转码
  国家或地区域名

  CN域名到期时间列表
  今天CN域名删除列表
  明天CN域名删除列表
  后天CN域名删除列表

  国际域名到期时间列表
  今天国际域名删除列表
  明天国际域名删除列表
  后天国际域名删除列表
Alexa排名统计 收录查询统计 帮助中心 免责声明与隐私 广告服务 联系我们 网站地图 友情链接 用户中心
©2005-2017 - 中国站长之家 - 酷帝网站目录 - 菜鸟汇率网 - Design by Hanren - 沪ICP备05003862号
设为首页 添加收藏 我要统计