通行证: 用户 密码 域名空间  下载中心 社区论坛 信息公告 my小屋
联系我们
设为首页
加入收藏

 

qq,asp,php,jsp,xml,sql,.net,编程 程序 网页图象 建站经验 私服
首页 | 新闻资讯 | 编程开发 | 网页设计 | 图形图象 | 网络媒体 | 网站模板 | 数 据 库 | 投稿
论坛 | 操作系统 | 系统优化 | 网络安全 | 黑客技术 | 硬件学堂 | 硬件报价 | 服 务 器 | 地图
专题 | 应用软件 | 聊天通讯 | q q 专栏 | 建站经验 | 在线工具 | 站长club | 注 册 表 | 旧版
社会 | 游戏娱乐 | 设计欣赏 | 疑难解答 | 社区论坛 | 韩国素材 | 素材图库 | 广告服务 | 服务
当前位置:首页>>网页设计>>html/css>>正文 新版上线![旧版]
注:打开慢时请稍等

robots.txt和robots meta标签

http://www.iyit.net  日期:2006-6-3 20:19:44  来源:  点击:
参加讨论】我们知道,搜索引擎都有自己的“搜索机器人”(robots),并通过这些robots在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被robots抓取而公开。为了解决这个问题,robots开发界提供了两个办法:一个是robots.txt,另一个是the robots meta标签。

  一、 robots.txt

  1、 什么是robots.txt?

  robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

  当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。

  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

  网站 url

  相应的 robots.txt的 url

  http://www.w3.org/

  http://www.w3.org/robots.txt

  http://www.w3.org:80/

  http://www.w3.org:80/robots.txt

  http://www.w3.org:1234/

  http://www.w3.org:1234/robots.txt

  http://w3.org/

  http://w3.org/robots.txt

  2、 robots.txt的语法

  "robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以cr,cr/nl, or nl作为结束符),每一条记录的格式如下所示:

  "<field>:<optionalspace><value><optionalspace>"。

  在该文件中可以使用#进行注解,具体使用方法和unix中的惯例一样。该文件中的记录通常以一行或多行user-agent开始,后面加上若干disallow行,详细情况如下:

  user-agent:

  该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条user-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条user-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中, "user-agent:*"这样的记录只能有一条。

  disallow :

  该项的值用于描述不希望被访问到的一个url,这个url可以是一条完整的路径,也可以是部分的,任何以disallow 开头的url均不会被robot访问到。例如"disallow: /help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"disallow: /help/"则允许robot访问/help.html,而不能访问/help/index.html。

  任何一条disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条disallow记录。如果 "/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。

  下面是一些robots.txt基本的用法:

  l 禁止所有搜索引擎访问网站的任何部分:

  user-agent: *

  disallow: /

  l 允许所有的robot访问

  user-agent: *

  disallow:

  或者也可以建一个空文件 "/robots.txt" file

  l 禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)

  user-agent: *

  disallow: /cgi-bin/

  disallow: /tmp/

  disallow: /private/

  l 禁止某个搜索引擎的访问(下例中的badbot)

  user-agent: badbot

  disallow: /

  l 只允许某个搜索引擎的访问(下例中的webcrawler)

  user-agent: webcrawler

  disallow:

  user-agent: *

  disallow: /

  3、 常见搜索引擎机器人robots名字

  名称 搜索引擎

  baiduspiderhttp://www.baidu.com

  scooterhttp://www.altavista.com

  ia_archiverhttp://www.alexa.com

  googlebothttp://www.google.com

  fast-webcrawlerhttp://www.alltheweb.com

  slurphttp://www.inktomi.com

  msnbothttp://search.msn.com

  4、 robots.txt举例

  下面是一些著名站点的robots.txt:

  http://www.cnn.com/robots.txt

  http://www.google.com/robots.txt

  http://www.ibm.com/robots.txt

本新闻共3页,当前在第1页  1  2  3  


编辑:黑鹰 [发送给好友] [打印本页] [关闭窗口] [返回顶部]
上一篇:10个你未必知道的css技巧
下一篇:网页meta标签的奥妙
转载请注明来源:www.iyit.net
特别声明: 本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。

 相关文章
最新更新 热点排行 推荐新闻
解密.htm.html.shtm.shtml的区别与联系
偷窥html与xml之间的秘密
html网页制作技巧汇编
网页设计中的文字运用
span和div的区别
解密.htm.html.shtm.shtml的区别与联系
偷窥html与xml之间的秘密
html网页制作技巧汇编
网页设计中的文字运用
span和div的区别
提高下载速度的网页制作方法
用css实现皮肤适时切换
css布局入门
网页meta标签的奥妙
robots.txt和robots meta标签
一个优秀的超链接鼠标悬停提示css+js
*.htc 文件的简单介绍
html 初学者指南
跟我学xsl(二)
xhtml第4天:调用样式表
优秀公益广告作品欣赏(8)
qq最新版下载 2006 beta2 体验新感受 
java数据类型转换
windows xp专业版iis连接数的更改
优秀公益广告作品欣赏(7)
office2007简体中文版浮出水面 美图抢
qq密码破解程序
优秀公益广告作品欣赏(6)
优秀公益广告作品欣赏(4)
优秀公益广告作品欣赏(5)
利用css改善网站可访问性
在asp.net中防止注入攻击
用asp.net开发web服务的五则技巧
linux操作系统12则经典应用技巧
浅谈linux优化及安全配置的个人体会
解决局域网不能互相访问之全攻略
win 2000简单的入侵常识
用win 2003架设邮件服务器
硬盘分区消失,解决方法!
传统计算机病毒传播能力破坏性在提高
内存为何有“两面性”
 友情链接
设置首 页 - 版权声明 - 广告服务 - 关于我们 - 联系我们 - 友情连接
copyrights © 2004-2006 iyit.net all rights reserved.
网站合作、广告联系qq:147007642、466949678
易特网络技术 点击这里给我发消息