| 域名空间 下载中心 社区论坛 信息公告 my小屋 |
![]() |
联系我们 设为首页 加入收藏 |
|
首页 | 新闻资讯 | 编程开发 | 网页设计 | 图形图象 | 网络媒体 | 网站模板 | 数 据 库 | 投稿 论坛 | 操作系统 | 系统优化 | 网络安全 | 黑客技术 | 硬件学堂 | 硬件报价 | 服 务 器 | 地图 专题 | 应用软件 | 聊天通讯 | q q 专栏 | 建站经验 | 在线工具 | 站长club | 注 册 表 | 旧版 社会 | 游戏娱乐 | 设计欣赏 | 疑难解答 | 社区论坛 | 网络赚钱 | 网站地图 | 广告服务 | 服务 |
| 新版上线![旧版] | |||||
注:打开慢时请稍等
|
我们知道,搜索引擎都有自己的"搜索机器人"(robots),并通过这些robots在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被robots抓取而公开。为了解决这个问题,robots开发界提供了两个办法:一个是robots.txt,另一个是the robots meta标签。 一、 robots.txt 1、 什么是robots.txt? robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。 当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。 robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
2、 robots.txt的语法 "robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以cr,cr/nl, or nl作为结束符),每一条记录的格式如下所示: "<field>:<optionalspace><value><optionalspace>"。 在该文件中可以使用#进行注解,具体使用方法和unix中的惯例一样。该文件中的记录通常以一行或多行user-agent开始,后面加上若干disallow行,详细情况如下: user-agent: 该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条user-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条user-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中, "user-agent:*"这样的记录只能有一条。 disallow : 该项的值用于描述不希望被访问到的一个url,这个url可以是一条完整的路径,也可以是部分的,任何以disallow 开头的url均不会被robot访问到。例如"disallow: /help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"disallow: /help/"则允许robot访问/help.html,而不能访问/help/index.html。 下面是一些robots.txt基本的用法: l 禁止所有搜索引擎访问网站的任何部分: l 允许所有的robot访问 l 禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录) l 禁止某个搜索引擎的访问(下例中的badbot) l 只允许某个搜索引擎的访问(下例中的webcrawler) 3、 常见搜索引擎机器人robots名字 名称 搜索引擎 baiduspider http://www.baidu.com scooter http://www.altavista.com ia_archiver http://www.alexa.com googlebot http://www.google.com fast-webcrawler http://www.alltheweb.com slurp http://www.inktomi.com msnbot http://search.msn.com 下面是一些著名站点的robots.txt: http://www.cnn.com/robots.txthttp://www.google.com/robots.txt http://www.eachnet.com/robots.txt 5、 常见robots.txt错误 l 颠倒了顺序: l 把多个禁止命令放在一行中: l 行前有大量空格 l 404重定向到另外一个页面: l 采用大写。例如 l 语法中只有disallow,没有allow! l 忘记了斜杠/ 下面一个小工具专门检查robots.txt文件的有效性: http://www.searchengineworld.com/cgi-bin/robotcheck.cgi 二、 robots meta标签 1、什么是robots meta标签 robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而robots meta标签则主要是针对一个个具体的页面。和其他的meta标签(如使用的语言、页面的描述、关键词等)一样,robots meta标签也是放在页面的<head></head>中,专门用来告诉搜索引擎robots如何抓取该页的内容。具体的形式类似(见黑体部分): <html> <head> <title>时代营销--网络营销专业门户</title> <meta name="robots" content="index,follow"><meta http-equiv="content-type" content="text/html; charset=gb2312"> <meta name="keywords" content="营销... "> <meta name="description" content="时代营销网是..."> <link rel="stylesheet" href="/public/css.css" type="text/css"> </head> <body> ... </body> </html> 2、robots meta标签的写法: robots meta标签中没有大小写之分,name="robots"表示所有的搜索引擎,可以针对某个具体搜索引擎写为name="baiduspider"。content部分有四个指令选项:index、noindex、follow、nofollow,指令间以","分隔。 index 指令告诉搜索机器人抓取该页面; follow 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去; robots meta标签的缺省值是index和follow,只有inktomi除外,对于它,缺省值是index,nofollow。 这样,一共有四种组合: <meta name="robots" content="index,follow"> <meta name="robots" content="noindex,follow"> <meta name="robots" content="index,nofollow"> <meta name="robots" content="noindex,nofollow"> 其中 <meta name="robots" content="index,follow">可以写成 <meta name="robots" content="all">; <meta name="robots" content="noindex,nofollow">可以写成 <meta name="robots" content="none">需要注意的是:上述的robots.txt和robots meta标签限制搜索引擎机器人(robots)抓取站点内容的办法只是一种规则,需要搜索引擎机器人的配合才行,并不是每个robots都遵守的。 目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于robots meta标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎google就完全支持,而且google还增加了一个指令"archive",可以限制google是否保留网页快照。例如: <meta name="googlebot" content="index,follow,noarchive"> 表示抓取该站点中页面并沿着页面中链接抓取,但是不在goolge上保留该页面的网页快照 编辑:黑鹰 [发送给好友] [打印本页] [关闭窗口] [返回顶部] 上一篇:轻松实现任何程序和动易整合 下一篇:什么是主机托管 转载请注明来源:www.iyit.net 特别声明: 本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。 |
| 相关文章 | ||||
| 友情链接 | ||||||
| 设置首 页 - 版权声明 - 广告服务 - 关于我们 - 联系我们 - 友情连接 |
| |||||||