| 网站建设 下载中心 社区论坛 信息公告 my小屋 |
![]() |
联系我们 设为首页 加入收藏 |
|
首页 | 新闻资讯 | 编程开发 | 网页设计 | 图形图象 | 网络媒体 | 网站模板 | 数 据 库 | 投稿 论坛 | 操作系统 | 系统优化 | 网络安全 | 黑客技术 | 硬件学堂 | 硬件报价 | 服 务 器 | 地图 专题 | 应用软件 | 聊天通讯 | q q 专栏 | 建站经验 | 在线工具 | 站长club | 注 册 表 | 旧版 社会 | 游戏娱乐 | 设计欣赏 | 疑难解答 | 社区论坛 | 韩国素材 | 素材图库 | 广告服务 | 服务 |
| 新版上线![旧版] | |||||
注:打开慢时请稍等
用robots.txt探索google baidu隐藏的秘密http://www.iyit.net 日期:2006-11-21 13:11:02 来源: 点击: |
搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。但是,如果网站的某些信息不想被别人搜索到,可以创建一个纯文本文件robots.txt,放在网站根目录下。这样,搜索机器人会根据这个文件的内容,来确定哪些是允许搜寻的,哪些是不想被看到的。 有趣的是,这种特性往往用来作为参考资料,猜测网站又有什么新动向上马,而不想让别人知道。例如通过分析google的robots.txt变化来预测google将要推出何种服务。 有兴趣的读者可以看一下google的robots.txt文件,注意到前几行就有“disallow: /search”,而结尾新加上了“disallow: /base/s2”。 现在来做个测试,按照规则它所隐藏的地址是http://www.google.com/base/s2,打开之后发现google给出了一个错误提示:“服务器遇到一个暂时性问题不能响应您的请求,请30秒后再试。”
图1 但是把s2最后的数字换成1、3或者别的什么数字的时候,错误提示又是另一个样子:“我们不知道您为什么要访问一个不存在的页面。”
很显然“/base/s2”是一个特殊的页面,鉴于google曾表示过今年的主要焦点是搜索引擎,我们推测一下,所谓的“s2”是否表示“search2”,也就是传说中的第二代搜索引擎?出于好奇,尝试了一下百度的robots.txt,比密密麻麻的google简洁了许多,只有短短几行: user-agent: baiduspider user-agent: * 第一段就不用说了,第二段也遇到了同样打不开的错误,不过,按以前的资料来看,这是百度曾经的竞价排名的区域核心代理一览表以及地区总代理一览表,出于某些可以理解的原因做了模糊处理。
编辑: [发送给好友] [打印本页] [关闭窗口] [返回顶部] 上一篇:猖狂的sxs.exe病毒处理方法 下一篇:没有了 转载请注明来源:www.iyit.net 特别声明: 本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。 |
| 最新更新 | 热点排行 | 推荐新闻 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 设置首 页 - 版权声明 - 广告服务 - 关于我们 - 联系我们 - 友情连接 |
| |||||||