通行证: 用户 密码 域名空间  下载中心 社区论坛 信息公告 my小屋
联系我们
设为首页
加入收藏

 

qq,asp,php,jsp,xml,sql,.net,编程 程序 网页图象 建站经验 私服
首页 | 新闻资讯 | 编程开发 | 网页设计 | 图形图象 | 网络媒体 | 网站模板 | 数 据 库 | 投稿
论坛 | 操作系统 | 系统优化 | 网络安全 | 黑客技术 | 硬件学堂 | 硬件报价 | 服 务 器 | 地图
专题 | 应用软件 | 聊天通讯 | q q 专栏 | 建站经验 | 在线工具 | 站长club | 注 册 表 | 旧版
社会 | 游戏娱乐 | 设计欣赏 | 疑难解答 | 社区论坛 | 网络赚钱 | 网站地图 | 广告服务 | 服务
当前位置:首页>>站长club>>google>>正文 新版上线![旧版]
注:打开慢时请稍等
搜索引擎原理

http://www.iyit.net  日期:2006-5-8 14:17:44  来源:中国站长站  点击:
参加讨论】搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。

  真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

  现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的url、anchortext、甚至链接周围的文字。所以,有时候,即使某个网页a中并没有某个词比如“恶魔撒旦”,但如果有别的网页b用链接“恶魔撒旦”指向这个网页a,那么用户搜索“恶魔撒旦”时也能找到网页a。而且,如果有越多网页(c、d、e、f……)用名为“恶魔撒旦”的链接指向这个网页a,或者给出这个链接的源网页(b、c、d、e、f……)越优秀,那么网页a在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。

  搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。  

    1. 从互联网上抓取网页
      利用能够从互联网上自动收集网页的spider系统程序,自动访问互联网,并沿着任何网页中的所有url爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

    2. 建立索引数据库
      由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在url、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

    3. 在索引数据库中搜索排序
      当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
      最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

  搜索引擎的spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。

  互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千g甚至几万g。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。

  你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。



编辑:黑鹰 [发送给好友] [打印本页] [关闭窗口] [返回顶部]
上一篇:google搜索秘籍
下一篇:搜索引擎发展史
转载请注明来源:www.iyit.net
特别声明: 本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。

 相关文章
最新更新 热点排行 推荐新闻
如何删除搜索框中的历史记录?
关键词的选择是搜索的最关键
快速学会搜索方法
全面了解google 网页目录
google中文搜索使用说明
行业网站设计心得
网站导航理论与实践
企业域名选择的原则和技巧
在网页编辑常用表现的实现方法
网站设计的思考(6)——首页的设计
网站设计的思考(5)——确定网站的整体
网站设计的思考(4)——确定网站的目录
网站设计的思考(3)——确定网站的栏目
网站设计的思考(2)——定位网站ci形象
网站设计的思考(1)——定位网站主题和
如何删除搜索框中的历史记录?
关键词的选择是搜索的最关键
快速学会搜索方法
全面了解google 网页目录
google中文搜索使用说明
新开放qq免费挂级网站
免费在qq上看在线电影电视听音乐
免费把qq炫铃设为本机qq的系统提示音
qq珊瑚虫外挂4.0版本发布!
腾讯qq调整升级条件不再诱发网民“通宵
优秀公益广告作品欣赏(8)
java数据类型转换
流金岁月!cpu历史上最难忘的十个第一
qq挂机的n种快速方法
asp自动解压rar文件
巧用photoshop图案工具
用photoshop制成浪漫的“珍珠项链”
第二十章 开发delphi对象式数据管理功
sql简明教程(1)
vbscript和javascript互相调用 
jsp教程(四)-jsp actions的使用
操作系统被入侵后的修复过程
五一别忘电脑防毒 养成良好上网习惯
google对ie浏览器将捆绑搜索功能表担忧
新版上线,今日正式开通!!!
 友情链接
设置首 页 - 版权声明 - 广告服务 - 关于我们 - 联系我们 - 友情连接
copyrights © 2004-2006 iyit.net all rights reserved.
网站合作、广告联系qq:147007642、466949678
易特网络技术 点击这里给我发消息