通行证: 用户 密码 网站建设  下载中心 社区论坛 信息公告 MY小屋
联系我们
设为首页
加入收藏

 

QQ,ASP,PHP,JSP,XML,SQL,.Net,编程 程序 网页图象 建站经验 私服
首页 | 新闻资讯 | 编程开发 | 网页设计 | 图形图象 | 网络媒体 | 网站模板 | 数 据 库 | 投稿
论坛 | 操作系统 | 系统优化 | 网络安全 | 黑客技术 | 硬件学堂 | 硬件报价 | 服 务 器 | 地图
专题 | 应用软件 | 聊天通讯 | Q Q 专栏 | 建站经验 | 在线工具 | 站长Club | 注 册 表 | 旧版
社会 | 游戏娱乐 | 设计欣赏 | 疑难解答 | 社区论坛 | 韩国素材 | 素材图库 | 广告服务 | 服务
当前位置:首页>>站长CLUB>>GOOGLE>>正文 新版上线![旧版]
注:打开慢时请稍等

Google工程师详述Google的搜索结果排列算法

http://www.iyit.net  日期:2006-12-18 15:38:47  来源:  点击:
参加讨论

网易科技讯 本文作者马特-卡兹(Matt Cutts)是Google公司品质管理部门的软件工程师。他的工作主要是给好的网站评定等级,并负责开发阻止虚假或垃圾网站出现在Google搜索结果上的技术。

图书馆管理员们提出最多的问题之一是:“对于什么样的结果应该位于搜索列表的最上方,Google是如何选择的?”现在品质工程师马特-卡兹介绍了快速入门的知识,解释了Google是如何在网上爬行和索引,以及如何评定搜索结果等级的。马特也向学校图书馆管理员提出建议,告诉他们如何辅导学生。

爬行和索引

在你浏览包含了Google搜索结果的网页之前,要发生很多事情。首先是在万维网数以十亿计的网页上爬行和索引,这个工作是由Googlebot完成的,它负责与全球的网络服务器连接以收集文件。爬行不是真的在网上漫游,而是访问网络服务器返回到一个特定的网页上,接着扫描该网页建立超链接并为每一个网页编上号码。爬行可收集大量的文件,但这些文件还不能直接用于搜索。

如果没有索引,在你想查询如“civil war”(南北战争)等内容时,Google的服务器将不得不在你每次搜索时阅读每一份文件的内容。因此第二个步骤是要建立一个索引,这样就需要“转换”爬行所获得的数据。为了不必在每一份文件上扫描每一个单词,就需要在数据上做些文章,以便显示包含了特定单词的所有文件。例如,假设单词“civil”在编号为3、8、22、56、68和92的文件上出现过,而单词“war”出现编号为2、8、15、22、68和77的文件上。

一旦建立了索引,就开始对文件进行等级评定并确定它们的相关性。假如某个人上Google搜索并输入“civil war”,为呈现和评价搜索结果需要做两件事:一是查找包含了用户提问的网页;二是按照相关性排定匹配网页的位置。Google已经开发出一个有趣的技术可加速第一步骤的过程:不是将所有索引存储在一台电脑上,而是使用数百台电脑做这种工作。由于任务被分配到很多电脑上,使得查询答案更为迅速。

为更加形象地描述这个过程,可以设想下一本30页厚书的索引。如果一个人在索引中查找数页的信息,那么每一次搜索都至少需要花几秒钟的时间;但如果你将索引的每一页分给不同的人去查找呢?三十个人分别查找索引的不同部分,要比一个人独自查找快的多。同样,Google也是将数据分配到各台电脑上以便可以更快地查找文件。

如何查找包含了用户提问的网页?让我们返回到上面举的“civil war”例子。单词“civil”在编号为3、8、22、56、68和92的文件上,单词“war”在编号为2、8、15、22、68和77的文件上,我们可以在网页上显示文件并寻找包含两个单词的文件(从下表中可以看出是8、22和68号文件)。

单词civil 3 8 22 56 68 92

单词war 2 8 15 22 68 77

两个单词都出现 8 22 68

包含了一个单词的文件列表被称为“文件标识列表”,查找包含两个单词的文件被称为“文件标识列表的交集”。

评定搜索结果

有了包含用户提问的网页后,就该按照相关性评定网页了。Google使用了很多技术,其中PageRank算法是最有名的。PageRank评定的是两种事情:从网站到某一网页有多少个链接,提供链接的网站的排名。使用PageRank,来自CNN和纽约时报网站的链接的价值,是很多不太有名网站的两倍。

除了PageRank外Google还使用了很多其他技术,例如一份文件所包含的“civil”和“war”两个单词靠的很近,就比只使用了“war”单词的包含“Revolutionary War”(独立战争)的文件相关性要大的多。另外在题目中出现了“civil war”的网页,它的相关性就比题目为“19th Century American Clothing”(19世纪的美国服装)要重要的多。同样如果“civil war”在网页上出现了数次,比出现一次的网页要相关的多。

Google的目的是要找到知名度和相关性都大的网页。如果两个网页出现匹配提问的信息数量几乎一样,我们常常会选择更有名网站的链接。但如果其他方面表明一个网页更为相关,也会选择更少链接或更低排名的网页。例如,一个网页全篇都是讲“南北战争”的内容,会比只是略微提到“南北战争”的网页更为有用,即使这个网页是出现不太有名的网站上。一旦我们有了文件的列表和分值,就会选择最高分值、最匹配的文件。

本新闻共2页,当前在第1页  1  2  


编辑: [发送给好友] [打印本页] [关闭窗口] [返回顶部]
上一篇:商业周刊:点击欺诈使Google遭两难境地
下一篇:没有了
转载请注明来源:www.iyit.net
特别声明: 本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。

 相关文章
Google百度所见略同 均欲进中国在线视频 商业周刊:点击欺诈使Google遭两难境地 Google.COM在京瘫痪 疑是服务器不稳定
Google拟投资迅雷估值1亿美金 Google AdSense系列技巧100条 提高Google Adsense点击率的简单方式
Google苹果合作浏览器 防恶意网站 Google排名内部优化攻略 Google数据库
Google优化网站管理员指导方针 Google更新 提高网站在Google中的排名——面向搜索
Hilltop算法- 探索Google排名新算法 Google排名经验谈 如何提高网站在Google的排名?
为什么在Google上搜不到我的网页 ? 快速将你的网站PR值提高到10的方法 什么是Google的沙盒效应?
Google AdSense系列技巧100条  影响Google对网站的信任指数有哪些因素 提高网站的Google PR值的技巧
教你用Photoshop两步制作Google Logo Google工具现漏洞 改变浏览器默认设置 Google秘笈:电影搜索终极教程
最新更新 热点排行 推荐新闻
Google工程师详述Google的搜索结果排列
商业周刊:点击欺诈使Google遭两难境地
Google AdSense系列技巧100条
提高Google Adsense点击率的简单方式
关于SEO中五个最常问的问题
Google工程师详述Google的搜索结果排列
金山毒霸 2007 下载
PHP比ASP优秀的七个理由
PHP模板高级篇总结
PHP模板引擎SMARTY
在PHP世界中选择最合适的模板--比较PH
剖析PHP中的输出缓冲
新版宠物饥饿值和清洁值计算方式
QQ宠物活跃度增长数据揭密
首次用服务器的站长常犯的错误
Google AdSense系列技巧100条
提高Google Adsense点击率的简单方式
商业周刊:点击欺诈使Google遭两难境地
Google工程师详述Google的搜索结果排列
最新永久免费网游年列表,免费3d网游
永久免费网游《刀OL》11月3日开放新服
远程破解盗窃QQ密码的各种方法
windows下如何修改右键菜单
安装IE7.0密技 绕过WGA 完美轻松搞定
msn8.0下载、msn shell、msn8.0中文版
流氓软件清理助手下载
应用readyboost实测闪存是否能提高VIS
ASP 域名查询系统代码
QQ被盗到出售过程详解
Google工程师详述Google的搜索结果排列
Google AdSense系列技巧100条
提高Google Adsense点击率的简单方式
Google优化网站管理员指导方针
Hilltop算法- 探索Google排名新算法
Google工程师详述Google的搜索结果排列
如何禁止flash动画的自动跳转
合理的网页设计具有哪些特征
从基础到精通:CSS实用教程(三)
从基础到精通:CSS实用教程(二)
从基础到精通:CSS实用教程(一)
CSS基础学习:样式表CSS简明教程
CSS样式表:详细介绍IE7新支持的选择器
Photoshop创意壁纸教程
著名的SQL流量注入(SQL注入)攻击法 

设置首 页 - 版权声明 - 广告服务 - 关于我们 - 联系我们 - 友情连接
Copyrights © 2004-2006 iYiT.Net All Rights Reserved.
网站合作、广告联系QQ:147007642、466949678
易特网络技术 点击这里给我发消息