• 南方网

  • 南方日报

  • 南方都市报

  • 南方杂志

广州 深圳 珠海 汕头 佛山 韶关 河源 梅州 惠州 汕尾 东莞 中山 江门 阳江 湛江 茂名 肇庆 清远 潮州 揭阳 云浮

沈永刚:PageRank算法的前世今生

2019-04-18 14:47 来源:北国网

  PageRank,简写为PR,中文名“佩奇排名”、“谷歌左侧排名”、“网页排名”,是谷歌公司所使用的对其搜索引擎检索结果中的网页进行排名的一种重要算法。该算法基于“从许多优质的网页链接过来的网页,必定还是优质网页”的回归关系,来判定网页的重要性。

  PR值介于0到10级之间,10级为满分。PR值越高说明该网页越受欢迎或者说越重要。通常而言,PR值为6及以上的网站表明这个网站非常受欢迎或者说极其重要。

  谷歌搜索引擎用PageRank来分析网页的相关性和重要性,在搜索引擎优化中经常被用来作为评估网页优化的成效因素之一。虽然PageRank算法不再是谷歌公司用来给网页进行排名的唯一算法,但它是最早的、也是最著名的算法。

  PageRank本质上是一种以网页之间的超链接数量和质量作为主要因素粗略地分析网页的重要性的算法。其基本假设是:更重要的页面往往更多地被其他页面引用(或称其他页面中会更多地加入通向该页面的超链接)。

  PageRank是一种链接分析算法,它为超链接文档集(例如万维网)的每个元素分配一定数值的权重,以“测量”该文档相对于其他文档的重要性。该算法可以应用于任何实体集合的引用与说明。分配给任何给定元素的数值权重E被称为的PageRank值,记作PR(E)。

  链接分析算法于1976年由时任Computer Horizons, Inc.董事局主席弗朗西斯・纳林以及研究顾问加布里埃尔・平斯基提出。

  1977年,前美国国家工程院院士、匹斯堡大学杰出教授托马斯・萨蒂提出了分析层次过程概念,该概念对替代选择进行了加权。1995年,时任美国布朗大学认知、语言和心理科学系教授的布拉德利·纳伍和史提芬·斯洛曼提出了一种中心性算法的概念型认知模型。1996年,拉里·佩奇和谢尔盖·布林在斯坦福大学开发了PageRank,作为关于新型搜索引擎的研究项目的一部分。

  布林认为网络上的信息可以通过“链接流行度”按层次排序:越重要的网页,页面上的链接质量也越高,同时越容易被其它重要的网页链接。1998年,斯坦福大学计算机科学系教授拉杰夫·莫特瓦尼和特里·威诺格拉德协同佩奇以及布林共同撰写了关于该项目的第一篇论文,该文揭橥了PageRank与Google搜索引擎的雏形与基本原理。不久之后,佩奇和布林创立了谷歌公司——谷歌搜索引擎的从属公司。虽然PageRank只是决定Google搜索结果排名的众多因素之一,但其仍然是Google所有网络搜索工具的基础。

  "PageRank"一词一语双关,指称开发者拉里·佩奇的名称以及网页的概念。该词是谷歌的商标,并获得了美国专利。不过,该专利被隶属于斯坦福,而不是谷歌。谷歌拥有斯坦福大学专利的独家许可权。斯坦福获得了180万股谷歌以换取该专利的使用,2005年,斯坦福以3.36亿美元的价格出售了这些股票。

  PageRank受到引文分析法的影响,该分析法于20世纪50年代由美国情报学家和科学计量学家尤金·加菲尔德早期开发,经由意大利帕多瓦大学教授马西莫·马克奥瑞开发的Hyper Search得到进一步发展。同年,康奈尔大学计算机科学教授乔恩·克莱因伯格发表了关于HITS的论文,PageRank被正式提出。谷歌创始人在他们的原始论文中引用了加菲尔德、马克奥瑞以及克莱因伯格的相关论述。

  IDD信息服务公司的一个名为"RankDex"的小型搜索引擎由百度创始人李彦宏设计,从1996年开始,李彦宏已经在探索类似的网站评分和页面排名策略。1999年,李彦宏在RankDex中获得了该技术的专利,并在2000年他在中国创立百度时使用了它。谷歌创始人拉里·佩奇参考和借鉴了李彦宏的PageRank专利。

  2009年10月14日,谷歌员工苏珊·莫斯科娃确认该公司已将PageRank从其网站管理员工具中移除。她表示:“我们长久以来一直在告诫人们不应该过分注重PageRank;很多网站站长似乎认为PageRank是他们需要时刻关注的最重要的指标,而这几乎是错误的”。然而,两天后,PageRank又在谷歌工具栏上重新显示,但其指示器在谷歌公司自家Chrome浏览器上已不可用。同时,公众可见的PageRank的数据更新周期也越来越长,它的最后一次更新是2013年11月份。

  2013年12月6日,谷歌瑞士员工约翰‧缪勒表示该公司将可能不再更新PageRank;2014年10月,谷歌工程师马特‧卡茨表示“在Google对网站进行排序的算法中,PageRank不是唯一重要的因素”;2014年11月,缪勒在谷歌环聊会议中宣布,该公司已经决定放掉 PageRank;2016年4月15日,谷歌公司停止向公众开放PageRank数据。

  惠州市麦卡希尔科技有限公司创始人兼CEO沈永刚表示,尽管PageRank“带来了网页新秩序”,但其最大缺陷在于忽略了主题的相关性,导致检索结果的相关性和主题性降低。此外,旧页面的排名往往会比新页面高。这就导致其检索结果准确性不高,需要结合多项算法。因此之故,网站不宜过度依赖PageRank,更不宜独尊PR值。

编辑:
回到首页 回到顶部

南方报业传媒集团简介- 网站简介- 广告服务- 招标投标- 物资采购- 联系我们- 法律声明- 友情链接

本网站由南方新闻网版权所有,未经授权禁止复制或建立镜像 广东南方网络信息科技有限公司负责制作维护

违法和不良信息举报电话:020-87373397 18122015029 18122015068

ICP备案号:粤B-20050235