连线杂志:谷歌算法统治互联网的秘诀

发表于:2010-3-01 09:21

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:未知    来源:新浪科技

#
Google

  导语:美国《连线》杂志网站日前发表编辑史蒂文列维 (Steven Levy)的文章,揭开了谷歌搜索算法的神秘面纱。

  以下是文章全文:

  搜索改变生活

  想知道谷歌将如何改变你的生活吗?那么周四去瓦加杜古会议室看一看吧。在加利福尼亚山景城的这个会议室里,几十名工程师、产品经理和高管聚集一堂,讨论如何令谷歌的搜索引擎更加智能。今年,谷歌将对其传说中的搜索引擎算法进行了大约500项改进,而且每一项改进都要通过这样的会议决定。

  每周一次的搜索质量大会,都将可能影响谷歌搜索的结果,例如 三星SF-755p打印机 、 MySpace布局代码 ,甚至是 布基纳法索 首都 这三个搜索关键字,(该国首都恰巧与谷歌此会议室名字相同)。自2006年以来,一直担任谷歌搜索主管的乌迪曼博(Udi Manber)任会议的负责人。会议将一一提出可实施的改进,同时还会讨论数月来在不同国家、不同语言环境中的测试结果。屏幕上分两列显示,更改前后同一查询返回的结果。在讨论(吉他 人声模拟)的查询结果时,曼博叫道:这个我搜过。

  你可能会想,谷歌已经主导搜索引擎市场长达十年之久,应该可以高枕无忧了。毕竟谷歌在搜索引擎市场上的份额高达65%,甚至谷歌一词已经成为搜索的代名词。就像谷歌不愿在桂冠面前止步一样,其竞争对手也不愿轻易认输。多年来,谷歌一直在用其神秘、看起来无所不知的算法来组织世界信息。但最近五年来,很多公司开始对谷歌的一重要观点发起挑战。

  谷歌认为,一个单一的搜索引擎,通过技术创新和不断改进,可以满足任何搜索要求。而Facebook较早对此发起了挑战,认为一些人更愿意通过朋友获得信息,而不是一个没有名字的算法公式。Twitter能对不断更新的消息进行时时分析,这就使实时搜索成为现实挖掘正在进行的讨论或闲谈。

  购物比较网站Yelp通过大众对商家的等级评定,帮助人们寻找饭店、干洗店和保姆等相关信息。虽然这些后起之秀无法单独对谷歌造成威胁,但它们共同预示着搜索行业的一种开放、混沌的未来并不是被一个搜索引擎所主导,而是包含着丰富多样的服务。

  来自必应的挑战

  然而,谷歌最大的威胁是微软的必应(Bing)。必应使人联想到探索、美国传奇歌手Bing Crosby、和《黑道家族》中的Bada Bing夜店,这款重新修整、被赋予新品牌的搜索引擎在去年6月推出时便赢得了乐观的评价。《华尔街日报》称其比谷歌更有吸引力。新的面貌和1亿美元的广告战使微软在美国搜索市场中的份额从8%跃升至11%如果监管部门批准必应成为雅虎的搜索服务商,这一份额将增加一倍以上。

  必应团队一直专注于谷歌算法无法满足的需求。比如,谷歌擅长搜索公共网络,但却无法实时跟踪不断变化的航班时刻表和机票价格。因此微软收购了 Farecast网站,该网站追踪机票价格的变化,并据以预测票价的涨跌。目前,微软已把Farecast的技术应用加入到必应的搜索结果之中。微软在其认为谷歌算法没有优势的领域,例如健康、购物领域,也进行了类似的收购。

  即使必应团队承认,在根据搜索词返回有用信息方面,谷歌还遥遥领先。但他们仍认为,如果必应可以提供一些擅长的领域,用户会逐渐习惯使用必应来进行特定的搜索。微软核心搜索部门副总裁布莱恩麦克唐纳(Brian MacDonald)表示:算法对于搜索引擎来说至关重要,但它并不是一切,就像你买车并非只因为它的引擎。

  谷歌仍是最智能的搜索引擎

  一个有趣的例子mike siwek lawyer mi表明了谷歌相对于必应的优势。

  阿米特辛格(Amit Singhal)是谷歌的首席工程师,40多岁,性格温和,他曾因在2001年重写了谷歌搜索引擎而获得殊荣。他将这些单词输入谷歌搜索框,并敲击了回车键。在极短的时间内,搜索结果便显示出来。最上面的链接指向的网页给出了密歇根州大急流城一位名叫Michael Siwek的律师。

  这是一个很普通的搜索,谷歌每天要处理成千上万的这种搜索。但事实上这一搜索过程十分复杂,可能使一些搜索引擎误解。如果把这些单词输入到必应,第一个结果是美国国家橄榄球联盟的历年球员名单,其中有一个名叫Lawyer Milloy。搜索结果中的下面几页,也没有与律师Siwek相关的内容。

  这一对比显示出谷歌算法的强大,甚至可以说是智能,而这是通过反复的修正实现的。看起来谷歌拥有解读用户需求的神奇力量不论是多么生僻的搜索,或是有拼写错误。谷歌将这种能力称为搜索质量,并且多年来一直竭力完善算法,以产生精确的搜索结果。

  现在我就与辛格一起坐在谷歌的43号办公大楼里,因为谷歌给与了我一个前所未有的机会让我了解他们是如何保证搜索质量的。背后的意涵很明确:你可能认为算法只是一个引擎,但在揭开其神秘面纱之后你才会发现它是多么的无所不能。

  创新的开始:PageRank

  谷歌算法始于PageRank,这是1997年拉里佩奇(Larry Page)在斯坦福大学读研究生时开发的。佩奇的创新性想法是:基于入链接的数量和重要性对网页进行评级,也就是通过网络的集体智慧确定哪些网站最有用。随着谷歌迅速成为互联网上最成功的搜索引擎,佩奇和谷歌的另一名创始人塞吉布林(Sergey Brin)将PageRank这一简单概念看做谷歌的最根本创新。

  但这并不是故事的全部。曼博表示:人们信赖PageRank是因为它是可以进行确认的,但要提供最有用的结果还需要其他技术。这涉及对某些信号、上下文的利用,这样对于任何查询,搜索引擎都能将最有用的结果排在最前面。

  网络搜索是一个多方过程。首先,谷歌机器人获取每个可访问网站的内容。这些数据将被分解成一个索引(通过文字进行组织,就像书本的目录),这样就可以根据内容找到任何页面。每当用户键入一个查询,谷歌就会在索引中搜寻相关页面,然后返回一个包含多达数百万页面的列表。最复杂的是对列表进行排序,也就是决定哪些页面应该出现在最上面。

  此时,上下文便有了用武之地。所有搜索引擎都会引入上下文,但没有一个像谷歌那样引入得那样多、应用那样自如。PageRank本身也是一个信号,同时也是页面的一个属性(指其相对于其他网页的重要性),该属性可以帮助确定其与查询内容的相关性,其中的一些信号在现在看来是显而易见的。

  一直以来,谷歌算法都对页面的标题给与特别的关注,因此标题成为确定相关性的重要信号。另一个重要技术是锚文本,指的是超链接中的可见文本。因此,当你进行搜索时,搜索引擎总能给出正确的页面,即使该页面中没有你找的关键词。这是谷歌早期架构师斯科特哈桑(Scott Hassa)的观点,他曾与佩奇和布林一起在斯坦福工作。之后,搜索引擎关注的信号还包括新鲜度(对于一些查询,新近的页面比较早的页面更有价值)和地理位置(谷歌知道搜索者的大致地理坐标,会将本地信息排在前面)等。谷歌目前使用200多种信号来帮助确定搜索结果的排序。

  谷歌工程师发现,一些最重要的信号可能来自谷歌本身。PageRank将受欢迎程度植入了搜索引擎:成千上万的网站民主地决定将链接指向哪些网站。但辛格表示,谷歌工程师还利用了另一种民主成千上万使用谷歌搜索的用户。用户在搜索过程中产生的数据被证明同样很有价值,这些数据包括他们点击哪些结果、不满意时对关键词的更改、查询关键词与所处地理位置的关系等。这一过程的最直接例子就是谷歌所说的个性化搜索这是一个可选功能,利用用户的搜索历史和地理位置来确定他想要找的内容(使用这项功能需要先登录谷歌账号)。更通常的方法是,谷歌利用其收集的大量数据支持其算法,谷歌对此有极深的理解,可以解读隐秘查询的复杂意图。

31/3123>
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号