星球Google:我们的生活将怎样被一家公司彻底改变-第14章
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
闹鞴###。同样的软件也曾被用在比赛之外。研究人员可以对算法进行微调,将测试文件输进去,马上就可以看到,在翻译质量可测量的改进中,结果是否发生了变化。
谷歌不仅利用双语平行文本建立了一种翻译模式,它还用软件创造了单语种的“语言模式”,对由翻译模式制作的任何译文进行润色,使之更加流畅。“算法”在大量具备专业水准的文献中寻找句型,进而教会自己识别哪些是地道的英语表达方式。恰巧,谷歌已经在它的服务器中使用了一个这种类型的文集——由“谷歌新闻”所检索的报道。即使“谷歌新闻”的用户总是被导向新闻机构的Web网页,但谷歌仍将贮存的新闻副本馈送给它自己的算法。人们偶然发现,这个经专业手法润色的文本宝库——截至2007年4月已经收集了5亿字——是个使用起来极其方便的训练用文集,绝对适合于教会机器流畅地使用英语。。 最好的txt下载网
独步天下的谷歌算法(12)
如果你所从事的是将全世界的信息组织起来的职业,那么,在某个领域学到的东西总会在另一个领域里得到实际应用。如果说谷歌的统计机器翻译项目得益于谷歌旗下其他部门的工作,那么它也以各种方式回报了这些部门的恩惠。研发单一语言的统计技术模型转过来为研发任一语言的发音监测软件提供了便利(这个软件的监测范围包括了哪怕是新近出现的名人姓名的发音),它无需经过人工编辑之手,也无需借助词典,只要给“算法”输入足够分量的公开发表的文章,就绝对可以让它掌握正确的发音。能使它做到这一步的技术保障就是对出现频率的统计分析。
谷歌使用的搜索程序也得到了由研发团队使用的计算部件的极大帮助。由该领域的许多学术研究者使用的一套数据(由语言数据联盟Linguistic Data Consortium提供)有52亿个单词。但谷歌可以处理大得多的集合,如仅仅从它所索引的网页中抽取出来的单词就达到了2×1012个。“我们没有更好的算法,”谷歌的彼得·诺维奇说,“我们只是有更多的数据。”
为了给单句找到最好的译文,谷歌的算法搜索了上百万可能的短语组合。硬盘不适合作为保留数据随时备查的中介,只有随机存取内存(RAM,random access memory)才最合适。随机存取内存存量巨大是非常必要的——谷歌供人随时查考的正是这巨大的存量。统计机器翻译很适合于分布在数千台机器中进行,而谷歌的数据中心(虽然最初是为了其他目的而建)的设备就能承受这种计算上的负荷。
有了可以处理任何规模的计算问题的计算基础设施,谷歌的研究者便拥有了一个可以傲视群雄的巨大优势。他们的程序运行之快,在2005年国家标准和技术研究所举行的机器翻译竞赛中已经得到了体现;在2006年的竞赛中,他们又占据了领先地位。在参加阿-英翻译的22个竞赛者中,谷歌的整体成绩排名第一;在参加汉-英翻译的24个竞赛者中,谷歌名列第二(被南加州大学著名的信息科学研究所险胜)。
Systran的主席兼CEO季米特里斯·沙巴塔卡基斯(Dimitris Sabatakakis)不能理解为何统计机器翻译的结果总是超过他的规则基础技术。2005年竞赛结束后,他替以规则为基础的方法作了些辩护,并建议没有雇用以汉语为母语的人员的谷歌不要再玩弄类似花招。就Systran而言,“如果我们没有中国人,我们的系统就可能出现严重的错误”。他不理解,如果没有母语为汉语的人对译文反复检验,谷歌为何能在2005年把Systran彻底打败。但他没有立即报名再次参加比赛:Systran从2006年的竞赛中消失了。2007年没有举行比赛。所以尚不清楚Systran是否已经决定永远不再与统计机器翻译直接较量。
谷歌没有声称拥有最复杂的翻译算法,但它的确拥有一些其他的机器翻译团队所不具备的东西:体量最大的训练数据。2007年,负责机器翻译研究的工程师弗朗茨·奥奇(Franz Och)说:“在自然程序领域有一种著名的说法,‘更多的数据就是更好的数据’。”为什么谷歌一直使用那些从Web网页中搜集的2×1012词汇量的文本?原因就在于:写作质量无从担保,但绝对海量的额外数据对翻译算法质量的改进却是实实在在的。
独步天下的谷歌算法(13)
谷歌在机器翻译方面的成就还不能被说成是获得了足以养活自己的收益。谷歌在服务领域的拓展中所遇到的最复杂的问题就是,许多拓展项目对公司毫无贡献,至少没有直接贡献。尽管如此,机器翻译仍是一个恰当的项目。谷歌并没有急于将它的机器翻译能力投入商业###应用。它的机器翻译团队还只是谷歌实验室的一部分,而且其主要精力都放在研究上。在实验的基础上,团队在2007年为使用谷歌搜索引擎的用户提供了三种语言——###语、汉语、俄语——的英语翻译服务。
随着谷歌的翻译工作不断取得进展,它的翻译结果也远不止于经过了润色和符合语言习惯。当《华尔街日报》的双语(英语、###语)记者萨马德·阿里(Sarmad Ali)于2007年12月在试用谷歌、Systran和另外两个竞争者的阿-英在线翻译服务时,他为这几家公司的翻译结果中的语法错误和语义错误列了一张表,按照错误的程度排列顺序,从“值得斟酌”到“荒唐可笑”都有。
那一年的早些时候,谷歌的奥奇在一个公开的场合谈及机器翻译的结果时,谈到了谷歌最好的一面:这个组织致力于不断开拓信息传播的广度,看不出它对自己的商业利益的关心。他说,如果听众中有人打算亲手建设一个机器翻译的算法,谷歌很愿意提供帮助。谷歌同非营利###的宾夕法尼亚大学的语言数据联盟(Linguistic Data Consortium)合作,一开始就以运费的名义提供了一套包含必要的基础训练数据的DVD,这套数据列举了各种词语组合——其长度(技术术语表示为precounted n…grams)从1个词到5个词不等——的使用频率,它们的基础就是谷歌的爬行器从Web中搜集来的上万亿个词汇量的英语文献。
统计机器翻译依靠平行文本向“算法”输入信息——奥奇说,至少要输入1亿字左右的平行数据,才能建立一个能够产生理###可以接受的结果的翻译系统。对于平行文本的这种依赖,限制了适用于机器翻译的语言配对的数量。目前,还没有足够的双语文本可赖以创建一个(比如说)直接从希腊语翻译为泰语的系统,所以在这样一个过渡时期,桥梁###语言——如英语——就必不可少。机器翻译最终能否将任何语言的文本直接翻译成任一其他语言?采用基于理解语言学和建立中介###源语言等方法有无必要?这些问题都还没有明确的答案。迄今为止,人们看到的是,似乎只要有了足够大量的数据,不可能的任务也会变为可能。
谷歌程序的速度令人震惊,人们也有理由对它持乐观的期待。它的统计机器翻译所提供的服务从2007年春天的3种源语言增加到了13种,然后是23种,这都是在不到一年的时间内取得的。公司不仅能提供从非英语到英语的翻译,而且能在这23种源语言中的任两个语言之间实现互译。截至2008年5月,这些语言是:###文、保加利亚文、中文(包括简体中文和繁体中文)、克罗地亚文、捷克文、丹麦文、英文、芬兰文、法文、德文、希腊文、印地文、意大利文、韩文、日文、挪威文、波兰文、罗马尼亚文、俄文、西班牙文、瑞典文和葡萄牙文。
机器翻译项目证明了谷歌是如何被“更多的数据是更好的数据”这一信条所驱动的。在信息产业,完全###——无论是就一个信息目录的完整###而言还是就包括的目录的穷尽###而言,都是至为关键的因素,因为数据达到前所未有地多,只会使算法的智能化水平变得前所未有地高,这反过来又巩固了谷歌的领先地位,把对手更远地甩在身后。
谷歌以免费电话为基础的信息服务,1…800…GOOG…411就是一个很好的例证。这项服务运用声音识别软件来提供本地企业的电话号码咨询。这项服务不收费,也不夹带广告。谷歌的玛丽莎·梅耶尔在2007年10月的一次谈话中承认,她也怀疑谷歌是不是会变成一个公益###机构。但她并不担心,因为谷歌是利用这项服务搜集音素,而不是赚取利润。她说:“我们必须建成一个可用于各种不同事物(包括视频搜索在内)的更大的从话语到文本的模型。”谷歌的话语识别专家曾对她说:“如果你们###们去建立一个真正强有力的话语模型,我们就需要很多的音素……人们怎样交谈、怎样说事儿。有了这些,我们最终就可以训练软件来掌握并应用它们。”还是那句话:“更多的数据是更好的数据。”
谷歌知道,算法的结果不是没有瑕疵,但公司将算法的缺陷视为数据量不够大而导致的局限,是其内部工作有待完善而出现的微调,绝不会将它当作自动化程序固有的问题。公司已经决定向算法输入更多的信息,这些信息必须以前所未有的力量进一步搜索才能得到。它已经可以充满自信地宣布,已经拥有了所能找到的一切图书,拥有了它的用户可能点击的一切视频,拥有了能够覆盖天空和大地的各类地图。
在这些额外添加到谷歌信息库的东西中,有一些对它可能显得无关紧要,因为它的核心兴趣是网络搜索及相关广告;有些可能会被证明属于浪费###的实验,有些可能会被证明为广受欢迎却最终无法得到回报的服务。它们或许会——或许不会——反过来对谷歌的前途产生重大影响。每一项都有自己的故事,但主题却是共同的:谷歌对新的信息种类的热切追求没有减退也没有动摇;即使在它的公众形象被它的行动所引起的争论所损害的时候,也一如既往。
当每一个展开的故事都受到仔细检查时,谷歌这块巨石的光滑表面就会消退,随时调整决定的更加复杂的面目就会浮现。私人公司和小型团队在起步阶段最为重视的企业文化就可以从这些故事中解读出来。但这也有一个未经调查的信任度,即谷歌的利益与其客户的利益是完全一致的。在谷歌看来,每个新的服务项目都是人类的一个进步。有一天,当实验过程全部结束,它们便可以被视为谷歌“组织起全世界的信息”这一使命的精彩实现,被视为有远见的幻想;但也可能完全相反,同样的故事在某一天被读作浪费资源的纪录,被读作刚愎自用的铁证。
“登月”计划(1)
然而,网页的出现仅仅是个开始。就在谷歌刚满三岁的2001年,在洛杉矶举行的一次业界###上,其创始人拉里·佩奇和谢尔盖·布林进行了一场公开的演讲。两位创始人在这次讲话中解释说,尽管Google索引看起来足够庞大,其网页数量甚至达到了13亿之多,但除了网页自身附带的小部分信息外,这些数量惊人的网页并没有提供更多有价值的信息。佩奇说:“目前,人们仍旧只能存取互联网上业已存在的资料和信息。人们无法对图书馆里收藏的书籍资料进行存取,无法对杂志内容进行存取,无法对报纸内容进行存取,即使是过期的报纸也做不到。同样地,人们对于已经播放的电视节目也无法存取。但是这一切都将被改变。”
早在佩奇还是斯坦福大学的一名研究生时,他就参与过作为该大学数字化图书馆项目一部分的某些实验项目,而将传统的纸质媒体数字化的设想也正是开始于那段科研经历。但是直到2001年,谷歌对于是否应该做点什么具体工作来加速传统媒体的数字化仍旧没有明确的表态。图书馆、出版社以及电视台这类机构似乎有能力完成数字化的日常零碎工作并且能够将文件服务器上向公众开放的信息进行整理,而谷歌的“爬行器”则像它之前将大量网页进行编录索引那样,负责将这些传统传媒机构整理出来的信息编入索引。
然而,一年后的2002年,佩奇和布林以及他们的团队决定不再犹豫,要凭借自己的力量开始对最完整记录人类对世界的理解的信息类型——纸质书籍进行数字化的可行###进行审查。众所周知,Google算法在网页之间的优选认定上比较擅长,但是它不能够将网页上出现的最有价值信息像传统的纸质书籍那样向其用户提供高质量的选择建议。
很显然,与谷歌工程师熟悉的将网页编入索引和对网页进行排名运算的工作不同,书籍数字化绝对是一个全新的挑战###课题。将书本中的文字转换成由0和1组成字节的数字模式所需要的不