登录

《技术评论》选出2013年10大突破性技术

2013-07-15 16:38 来源:中国自动化学会专家咨询工作委员会

    请读者朋友们先静下心来想想,你能想到的最沮丧、最棘手或者简单说来最烦恼的问题是什么?接下来,你再想想什么技术可以解决这些问题。为此,美国麻省理工学院(MIT)的《技术评论》杂志为读者朋友们遴选出了2013年的10大突破性技术,这些技术为解决问题而生,将会极大地扩展人类的潜能,也最有可能改变世界的面貌。

    《技术评论》杂志的编辑在文章中指出,今年,我们首次用“突破性技术”来代替以往的“新兴技术”。我们对突破性技术的定义非常简单:能让人们以新方式使用技术的进展。它或许是一种为人们提供有用接口的直观设计(比如智能手表);或者是使脑损伤患者能重新形成记忆的实验设备(比如记忆植入物)。有些技术可能对经济持续稳定的发展至关重要(比如3D打印技术和超级电网);而另外一些技术则可能会改变我们的沟通方式(比如临时社交媒体)或者与我们的未来密切相关(比如产前DNA测序)。有些技术是工程师们天才创意的结晶;而有些技术则是科学家们对长期困扰他们的问题所采取的诸多尝试的集大成者(比如深度学习和超高效太阳能电池)。总而言之,我们希望这份年度技术榜单不仅能告诉人们需要知道这些技术;也借此对提出这些创意的人致以崇高敬意。

    这些突破性技术中,深度学习位居榜首,其余九个分别是:超级电网、记忆植入物、蓝领机器人、智能手表、产前DNA测序、3D打印技术、临时社交媒体、来自廉价手机的庞大数据和超高效太阳能电池,我们希望这些技术能为我们绘制出一幅比较全面的科技发展现状图。

    (一)深度学习:让机器学会思考和做决定

    现在的机器拥有超强的计算能力,能识别对象并实时翻译讲话。人工智能终将变得越来越聪明。

    重要性:如果计算机能够可靠地识别模式并对外部世界的发展趋势给出正确推论,那么,它可以更有效地帮助人类。

    突破:这种人工智能方法可以放之四海而皆准,广泛应用于多个领域。

    重要参与者:谷歌公司、微软公司、IBM公司、加拿大多伦多大学的杰弗里•辛顿教授。

    美国发明家、预言家雷•库兹韦尔曾发明了盲人阅读机、音乐合成器和语音识别系统。2012年7月,库兹韦尔拜访了谷歌公司的首席执行官拉里•佩奇,但他的目的并非为了找工作。库兹韦尔是一名受人尊敬的发明家,也在变成研究机器智能的未来学家。他想与已经看过他即将出版的《如何创建思维》这本书手稿的佩奇讨论此书,他对佩奇表示,他想创办一家公司来实现自己的想法——建造一台真正的智能计算机:能够理解语言,接着进行推论然后自己做出决定。

    很显然,这样一种尝试需要谷歌公司海量的数据库和无与伦比的计算能力。佩奇对库兹韦尔说:“我可以给你一些权限,让你使用我们公司的数据库和计算机,但是,靠一家公司单打独斗,很难做成这件事。”因此,佩奇建议除了自己开公司,从没有在其他公司工作过的库兹韦尔加入谷歌。库兹韦尔很快做出了决定:今年2月,他正式入职谷歌,成为该公司的工程部主管。库兹韦尔说:“50多年来,我专注研究人工智能就是为了这一刻。”

    吸引库兹韦尔的不仅包括谷歌公司的计算资源,而且,也包括该公司在人工智能的新领域——深度学习方面所取得的令人惊叹的进步。深度学习软件试图模拟大脑新皮质内神经元的活动,新皮质是哺乳动物大脑皮质的一部分,在脑半球顶层,大约2到4毫米厚,分为6层,占据大脑80%的这些皱褶正是人类思想的发源地。深度学习软件能非常真切地学会识别用数字形式表示的声音、图像和其他数据的不同模式。

    几十年前,就有科学家提出了深度学习的基本思路:软件能用人造“神经网络”来模拟大脑新皮质中的神经元阵列,几十年来,研究这一领域的科学家们可谓喜忧掺半。但是,得益于数学公式的改进和计算能力的提升,计算机科学家现在能为更多虚拟神经元建立模型。

    随着科学家们的研究不断深入,现在,这些软件在语音和图像识别方面取得了可喜的进步。去年6月,谷歌研发的一套深度学习系统证明,其在YouTube视频的1000万张图像中识别出诸如猫等物体的准确度为此前任何一个图像识别系统的两倍。谷歌还利用该技术,降低了其最新研发的安卓(Android)手机软件的语音识别的错误率。去年10月,微软首席研究官里克•拉希德在中国演讲期间,向与会来宾演示了一款令人惊叹不已的语音软件。该软件可将拉希德的口头发言转录成英文文本,错误率仅为7%,之后,再将英文文本翻译成汉语文本,然后模仿他的口音用普通话说出那些文本。同样在去年10月份,一个由三名研究生和两位教授组成的团队赢得了化学与制药公司默克公司举办的一场竞赛,竞赛的主旨是鉴别出可导致新药的分子,该团队正是采用深度学习的方法,将目标对准那些最有可能与靶标绑定的分子,从而取得了成功。

    谷歌目前已经成为一块极富吸引力的磁铁,吸引着全球研究深度学习和相关的人工智能领域专家纷至沓来。2013年3月,谷歌收购了由加拿大多伦多大学计算机科学教授杰弗里•希顿创立的深度学习企业DNNresearch,希顿也曾获得过默克大奖。希顿目前将自己的时间一分为二:一半给大学;一半给谷歌。辛顿表示,他计划“将这一领域的理念提取出来,用来解决实际问题——诸如图像识别、搜索、自然语言理解等方面的问题”。

    上述研究进展时刻在提醒人工智能研究领域的专家们:科幻小说和电影中出现的机器终将出现在现实生活中。的确,机器智能已渗透到各行各业并在逐步改变这些行业的面貌,从通讯、计算到医疗、制造以及运输等,不一而足。IBM研究的超级计算机Watson在美国著名的智力比赛中获胜让这一切得以彰显。Watson也使用了一些深度学习技术,而且,科学家们现在也在训练它帮助医生做决定。微软也在手机操作系统Windows Phone和Bing语音搜索中用到了深度学习技术。

    然而,要想将深度学习技术从语音和图像识别领域扩展到其他应用领域则需要科学家们在概念和软件上做出更大突破,而且还需要计算能力的进一步增强。或许,在几年内,我们不会看到计算机能自己思考,但几十年内或许可以。微软美国研究院的院长皮特•李说,深度学习已经引发了人工智能领域很多新的大挑战。

    建造大脑

    当然,有挑战就会有人想解决办法,一直有一些富有竞争力的方法来应对这些挑战。现在,人们已经可以将现实世界的信息和规则“喂给”计算机,为了做到这一点,需要程序员们不辞辛劳地编写这方面的软件。这会耗费大量人力物力,但是,系统仍然无法处理模糊数据,这些程序的使用范围仅限于一些受控的应用领域,诸如手机的菜单系统等,该系统要求你通过说出特定的词语来提要求。

    人工智能领域出现后不久,神经网络也于上世纪50年代开始兴起。神经网络似乎很有前景,因为它们试图模拟大脑的工作方式,尽管采用的是一种非常简化的形式。程序能标示出一套虚拟的神经元然后随机给它们分配数值或者“权值”,以让它们之间相互关联。这些“权值”决定了每个模拟的神经元的反应——用数值输出0和1来表示,通过这种方式可以对图像中的边框或者蓝色阴影、话语中的一个音素的某个能级等特征进行数字化表达。

    程序员需要训练神经网络通过用含有这些物体的图像或含有这些因素的声波的数字化后的版本来探测一个物体或者音素。如果该网络无法精确地识别某个特定的模式,将会有一个算法来调整这些权值。这种训练的最终目的是让网络能够持续一致地识别出语音或者图像中的这种模式,也就是说,识别出每句语音中的音素“d”或者每幅图像中的狗,这同小孩子通过观察人们称作狗的动物的头型、行为以及毛皮、吠声等等来认识狗如出一辙。

    但是,早期的神经网络一次能模拟的神经元的数量有限,因此,它们无法识别出复杂程度很高的模式,这种情况一直持续到上世纪70年代。

    在上世纪80年代中期,辛顿和其他人使用所谓的“深度”模型,引发了神经网络研究的新一轮复兴,深度模型能更好地利用软件模拟多层神经网络。但是,这一技术仍然需要大量的人力投入:程序员们不得不在将数据填入神经元网络前给每个数据贴上标签。而且,复杂的语音或者图像识别所要求的计算能力彼时也让人望尘莫及。

    在过去十年里,辛顿和其他研究人员才终于做出了一些根本性的概念上突破。2006年,辛顿研发出了一种更有效地训练单层神经元的方法。即第一层网络学习一些基本的特征,诸如图像的边缘或者声音的最小单元等。它通过发现那些出现频率反常高的数字化后的像素或者声波组合来做到这一点。一旦第一层精确地识别出这些特征,那么,它将被“喂给”第二层,以便第二层训练自己识别更复杂的特征,诸如边角或者声音单位的组合等等。这一过程在多层之间不断重复,直到该系统能够可靠地识别出音素或者对象为止。

    就像上面提到的图像中的猫。去年6月,谷歌演示了迄今最大的神经网络,其拥有超过10亿个节点。美国斯坦福大学的计算机科学教授安德鲁•恩格和谷歌的科学家杰夫•迪恩让系统从1000万个随机选择的YouTube视频上挑出了猫的图像。在该软件模型中,一个模拟的神经元主要注意猫的图像。其他神经元则专注于人脸、黄色的花朵以及其他物体的图像。因为深层学习拥有的强大功能,尽管此前并没有人给这些图像贴上标签,该系统还是识别出了这些互不相干的对象。

    然而,让某些人工智能专家深感震惊的是深度学习在图像识别领域所取得的惊人成就。该系统可以给YouTube视频中的对象分类,并添加主题,准确率达16%,尽管听起来并不是很高,但与以前的方法相比,准确率提高了70%。迪恩强调称,要知道,YouTube视频中的对象总共有2.2万个类别,大部分人都无法做到这一点。当该系统被要求将图像分成1000多个常见类别时,准确率一下子飙升到50%。

    大数据

    在实验中训练多层虚拟神经元占用了谷歌公司的1.6万台计算机处理器,谷歌公司研发这些计算基础设施的目的是用于搜索引擎和其他服务。机器学习新兴公司Vicarious的联合创始人迪利普•乔治称,人工智能领域最近取得的进步80%要归功于计算能力的增强。

    然而,谷歌庞大的数据中心深度学习飞速发展只是这枚硬币的一面,谷歌的操作策略则是这枚硬币的另一面,这些操作策略就是,将计算任务分开,让不同的计算机执行不同的操作以便很快完成这些任务。这是迪恩早期的研究成果,迪恩已在谷歌工作了14年。这一策略让深度学习神经网络的训练速度大大提高,使谷歌能够运行更大的网络并朝这些网络填入更多数据。

    而且,深度学习也提高了智能手机上声音搜索软件的性能。直到去年,谷歌的安卓(Android)手机软件使用的方法还会弄错很多单词的意思。但是,在准备于去年7月发布新安卓系统的过程中,迪恩领导的研究团队用基于深度学习的系统取代了部分语音系统。因为多层神经元能对一个声音的多种变形进行更精确的训练,所以,该系统能更可靠地对各种支离破碎的声音进行识别,尤其是在地铁等嘈杂环境中的声音。因为新系统能够更好地理解话语所表达的真实意义,因此,返回的结果可能也会更加精确。几乎一夜之间,错误率下降到了25%,结果好得出乎人意料之外,有些评论家现在甚至认为安卓的语音搜索功能比苹果手机最著名的Siri语音助手还要更智能。

    尽管上述诸多进展令人欢欣鼓舞,但是,并非每个人都认为深度学习会助推人工智能超越人脑。有些批评家表示,深度学习和人工智能从根本上忽略了大脑生物学的很多方面,太过于注重计算能力。

    其中一个批评来自手提微型电脑Treo的发明者、PalmComputing公司的创办人杰夫•霍金斯,2004年,霍金斯就出版了《人工智能的未来》一书,主要讨论大脑如何工作以及如何为建造智能机器提供引导。

    霍金斯上一个风险投资是Numenta公司,这是一个令人兴奋的新公司,它试图建立像人脑一样的计算机,该公司正在研发一种机器学习系统,其在生物学上受到了深度学习理论的启发,但并不使用深度学习。Numenta的系统能够帮助预测能源消耗模式以及诸如风车等机器失败的可能性。

    霍金斯表示,深度学习无法解释时间的概念。他说,大脑会处理传感数据流,而且,人类的学习依靠回忆模式序列:当你观察到一只猫在做某些有意思事情的视频,有意义的是运动本身,而非谷歌在实验中使用到的一系列静止图像。霍金斯说:“谷歌的态度是,数据弥补了一切。”

    不过,即使数据不能弥补一切,诸如谷歌等公司用来解决这些问题的计算资源也不会被弃置。深度学习的支持者们强调说,这些数据非常关键,因为大脑本身比今天的任何一个神经网络都要复杂得多。他们表示:“人类需要很多计算资源来使思想更好地工作。”

    敢问未来之路在何方?

    尽管谷歌对深度学习的未来应用并不那么确定,但是,其前景确实慢慢在发酵。显然,更好的图像搜索能够帮助YouTube。而且,迪恩表示,深度学习模型能使用语音数据来更快地训练系统识别其他语音数据。更复杂的图像识别技术有望使谷歌的自行驾驶汽车表现更好。而且,深度学习和人工智能软件也将帮助谷歌和其广告客户更好地了解人们的想法与需求,从而对广告营销产生重大影响。

    上述美好畅想正是吸引库兹韦尔的魅力所在,65岁的库兹韦尔多年来一直潜心研究智能机器。在高中阶段,他就编写软件使计算机能够制造出不同形式的音乐,并于1965年在电视秀节目《我有一个秘密》中进行了演示。从那时起,他的发明囊括了多个第一:第一台盲人阅读器;第一个可以对要打印的任何字体的文本进行扫描并数字化的软件;第一个能再造交响乐器的声音的音乐合成器;第一个具备大型词典的对话识别系统。

    他现在的设想是,未来,人们的手机通讯录中会有一个“网络朋友”,可以在用户允许的情况下阅读电子邮件、追踪用户的一举一动,因此,当你有任何问题时,他都会告诉你答案。这并非他在谷歌的直接目的,但是,这一目的与谷歌联合创始人谢尔盖•布林的目标相吻合。在公司成立之初,布林就表示,他想建造《2001太空漫游》中人工智能电脑HAL9000(HAL9000作为太空船的总控制电脑,既具有电脑对任务的绝对服从及精确性,又具有人类思维甚至感情,它在太空旅行中设计害死了除戴维之外的所有宇航员,最后戴维让其停止运行)那样的智能机器,唯一不同的是,他制造出来的机器不会杀人。

    库兹韦尔目前的目标是帮助计算机理解甚至表达自然语言。他说:“我的使命是让计算机对自然语言有足够的理解力,然后来做有用的事情——更好地进行搜索、更好地回答问题。”最终,他希望制造出比IBM公司的Watson更好的机器——尽管他很欣赏Watson表现出的理解能力和快速反应能力。

    库兹韦尔并不仅仅专注于深度学习,尽管他承认他的语音识别方法也同样基于大脑如何工作的理论。他想给单词、词组以及句子的本来意义建模,包括容易让计算机犯错的模糊意义。他说:“我想寻找一种图画式的方式来表达语言的语义。”

    这就需要一种更综合的方式来用图表表示句子的句法。谷歌也在使用这种分析方法改进翻译中的语法。更好地理解自然语言将需要计算机能够掌握我们人类认为是常识的意思。为此,库兹韦尔将会用到谷歌的知识图谱——谷歌对大约7亿个主题、方位、人等进行的分类以及它们之间的几十亿个关系。知识图谱去年投入使用,会给搜索者提供问题的答案而非只有链接。

    最终,库兹韦尔计划用深度学习算法来帮助计算机处理“语言中的软边界和模糊内容”。这听起来令人有点望而却步,实际情况也的确如此。他说:“理解自然语言并非像搜索那样,是一个在某个时刻就可以完成的任务,它是一个永远也无法完成的计划。”

    尽管库兹韦尔的设想可能需要多年才能变成现实,在可见的未来,深度学习可以在语音和图像识别之外的其他领域找到用武之地。首先,在药物发现方面——辛顿的团队在默克大赛中取得大奖就证明了这一点。

    情况还不止于此,微软公司的皮特•李说,深度学习可以应用于机器视觉方面,机器视觉就是用机器代替人眼来做测量和判断,这一技术可以将成像应用于工业检测和机器人视觉引导等方面。他也预想私人传感器的出现——深度神经网络能够用来预测可能会出现的医疗问题。而且,贯穿整个城市的传感器提供的数据可能会让深度学习系统预测什么地方可能会出现交通拥堵。

    在一个企图为人脑建模这样富有深远影响力的领域,一项技术并不能解决所有问题,这一点难以避免。但现在,深度学习正在引领人工智能的发展方向,迪恩说:“对于我们理解世界来说,深度学习真的是一个非常强大的工具。”

    (二)超级电网:出了问题也不怕

    瑞士ABB集团新研发的断路器可以实现长距离的直流电输出构想,且适用于现有地区及国家的电网中,可以在5毫秒内切断相当于整个核电厂输出功率的巨大电流,速度之快相当于蜜蜂振翅一次;电流之大相当于100万欧洲人的用电。这种大功率的断路器有望使直流电网变得更实用。

    重要性:直流电网可能会因此变得更高效,而且,也能广泛地同风力发电厂和太阳能发电站连接到一起。

    突破:第一台实用的混合式高压直流断路器。断路器指能够关合、承载和开断正常回路条件下的电流,并能关合、在规定的时间内承载和开断异常回路条件(包括短路条件)下电流的开关装置。

    重要参与者:瑞士ABB集团、德国西门子公司、美国电力研究院(EPRI)、美国通用原子公司。

    高压的直流电输电线能够有效地在几千公里内以及水下长距离传输电力,其性能远胜目前在输电网中广泛使用的交流线。但是100多年以来,交流电线一直占据主流,因为高压的直流电只能用于点对点传输,而无法形成稳定的电力系统所需要的集成电网。

    去年12月,瑞士的ABB公司正式宣布,他们在高压直流断路器研发领域获得突破性进展,他们研发出了一种实用的高压直流电断路器,能将出现问题的部分电网切断,从而保证电网的其他部分正常工作。这一创新进展解决了直流电网所面临的主要技术障碍,为打造高效可靠的直流电力供应系统翻开了新的篇章。

    清洁能源如太阳能、水力发电等,不是位于偏远的高山、沙漠,就是自家屋顶。遗憾的是,既有的交流电系统无法妥善解决远距离传输的电力损失,而直流输电技术是最佳解决之道。高压直流输电技术可实现水力电厂的远距电力传输、离岸风电与太阳能并网及不同地区之间点对点的互相连接。

    如此一来,来自于撒哈拉沙漠的太阳能就可以为多云的德国提供电力;来自于欧洲各地的风能也可以在夜间点亮电灯,从而照亮城市的夜空。结果,将会有更多可靠的可再生能源,同仇敌忾地与化石能源竞争,改变目前各种可再生能源单枪匹马同化石能源作战的现状。

    除了持续发展混合式直流断路器之外,ABB同时也建立了高压直流电网模拟中心,为未来电网系统进行先期研究。

    (未完待续)

相关新闻

编辑精选