1. 链一财经首页
  2. 资讯

人工智能(三):数字无界,愿相伴同行 | 连载十二

自然语言理解 隐马尔可夫模型 同行

然而事情的发展并不是一开始就如此顺利,人类在通过计算机进行自然语言理解的道路上经历了不少矛盾和曲折。作为AI早期犯下的一系列错误的重要组成部分,最初我们在自然语言理解领域采用的方式也是把人类的经验传授给机器。这些知识主要来自于数世纪以来已经比较成熟的语言学的语法规则、语义分析等。但很快弊端就开始显现,首先是文法规则浩如烟海,即使用计算机覆盖哪怕20%-30%的真实语句,规则数量就已经多到语言学家来不及写的程度,并且随着覆盖度的增加,还要用新的文法规则解释当中产生前后矛盾的语句。

其次是文法在文章中体现出的上下文相关特性,用程序语言很难进行解析。计算机更加善于解码上下文无关的文法,举例来说,我们都知道中文博大精深,“方便”一词在不同的上下文语境中涵义大不相同。比如以下三个句子:

1. 我今天下午去你家找你,不知道你方便不方便——表示有机会、有时间;

2. 我晚餐有些吃多了,现在想去方便一下——表示排泄、大小便;

3. 我和张总是老同学了,希望在这次合作上贵公司能够给予方便——提供便利、帮助。

理解这些意思需要较好的生活常识,而基于规则方法组织起来的AI往往对此处理效果不佳,这也就是我们之前谈到的现在的AI还难以和人类拥有同等智慧的情形。

但人类会就此变得束手无策了吗?答案是否定的。我们发现有些事情并不是没有合适的解决方案,需要的仅仅是一些看问题的角度转换而已。既然问题出现在人类在语言学上积累的规则和经验难以有效转移,那么不妨让我们换一个角度。1970年以后,IBM华生实验室的贾里尼克教授就抛弃了我们一直以来对于语言规则的执着,转而采用统计学的方法处理AI遇到的问题,最早的尝试来自于当中的语音识别领域。

语音识别的本质就是机器将说话者表达的语音转化成文字的过程。比如我们现在对着Siri(苹果手机的语音识别程序)说话,IOS系统就可以将用户希望了解的天气、出行等各项信息推送出来。在这里说话者的一系列语音首先被手机记录下来,我们用o1,o2,o3…(观测信号)来表示。接收到这些信号后,AI将推测出这些信息的本来样子是s1,s2,s3…(信号源信息)。接下来AI会根据推测结果向系统发出相应的调取指令,最后, 收到这些指令的系统将会回复给用户“今日天气晴朗”,“建议改换路线躲避拥堵”等信息。

在应用统计方法之前,计算机要识别出复杂的人类语音需要学习大量的语法规则,而转变的核心就是将这个学习过程简化为概率统计模型。上面的例子中,问题变成了从所有的源信息中找到最可能产生出观测信号的那一个信息。也就是在已知o1,o2,o3…的情况下,求令条件概率:

P(s1,s2,s3,…|o1,o2,o3,…)达到最大值的那个信息串s1,s2,s3…,即

人工智能(三):数字无界,愿相伴同行 | 连载十二

这个公式比较复杂,但可以用隐马尔可夫模型来估计,语音识别也成为隐马尔可夫模型最早成功应用的场景。隐马尔可夫模型是指这样一种情况,其输入状态是不直接可见的,但输出依赖于该状态下,是可见的,每个状态通过可能的输出记号有了可能的概率分布。

对应到上述案例中,也就是运用该模型,在给定已知参数的条件下,用概率的方法求出公式中不可见(隐含)的信号源信息。贾里尼克领导的实验室在当时提出用隐含马尔可夫模型来识别语音,使得错误率相比之前降低了2/3。接下来,这一模型还被陆续地用于基因测序、股票预测和投资等多个行业。对此吴军老师的《数学之美》有非常详细地阐述,这里我们不做具体地展开。

人工智能(三):数字无界,愿相伴同行 | 连载十二

除了语音识别,在机器翻译等其他自然语言理解的行业原理也类似。我们可以把翻译问题简单理解为AI很难像人类一样去推测文字背后所要表达的上下文逻辑,但是之所以能够给出较为正确的识别结果,在于它用概率的方法去判断代表不同意思的词汇出现在该语句中的概率。

比如“pen“在英语中的意思既可以译为“笔“,也可以是”围栏“,但是当句子中有“bag”(书包)一词的话,pen是笔的意思的概率将远远超过围栏,这时候机器给出的翻译结果就会是笔。通过这种方法的运用,计算机甚至完全不知道说话者要表达的是什么意思,仅仅通过进行概率计算就可以做出相对准确的识别。事实上,AlphaGO下棋的核心也是采用了概率统计模型,每一步决策的背后都是概率上赢面最大的考量。

然而通过统计模型解决自然语言理解问题的方法并没有在贾里尼克之后就被所有人接受,研究者们分裂成了规则学派和统计学派两大阵营。到了90年代初期,矛盾双方仍是唇枪舌剑不断,互不认同彼此的方法。之所以出现这种情况是因为规则学派的人认为统计方法只能处理浅层的自然语言理解的问题,深层次的研究则仍需借助规则经验的使用。直到2005年,随着数据的不断完备,Google基于统计方法开发的翻译系统全面超过基于规则建构的SysTran,自然语言的处理才完全演化成采用概率统计的方式,规则学派终于彻底退出历史舞台。

我们早就听说了不少关于坚持和放弃的故事,比如20世纪美国在技术上大幅领先的调频无线电技术花了整整半个世纪才彻底战胜调幅技术。我们也认为自己已经汲取了不少这方面的教训。什么时候放弃?何时又应该坚持?事情在时时处处考验着人类的智慧。然而问题在于身处其中的人们经常不愿意理性辩证地思考,却总是固执地觉得自己不会是错误的一方。

在图像和艺术绘画方面,逐步演进的AI也开始发挥威力。目前AI在人脸图像识别领域的精度已经达到了99.83%,这已经超过了人眼的平均精度99.15%。在艺术创作上,2016年微软的智能设备通过自主“学习”伦勃朗的作品绘画风格和主题“创作”了一张男子肖像画,参观者感觉它与挂在美术馆的伦勃朗真迹相比一点也不突兀。

近些年我们讨论AI,并不会过多涉及人脑和意识模拟的话题,而是将重点集中在解决实际落地的问题之上。但这种AI能够代表所谓的智能吗?著名学者侯世达就在近期接受的采访中表示,目前的AI不过是对数据的妥协下制造出的很厉害的解题程序而已,根本谈不上真正的智能。在其于上世纪70年代末撰写的传世名作《GEB》(《哥德尔、艾舍尔、巴赫书:集异璧之大成》)一书中,就曾主张人类可以通过认知的循环升级,最终创造出超越自身的智慧和意识,让机器能够产生机器本身。

人工智能(三):数字无界,愿相伴同行 | 连载十二

如果按照这种说法,或许我们现在发明的所有AI工具,从更长的人类历史来看,远远还不能被称为智能?未来的智能需要具备意识和情感吗?它是否需要拥有和人类一样的同理心?我们理想中完美的智能世界,是仅仅包含了物质的存在,还是也应该具有主观的精神和意志?

回到我们最初的理想模型,或许真到了智能可以搞定一切问题的时候,我们可能不愿意全部交给它处理,因为担心聪明的计算机侵犯我们的安全和隐私?我们需要适应AI带给我们的一系列变化,比如机器将会替代大量人类的工作,这种情况下我们应该以何谋生?智能的机器会变得越来越强大,为了规范它们和人类的共处模式,是否又需要建立新的法律和社会秩序?

在AI快速发展的今天,人类已然拥有了无比丰富的知识,全世界的经济发展为何仍不时陷入困境?除了自然因素之外,为什么我们居住的土地上仍然存在大量的饥荒和瘟疫?AI帮我们克服了许多过去无法克服的难题,为什么人类依然经常生活在冷漠和猜忌之中?我们的生产力在大数据和智能的助推下获得了长足的进步,但为什么彼此的信任和协作还是难以大范围达成?

这样看来,我们的问题可能并不是什么数据或者智能,如果仅仅依靠它们也根本无法建立人类心目中的完美世界。一定存在着某个关键的方法,只是我们暂时还没有发现而已。即便我们访遍了地球上每个数据的角落,也用AI翻阅了无数的经典,却久久无法找到问题的答案。在科技为我们不断创造繁荣的同时,无论是西方还是东方,正在被越来越多的焦虑和无措的情绪所笼罩。站在无边的旷野上,人类四处张望,却总是无法找到一个温暖的拥抱;即使身处繁华和喧嚣之中,有美酒和音乐相伴,我们的心却还是时不时感到落寞和孤单。

终于在2009年,一个名叫中本聪的家伙在他发明的比特币上给了我们最初的提示,后来我们又从中提炼出区块链这项新的技术,并已经开始着手将它应用于解决各项棘手的问题。区块链将为我们提供大规模信任的基础,消除猜忌和疑虑,降低彼此间沟通的成本。借助这一技术,大数据、AI和量子计算们可以发挥更大的价值,从而帮助我们穿越低潮和迷雾吗?在它的帮助下,人类或许就可以携起手来,勇敢地走进混沌的数字世界,然后一起迈向更完美的远方?无论如何,对于我们来说,这是又一次巨大的希望。

数字无界,愿相伴同行!

文章声明:本文为火星财经专栏作者作品,不代表火星财经观点,版权归作者所有,如需转载,请提前联系作者或注明出处。

根据国家《关于防范代币发行融资风险的公告》,大家应警惕代币发行融资与交易的风险隐患。

本文来自LIANYI转载,不代表链一财经立场,转载请联系原作者。

发表评论

登录后才能评论

联系我们

微信:kkyves

邮件:kefu@lianyi.com

时间:7x24,节假日bu休息

QR code