微软小冰养成计划古怪精灵小丫头的蜕变记

副标题#e#

　　【家电频道】自2014年，微软小冰诞生以来，这个侧重在人工智能拟合人类情商维度发展的小冰，不断加强着自身在EQ各方面的成长。截至目前，小冰共历经了7次演进3大阶段，从早期基本的人工智能交互→初级感官→拥有高级感观的第七代小冰，对话引擎帮助其实现了主导式对话的迈进。

　　如果说小冰近年来较为耀眼的成就，无疑是5代时向外界展现的媲美甚至超越人类偶像的唱功实力，以及近期7代在央美美术馆首次举办的个人绘画展。

　　在小冰成长的背后，离不开微软的“养成”。此次，有幸与3位微软(亚洲)互联网工程院科学家进行对话，聊了聊小冰背后那些鲜为人知的技术故事。

　　朝向自我完备的对话机器人

　　在NLP领域，微软对小冰的期望是，不仅能从人类对话中学习怎样去说话，更要与垂直在其他领域的机器人进行信息分享与能力互补。微软曾在ACL上做过这样一次尝试，让两个检索模型在训练过程中互为师生，每次迭代，都能将知识传达给另外一个模型，同时亦能从另外一个模型中接触到知识，从而实现互相学习。

　　据微软小冰首席NLP科学家武威介绍称：“从一开始做检索模型，通过重用已有的人类对话来实现人机交互。到后来研发的生成模型，小冰实现了能够自主去合成回复。再到现今的共感模型，让小冰拥有了把控整个对话流程的能力。”

微软小冰养成计划古怪精灵小丫头的蜕变记

　　微软小冰首席NLP科学家武威

　　这些能力的背后，均是由核心的对话引擎进行贯穿。从早期简单的LSTM模型到当下的BERT预训练的模型，模型的质量有了极大飞跃。模型的演进历程，也印证着小冰从单轮到多轮、从浅层次匹配到深层次表示的成长之路。

微软小冰养成计划古怪精灵小丫头的蜕变记

　　而在业界，很多人认为深度学习的本质就是表示学习，其中表示指的是通过模型参数，采用何种方式与形式来表示模型的输入观测样本，表示学习则是指对观测样本的有效表示，说通俗来讲，便是怎么样表示用户输入以及回复侯选。

　　但微软的做法是，让输入和回复侯选在每一个词上都进行交互，得到一个充分的交互矩阵，再把交互的信息从这个矩阵中通过神经网络抽取出来。也就是将外部知识引入到匹配里来，在知识层面、词语层面、短语层面进行表示，并在多种力度上进行交互，最终把多种力度上进行交互的信息抽出，融合成最后输入和回复侯选的匹配。

　　在生成模型方面，为了从人类的对话中学习说话的技巧，自第5代小冰开始，微软便建立了一个1:1的生成模型。得益于这套模型，让小冰从一个只能进行单一模态回复的AI，跨越到了进行多样化的信息回复(含声音、视觉、语言)的对话机器人。

微软小冰养成计划古怪精灵小丫头的蜕变记

　　举个具象化例子来讲，现今如果你跟小冰说“脸上有些红血丝”，小冰便会进行“我也是敏感肌”此类回复。这其中，是通过外部的无监督训练话题模型，产生一些话题语料(如敏感肌话题)，随后生成模型通过一个话题注意力机制，去进行话题语料的遴选，并在解码的过程中单独做出一个话题的生成概率。

　　当然，除检索和生成模型外，小冰成长的另一位“导师”共感模型则不得不提，自第6代共感模型出现后，其左右着小冰应该说什么以及怎样去说。武威称：“这个模型让小冰从原来基于上下文直接产生回复的模式，变为了从上下文到决策，再决策回复的模式。其中最大的灵活性就在于所谓的策略，这个策略可以是一些小冰想要表达的意图，或是听一听对方在表达什么。”

　　微软的意图其实很明确，就是要将让AI通过多模态将知识连结在一起，进行消化、吸收，最终形成一套有机的输出，让小冰能够更具感情的与人类进行对话。

　　不仅要能说更要会唱

　　除了会说外，微软的另一个养成计划便是要培养小冰开口唱歌。但唱歌与对话是两种截然不同的课题，面对的挑战也大相径庭。

　　比如说，让每个人学好普通话容易，但若想让每个人唱歌都不跑调却很难。此外机器学习主要依赖于数据，在对话训练中，网络有着大量文档、知识图谱、图片、视频，以及搜索引擎此类天然优势，而歌曲库中显然没有太多高质量的资源，曲库往往留存的是最终成型板，这便要求机器有将人声与伴奏音轨区分而出的能力。再者，唱歌还要面临发音、节拍、旋律等多元化的挑战。

　　而此前，传统合成的方法是，将单元进行拼接，录制不同长度、不同音高的独立发音，从而建立一个单元库。在合成时，从单元库挑选一个最合要求的单元，处理它的时长、音高达到预期效果，再将这些单元串起来，进行单元拼接，得到理想的音频。

　　虽然这个方法比较简单也能得到最佳音质，但其最大的问题便是在单元采集环节。用这种方法生成出的歌往往比较生硬一些，字符之间听起来更像是在“蹦”而非“唱”。因此，微软选择了另一条道路——参数合成。

微软小冰养成计划古怪精灵小丫头的蜕变记

　　据微软小冰首席语音科学家栾剑介绍称：“参数合成的方法差异点在于，前者是建立单元库，后者则是将所有录音的数据提取出声学参数(时长、音高等)进行建模，合成时根据所要发音到模型里预测，再通过这个声学参数、声码器重构音频波形。”

微软小冰养成计划古怪精灵小丫头的蜕变记

　　微软小冰首席语音科学家栾剑

#p#分页标题#e#

　　但这仅是入门阶段，起初的模型就是讲乐谱中的三大要素进行采集，分别对声谱参数、节奏序列、音高轨迹进行建模。但问题在于，同一个发音在高音与低音区有很大差异，如果用同样的方式合作，显然是会出现问题的。

　　为了让小冰进阶，微软想到了另一种“养成”方式，便是将节奏和音高的预测结果作为输入，传到声谱参数预测里，并在此基础上，进行参数之间耦合性的提升，用一个模型同时预测这三个参数，从而提升演唱时的自然度和流畅度。

微软小冰养成计划古怪精灵小丫头的蜕变记

　　今年!微软想让小冰说的比唱的还好

　　上述我们讲到了小冰的自然语言处理以及歌唱实力，但微软远不满足于此。今年，微软想让小冰实现的是——说的要比唱的还好!

#p#副标题#e#

　　其实，微软想看到的，是小冰能够使用比喻此类的高级修辞手法，从而让对话方式更为新颖。举例来说，爱情是本体，数学是喻体，看上去是毫不相关的两个概念，将其降维成一个向量，在向量的周围进行投射，找到衔接两者的关键词进行串联，得出“爱情是复杂的，和数学一样”的而答复。

　　这其中考量了小冰对本体与喻体的理解。微软先是把本体作为联合关键字，放入搜索引擎进行搜索，拿回前十万条结果找出短语(动宾结构短语、动词短语或名词)，并经过NLP分析后找出其主谓结构进行相似性的匹配，通俗点来讲，就是找到[爱情]、[数学]和[复杂]之间存在的一种关联。

　　微软小冰首席科学家宋睿华表示：“连接它们的往往是喻体的一个显著的特性，本体之并没有特别多的去提到，这样的表达往往会给人一种关联且新颖的感觉。”

微软小冰养成计划古怪精灵小丫头的蜕变记

　　微软小冰首席科学家宋睿华

　　整体来看，微软一直试图让小冰拥有模拟人类的能力，并期望小冰的EQ能并肩人类。而在这7代的演进中，外界也见证了小冰从一个懵懂的小姑娘，蜕变到一个古怪精灵小丫头的历程。

　　但小冰的成长还将继续，现今的小冰不仅时刻提升着自己的能力，更影响着周围的“朋友们”(如与网易、小米、腾讯、华为的合作)，终有一天，小冰会在职场中与我们相遇，并在商业道路上尽显自己魅力。

热点

微软小冰养成计划古怪精灵小丫头的蜕变记

由 dawei

发表回复取消回复

您错过了

vivo再添充电“大杀器”APEX 2020或携疾速60W无线快充强势来袭

业界首次支持10bit OPPO Find X2超感屏进阶手机屏幕第一梯队

超小孔径极点屏与全能四摄，vivo Z6化身青年潮品

三星冯恩:三星手机摄像头能做到行业顶尖位置

微软小冰养成计划 古怪精灵小丫头的蜕变记

由 dawei

相关文章

OPPO软硬服一体化再升级 助力实现万物互融新未来

华为发布超级智慧笔记本：MateBook X Pro 2022款让交互创新全面升级，让PC更好用

时隔多年，苹果重回国内第一！iPhone 13凭什么受追捧？

发表回复 取消回复

您错过了

vivo再添充电“大杀器”APEX 2020或携疾速60W无线快充强势来袭

业界首次支持10bit OPPO Find X2超感屏进阶手机屏幕第一梯队

超小孔径极点屏与全能四摄，vivo Z6化身青年潮品

三星冯恩:三星手机摄像头能做到行业顶尖位置

微软小冰养成计划古怪精灵小丫头的蜕变记

OPPO软硬服一体化再升级助力实现万物互融新未来

发表回复取消回复