微软小冰再进化-深度-知识分子

微软小冰再进化

2019/11/30
导读
每一次技术的革新,改变的都是连接人类和世界的方式。

r/gi/zsfz1575068831.746656.jpg

图说:在11月21日周五举行的微软小冰科研成果分享会上,微软小冰首席科学家宋睿华和他的同事,微软小冰首席NLP科学家武威、微软小冰首席语音科学家栾剑介绍了最近小冰所取得的新进展。

 

撰文 | 邸利会


●   ●   


在微软小冰首席科学家宋睿华眼中,每一次技术的革新,改变的都是连接人类和世界的方式。

 

借助互联网,可以不必“跨越大半个地球去看你”,技术压缩了物理的空间,拉近了人们的距离。换言之,互联网延长了你的眼睛和耳朵,让你方便的触达世界的任何角落。


而手机再一次改变了人类和世界连接的方式,手机成了最懂你的人——当你打车,手机会知道你常去的地方,当你听歌,手机会推荐给你最喜欢的曲目,甚至有人说,手机比你都更了解你自己。

 

“ 我们的猜测是AI产品也会成为下一个改变人类和世界方式的点,我们希望小冰所完善的人工智能框架能够做出这样的一个连接点。” 宋睿华说。

 

在11月21日周五举行的微软小冰科研成果分享会上,宋睿华和他的同事,微软小冰首席NLP科学家武威、微软小冰首席语音科学家栾剑介绍了最近小冰所取得的新进展。

 

2014年,小冰在微软(亚洲)互联网工程院诞生,经历了5年时间,今年已经进化到了第七代。小冰是一个融合了自然语言处理、计算机语音和计算机视觉等技术的完备的人工智能底层框架和系统。该框架注重人工智能在拟合人类情商维度的发展,强调人工智能情商,而非任务完成,在人机交互中的基础价值。

 

第七代微软小冰已成为全球最大的跨领域人工智能系统之一,产品形态涵盖社交对话机器人、智能语音助理、人工智能内容创作和生产平台等。在全球多个国家,微软小冰单一品牌已覆盖6.6亿在线用户、4.5亿台第三方智能设备和9亿内容观众,在交互场景大幅度拓宽的情况下,微软小冰与用户的单次平均对话轮数(CPS)仍保持在23轮。

 

把控对话流程

 

平均对话轮数当然是衡量用户是否深度参与聊天的重要指标,不过武威说,在某些情形下,比如商品推荐、智能家居,是“需要越短越好,而且还要答得对”。要让小冰适应如此广泛的应用场景确实是一项挑战。

 

武威说,要发展自我完备的对话机器人,首先需要的是学习的能力——可以从人类的对话中学,也可以机器人之间互相学。此外,机器人还应该能自主管理,单轮的表达管理做好后,还能把控整个的对话流程;最后,机器人应该还能连接散落在这个世界上的多模态的知识。

 

小冰的对话引擎这些年也经历了进化,从一开始的“检索模型”,重用已有的人类的对话来实现人机交互,到“生成模型”,可以自己去合成回复,再到“共感模型”,也就是可以自主的去把握整个对话流程。

 

在各个模型上,武威介绍,他们都做了一些工作和常识。比如,考虑到简单的生成模型的回复没有多少信息量,2017年他们将话题内容引入到了回复中,这样的回复就更有内容。

 

“由于我们引入了话题,如果用户说在左脸颊上有一些血丝,机器回复,我也是敏感肌,敏感肌就是一个话题的词汇;再比如,有人说,我的皮肤很干,也可以回复,那你补水保湿吧,补水保湿也是一个话题。” 武威解释说。

 

小冰第六代的“共感模型”,背后包括了两个模型,回复生成模型和策略决定模型。武威解释说,这里的策略可以是主动引导话题,提问,向对方确认一些事情;也可以是一些情感的表达,通过意图、话题、情感等策略的组合,可以产生非常多样、复杂的对话流程。

 

融合了对话、语音、文本知识、多媒体的多模态交互也是武威他们正在研究的重点。“如何把散落在各个地方的知识连接起来,然后以一种一致的方式再通过对话机器人输出出来,我认为做到这点之后多模态交互基本上就解决了。” 武威说。

 

多种风格的歌唱

 

在当天的分享会上,栾剑展示了小冰唱歌技术在过去一年的进展。事实上,在2015年,小冰推出语音聊天功能时就收到了市场的积极反应,之后又加入了儿化音、中英文混杂朗读、讲儿童故事等,2016年进一步开始尝试唱歌。

 

“做唱歌主要有三个原因,一是唱歌门槛比说话高,二是唱歌在情感表达上更为丰富激烈,三是唱歌本身是很重要的娱乐形式。” 栾剑解释说。

 

那么,如何让机器学习唱歌了,一是可以像唱歌的人学习,二是直接通过读曲谱。这两种方式对机器来说,第二种要简单一些。“如果从人的录音去学的话,它有时候会需要检测音高的曲线,需要检测每个字起始和结束的位置,还需要去判断每个发音,所以这中间都会有一些误差和错误存在,所以如果是有曲谱输入的话,接下来就会更简单一些。” 栾剑说。

 

而唱歌合成的方式也有两类,一是单元拼接。这个方式比较简便,但最大的问题是唱出来往往不那么自然,像是一个字一个字的蹦出来。第二种是参数合成的方式,这种方式会比较灵活,变化很丰富,甚至可以创造一个从来不存在的声音,但缺点是音质上可能会有所下降。

 

栾剑介绍说,小冰采用的是参数合成的方式,并不断提升。他们讲乐谱中能量谱、时长和音高用同一个模型进行预测,虽然模型很复杂,但“用这种方式生成的波形,它的自然度和流畅度会得到一个明显的提升”。

 

尽管小冰在唱歌方面已取得不俗的进展,但栾剑认为,对唱歌这个人物,数据依然是个困难点。鉴于清唱的数据非常少,他们需要利用混合了伴奏的数据进行学习。“不管是人工智能的创造还是提高唱歌上,我觉得需要两条腿走路,一是不断提高模型,二是不断挖掘更多的数据,这两个东西如果做的更好,我们的质量会不断得到提高。” 栾剑总结道。

 

比喻与绘本创作

 

在写作中,比喻是一种比较高级的修辞手法,可以把抽象难懂的概念具像化,让读者产生深刻的印象。可让机器人学会运用比喻却不是一件容易的事情,何况是创造一种新颖的比喻。

 

“我们有一个要求是不要在人类已有的文章里去挖掘这种比喻句,不要用’像’、‘就像’、‘一样’ 这样子的模板把它挖掘出来,因为这些都是人类创造的比喻,跟小冰没有那么大的关系,我们希望小冰真正创造出人类不曾说过的比喻。”  宋睿华说。

 

那么,如何做呢?对机器,这样的输入往往是本体、喻体,而输出是一个解释。宋睿华他们首先找出了小冰用户喜欢说的96个抽象概念,包括了分离、爱情、心、世界、母亲、美人、人、梦想、生活、快乐等。另外再找出常用的一万个词,都是一些好理解的具体的概念,如食物、信号、游戏等。最后,他们在两组概念中间挖掘一些连接词,之后根据连接词是动词,名词还是形容词,再做不同的处理。用他们的方法做出的比喻有些有十分贴切的效果,如“孤独像是空无一人的车站”,当然也有“恋人像是可靠的报表”这样略有些奇怪的比喻。也许,像诗人一样,进行新的比喻的创作有时不可避免会有不那么好的结果。

 

在最近的发展中,小冰的另外一项技能是用一系列图片描述一个故事。谈起这项研究的初衷,宋睿华告诉笔者,当时他们是在合作一个儿童绘本的项目,希望除了给儿童故事加朗读外还能配上一些画面。

 

要实现从故事上的文字转变成一系列的图画是一些具有挑战的任务,包括了三个难点,一是需要更好的利用上下文,二是需要做好细节上的对应,三是很多的数据都是一一对应的。宋睿华他们用了一系列的方法改善他们的结果,尽管现在还需要一些人工的辅助,但已经是取得了不错的进步。


参与讨论
0 条评论
评论
暂无评论内容
订阅Newsletter

我们会定期将电子期刊发送到您的邮箱

GO