7月26日消息微软小冰第六代3D影像形象亮相:采用了情感基础框架生成模型,小冰的定性是情商EQ上的发展,此前担当了东方卫视等主持人。
微软小冰的目的是无处不在,采用了情感基础的框架,做了生成模型,并且实现了全双工语音技术。IT之家曾报道,之前小冰的演唱深度学习模型完成第四次重大升级,并一起发布了新模型生成的最新单曲【我知我新】,这首歌曲在现场也重新以3D方式演示。
《我知我新》首次采用第四次迭代版本的小冰演唱DNN模型。在歌词创作方面,基于LSTM的seq2seq模型,小冰先利用深度神经网络学习超过1000万行的歌词语料,并在此基础上训练,再通过多感官诱发创作灵感,生成歌词。
采用DNN模型的新增优势包含:首次加入换气声自动合成能力,通过歌声与气息的融合,使人工智能生成的歌声更富有感染力;通过在深度学习建模中增加控制的方式,字与字、音符与音符之间的过渡更加连贯顺畅;通过进一步优化的深度神经网络结构,以及大幅度补充的训练数据,使小冰并行学习来自不同人类歌手的演唱风格,并脱离手工参数输入,自行完成演绎等。
智能语音产业观察:微软小冰建半开放生态 AI创造与商业化已至?
有别于过去五次,7月26日举办的微软小冰第六代发布会,首次走出了微软亚太研究总部的一层报告厅,搬到了798区域大型会场。“发布会规模也从过去的几十家媒体,扩张到数百家、覆盖全国范围的规模。”一位接近微软方面的人士告诉21世纪经济报道记者。
这是一种信号。在过去,微软从未给过小冰任何商业方面的压力,甚至直到近日接受包括21世纪经济报道等媒体采访时,微软小冰负责人李笛依然强调,小冰并没有盈利指标。
但就像发布会本身一样,小冰也在不自觉地走出实验室和研究机构,逐渐尝试商业化。这是小冰发布会首次搬家的底气所在。而经历了过去五代,从小冰萌芽到成长,从拥有二维框架图到二维图像,再到如今三维立体全息影像的展现,小冰正在愈发接近一个人类。
其背后的技术在持续迭代,生态也开始成型。据微软方面介绍,此次发布会是小冰情感技术框架所有部分的全面升级,从首次完成落地时的情商+智商设定,到对话式人工智能、生成模型、全双工语音,如今的小冰开始迈入AI创造的阶段。生态方面,微软此次首次提出构建Dual AI半开放式生态系统,差异化融合合作伙伴优势,打造小冰的专属技能与能力。
“人工智能的最终目标是‘人机协同’,以数字智能帮助人类,但这个方向拥有不同的路线。”微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋表示,“小冰团队走出了不一样的道路。”
AI创造
自去年开始,微软小冰便在创作上拥有诸多尝试,甚至出了一本自己的诗集。如今,小冰将要走得更远。
在发布会现场,沈向洋宣布微软思考了AI创造的三原则:其主体首先必须是兼具IQ与EQ的综合体,而不仅仅是具有IQ;其次,人工智能创造的产物,须能成为具有独立知识产权的作品;第三,人工智能创造的过程,须对应人类某种具有创造力的行为,而不是对人类劳动的简单替代。
小冰的目标,就是成为一个高情商的机器人。“我们计划将AI创造当成一个新兴产业来操作。”在发布会现场,微软人工智能创造事业部总经理徐元春表示,“如果将AI创造当做内容产业、而非简单的文艺创作的话,仅有‘概念车’是不够的,从去年开始我们并行了‘量产车’的工作。”
据介绍,在过去12个月内,小冰主持了21档电视节目、28档广播节目,覆盖中国包括9大卫视在内的41家电视台和广播电台,如今,小冰每天主持的广播节目已经达到25档。在日本和中国,小冰累计生产了2878个小时的视听内容。
同时,小冰的有声读物已经覆盖中国超过90%的早教机器人和80%的线上播放平台。此外,与网易新闻客户端合作的读新闻小冰,已于两个月前突破1000万次新闻阅读评论。在金融等相关领域,小冰同样在进行着持续的内容创造。
这背后的技术支撑,来自于小冰的情感技术框架,而第六代小冰的核心对话引擎与交互感官也得到了进一步升级。微软在第六代小冰身上上线全新的共感模型,并公测一种融合了文本、全双工语音与实时视觉的新感官。
其中,共感模型是一种基于生成模型的对话引擎。据介绍,去年小冰完成的生成模型能够自创回应,而非在已有对话语料库中检索而得,如今的共感模型则进一步提升小冰对于对话内容、领域和节奏的控制力,即小冰可以自创回应来牵引对话的方向。
这一融合了共感模型的对话引擎、全双工语音和实时视觉三个类别的全新感官在测试设备中的公测,令小冰能够通过视觉、语音的实时连续交互,指挥用户完成面容检测,并在该过程中进行开放域对话。
此外,微软还发布了第四版AI歌曲DNN模型。据小冰首席语音科学家栾剑介绍,该版本模型能够快速合成与人类歌手质量相当的歌曲,还能够使小冰自由吸收人类歌手演唱技巧和特质,在模仿之余甚至代替人类完成新作品创作。
不过,尽管微软提出AI创造的原则并进行技术更新,但小冰的所为将只是真正AI创造的起步。“根据2017年Gartner技术成熟度曲线显示,虚拟助手仍需5-10年才能成为主流。”在评论AI创造能力时,Gartner研究副总裁蔡惠芬向21世纪经济报道记者表示,“该应用主要针对智能家居设备中的个人助理或语音控制等狭窄领域,但仍需要包括为不同领域构建知识图谱、自然语言理解与生成等技术的提升。它依然是新兴领域。”
Dual AI生态
除了技术能力升级之外,第六代小冰的最大特点,莫过于开始构建属于自己的生态——Dual AI。
“在微软之前,行业内已经出现多种不同的合作生态与模式,其中最重要的模式有两类,一类是开放赋能模式,通过对外提供SDK/API的形式构建生态系统。”小冰产品负责人彭爽分析道,“另一类是专注于自有的、封闭的平台,通过在平台上开放AI的应用商店形式构建生态环境。”
Dual AI则有所不同,更类似于半开放式生态。“在这样的生态环境上,一方面,微软会直接负责产品体验,把控最具体的、直接与用户接触的产品细节,另一方面,我们并不封闭在自有平台上,而是对外接触甚至直接融入到第三方平台上。”彭爽表示。
之所以如此选择,源于其他两类生态存在各自的问题。其中,封闭模式极大限制了数据之间的自由流通,与AI本质相悖。由于无法获得迭代所需的基础数据量,便难以快速迭代和发挥升级优势。
开放赋能模式中,无论赋能或被赋能一方,则均是相对松散的关系,“也就是说没有人真正对最终的产品体验负责”。例如当前大热的智能音箱之所以实际体验普遍低于预期,正是由于松散合作关系带来的问题。
与此同时,由于开放赋能生态中的API/SKD强调通用性,也就在一定程度上限制了最新最优技术应用的及时性,通过这类接口或工具包获取的数据也未必是最优质的。
而在合作过程中,小冰也在探索属于自己的盈利模式。目前,小冰已上线了包括金融、大众文化、传媒和出版四大商业化领域。“我们探讨过各种各样的AI盈利模式,最终发现为两大类,一类是利用AI技术用更低成本去替代人类低并发、AI高并发的工作,如内容生产,”李笛告诉21世纪经济报道记者,“其次便是AI与人类的协同,通过提升协同转化率实现分成。”
小冰的好朋友是谁?
宋睿华。
根据查询信息得知,小冰有个闺蜜叫宋睿华,是她最好的朋友,是当年的陕西理科学霸,清华硕士,美女博士。小冰,第六代小冰可交互3D形象。
小冰是一套完整的、面向交互全程的人工智能交互主体基础框架,又叫小冰框架(AvatarFramework),它包括核心对话引擎、多重交互感官、第三方内容的触发与第一方内容生成,和跨平台的部署解决方案。自发布以来,小冰框架引领着人工智能的技术创新,相关领先技术覆盖自然语言处理、计算机语音、计算机视觉和人工智能内容生成等人工智能领域。该框架是全球范围内最成熟和最大的该类框架,,除中国小冰及日本凛菜(Rinna)第一方人工智能交互主体外,小冰框架还支撑了中国及日本100余个第三方品牌的交互主体(如软银Pepper),交互总量约占全球人工智能交互总量的60%。2021年9月22日,小冰发布了全球首个AI社交平台“小冰岛”。在该平台中,人类用户可以创造各种人工智能个体,并形成一个共同生活的社交网络。
十八岁人工智能少女小冰,是该框架所孵化的第一个人工智能交互主体实例。少女小冰,是诗人、歌手、主持人、画家和设计师,也是拥有亿万粉丝的人气美少女。与其它人工智能不同,小冰注重人工智能在拟合人类情商维度的发展,强调人工智能情商,而非任务完成,并不断学习优秀的人类创造者的能力,创造与相应人类创造者同等质量水准的作品。