声响演出“百变大咖秀”
《2018年手机输入法语音输入环境趋势研究汇报》显示,搜狗输入法的环境趋势份额占比高达70.9%,稳居首位且遥遥领先,此中日均高达5.34亿次的语音要求频次超过了讯飞与百度之和。语音输入日渐上涨为合流输入方法,曾经成为拉动输入法新增长的驱动力。有AI赋能的输入法,怎样实现语音平台的差异化角逐,是包括搜狗在内的各品牌极为关注的。
5月21日,搜狗输入法上线了一个十分有趣的功效——“变声”。该功效由搜狗知音团队支持,可以将任意语言人的声响及时变换到指定语言人的音色。
简而言之,只要在语音输入当选定变声功效,输入你想说的话,再选定一个你喜好的角色,就能把你的声响瞬间“造成”该角色的声响。
据悉,QQ变声功效不同,搜狗输入法除了大叔音、萝莉音、令郎音、御姐音等基础声响,还笼盖横跨互联网行业、明星类、动漫类等种别的近二十种声响,角色设定从搜狗CEO王小川、星爷,再到蜡笔小新、小猪佩奇等不同身份、不同年龄、不同性别乃至是不同“次元”的角色,玩法天真多变。
有专家指出,用户对一个声响的喜好程度越高,对信息的接纳度就会越高,处理信息的服从也会大大增长。在输入法都打AI牌的年代,搜狗输入法上线的这款“变声功效”,是实施差异化打法的紧张一环。
“变声”背后的核心技术
每一个人的腔调、音色和语言节拍都不尽相像。怎样将“千人千声”通过技术处理,变为同一种指定声响,同时还不丧失原语言人的语言习惯?这是技术难点。
搜狗知音从语音表征学习、语音合成等平台睁开突破。
开始,搜狗知音团队使用表征学习技术,先学习到源端语言人语音的音色、内容和韵律三大特性。
其次,将学习到的源端语言人音色特性替代成目标语言人。
末了,基于搜狗知音的端到端语音合成技术,使用内容(源端)、韵律(源端)、音色(目标端)三类特性合成最终变声响频,到达各个方位的类似和自然。
在表征学习上,对目标音色语料进行声纹特性编码,提取语言人的音色embedding,再分别从输入音频中学习内容和韵律embedding;把“语言人归一化”模块对内容embedding进行同一规整,去除音色信息;通过对音频特性的压缩编码及特性抽取,学习表征韵律的样式特性;基于表征学习获得的特性,通过Attention和Decoder模块进行加权特性编码,并行使WaveRNN神经网络声码器恢复成波形,最终获得带有目标音色的音频。
在此前沿技术支持下,搜狗“变声”功效做到了以假乱真的高还原度,与原始角色相差无几,而且对用户本身的音色没有任何限制,可以“任意人变声到同一人”。别的,搜狗“变声”功效还冲破了音色转换的范围,将用户输入的语音内容、语速、停顿、情感等可均转化为超高真切度的指定角色声响。
搜狗的AI布局
目前,搜狗人工智能与传统业务的配备正在加深。搜狗在语音、图像、语义理解等平台的AI技术积淀,推进了搜狗搜索、输入法等传统业务的增长。
中国专利文摘数据库中显示,停止至今年3月15日,搜狗共提交专利要求1444件,此中在人工智能平台提交的专利要求达403件。在AI技术方面,搜狗正连接加大对语音、计算机视觉、机械翻译、问答等多个平台的研发投入。
2012年,搜狗启动了AI与语音辨认平台关联技术的研发,并以“专家型企业”的身份,在环境趋势中占有一席之地。目前,搜狗的AI颜色加倍浓厚,语音输入占比大幅晋升。关联数据显示,到2019年3月底,搜狗手机输入法日均语音要求较一年前增长69%,峰值达6亿次。
除了语音输入以外,翻译也是搜狗AI计谋中的紧张一环。2018年获得国际顶级白话机械翻译评测比赛IWSLTbaselineModel(基线模型)赛道冠军。2019年1月,又在对话型机械阅读理解搦战赛CoQA中击败微软、斯坦福大学等机构夺得第一。
AI创新软件方面,自2018年互联网大会期间,搜狗与新华社团结公布了一中一英两位AI合成主播后,有紧接着于2019年2月将AI合成主播从“半身播报”晋级为“站立式播报”,短短几月就实现了的兼顾技术的一次迭代。2019年3月,全球首个AI合成女主播“新小萌”开始在全国两会报道中正式上岗。3月15日,AI合成主播“姚小松”为央视315晚会预热。前段时间,搜狗还与阿联酋阿布扎比媒体集团杀青同盟,为其提供全面的AI合成主播办理方案,中国AI技术成功“出海”。
而据搜狗新华社AI主播项目的负责人进一步说明,在实现语音和唇部动作同步后,正在研发实现对微脸色等更细节层面的交互,好比挑眉、扭头时的眼神等,同时在语音合成的基础上引入自然语言理解的才气,让“主播们”具有认知才气。
在王小川看来,智能硬件离用户更近,是人机交互的新进口。因而,搜狗在上季度还加大了对智能硬件的投入力度,重点缠绕搜狗核心AI才气,建立儿童、翻译、语音三大产品系列,好比三月底推出了斩新的智能灌音笔C1,语音转文字精确率能够达95%,支持及时灌音转文字、同步多语言翻译等。
作为一家以技术推进的互联网公司,搜狗正加速人工智能与传统业务配备的措施,其“变声”新功效无疑是搜狗又一背倚AI技术的配备创新之举。