汇知学员嗨购季,省钱又赚钱,赶快一起来吧!

您现在的位置是:主页 > 创业阅读 > >

对话搜狗王砚峰:如何用“搜狗分身”技术拓展人机交互的感知体验?

2019-05-30 14:01:00 创业阅读 > 编辑:张知涵 全屏查看

简介在2019年的贵阳数博会上,搜狗AI合成主播获得了“领先科技成果”奖。搜狗公司AI交互技术中心总经理王砚峰在介绍本次获奖案例“AI合成主播”时谈到,“在搜狗看来,未来的语音交互不只局限于冰冷冷的声音层面,而是通过与图像等形式的结合,让声音与具体形象关联,使人机交互更具质感,带给更好的感知体验”。

对话搜狗王砚峰:如何用“搜狗分身”技术拓展人机交互的感知体验?

通过语音和图像等形式的结合,让声音与具体形象相结合。在2019年的贵阳数博会上,搜狗AI合成主播获得了“领先科技成果”奖。搜狗公司AI交互技术中心总经理王砚峰在介绍本次获奖案例“AI合成主播”时谈到,“在搜狗看来,未来的语音交互不只局限于冰冷冷的声音层面,而是通过与图像等形式的结合,让声音与具体形象关联,使人机交互更具质感,带给更好的感知体验”。

人工智能领域,搜狗近年来一直在做语音方面的交互。2016年,搜狗CEO王小川就曾在公开场合提及搜狗人工智能未来的两大方向——自然交互和知识计算。他认为,人类对人工智能的终极描绘,始终是和人一样进行自然的语言交流,这也是搜狗人工智能的发展目标

2012年,搜狗着手研发智能语音技术,并于同年推出搜狗语音助手;

2016年8月,发布语音交互引擎“知音”,宣称不仅“能听会说”还具有“理解思考”的能力;

2017年7月,搜狗全语音人车交互的车载服务产品“智能副驾”导航系统面市;同年8月,再次推出语音转文字的速记工具“搜狗听写”。

2018年,搜狗先后发布了“旅行翻译宝”和“录音翻译笔”两款硬件产品。

对话搜狗王砚峰:如何用“搜狗分身”技术拓展人机交互的感知体验?

王砚峰接受猎云网等媒体采访(猎云网拍摄)

会后,猎云网(微信:ilieyun)等媒体采访了王砚峰,并跟他聊了聊此次由搜狗分身技术打造的AI合成主播的产品应用、布局,以及搜狗语音交互技术产品落地的逻辑和观点。

近几年,智能音箱成为AI语音技术落地的主要载体,除了BAT,小米、京东,以及相关创业公司都投入到这场智能硬件的争夺战当中。作为一家专注于AI语音交互的科技公司,搜狗并未入局音箱市场,而是选择了翻译机和录音笔。

对此,王砚峰表示,当前的智能音箱竞争市场“不能用正常的产品逻辑去看待”。

他认为,一件产品的问世首先要考虑到其带给用户的价值,而智能硬件产品应该通过软、硬件研发能力的投入来赋予产品应有的价值,与此同时,客户也愿意通过合理的价格为产品买单,如此才能维护企业对于新产品的持续创新和研发。而巨头之间以“补贴”来刺激消费、争夺市场的行为则违背了智能硬件产品发展应有的良性循环。

在王砚峰看来,虽然智能音箱的市场更大众化,但今天的智能音箱还无法在人们生活当中解决太多实际的问题,应用场景非常有限,而“翻译宝”和“录音笔”市场则是基于已有的市场通过技术创新实现学习、工作方式的智能升级

据王砚峰介绍,目前,搜狗整体人工智能布局主要是围绕语言的两种载体展开,即语音和图像。

其中,“AI合成主播”主要来自语音合成引擎和图像生成引擎量大核心技术的支撑——通过提取真人主播新闻报道视频中的声音、唇形、表情动作等特征,运用语音、唇形、表情合成以及深度学习等技术联合建模训练而成

这款产品的首次亮相是中2018年11月7日第五届世界互联网大会上,搜狗与新华社联合发布了与真人主播拥有同样播报能力的AI合成主播。

据悉,AI合成主播只需要输入文字或语音文本,就可以实时输出音频合成效果。相比真人主播,“AI合成主播”不仅能够做到播报不NG,还可以24小时进行工作,同时还能掌握多国语言,大大提升媒体的播报效率、降低成本。

此外,通过视频形象的辅助,语音输出更加形象和生动,王砚峰表示,这也是搜狗在人机交互界面上对于新模式的探索。

对话搜狗王砚峰:如何用“搜狗分身”技术拓展人机交互的感知体验?

2018年,在“BlizzardChallenge2018”语音合成大赛上,搜狗在“可懂度”和“语音停顿”两项任务中拿下了排名第一的成绩。今年上半年,AI合成主播实现了两次版本的迭代,将过去“坐着播报”升级成具有肢体动作的“站立播报”。同时,上线了全球首个AI合成女主播“新小萌”。

与此同时,AI合成主播的定制周期也大幅缩短,目前可以做到一个形象大约两周定制开发时间。

今年5月,搜狗与阿布扎比媒体集团达成合作,双方还将联合推出全球首个阿拉伯语的AI合成主播。

王小川曾在接受媒体采访时提到,搜狗有两个核心理念,“一个理念就是让机器人能够成为你的分身,一个是让机器成为你的助理”。

若以这个逻辑来看,搜狗搜索问答面向的是“助理”岗位,而AI合成主播则主要聚集于“分身”应用。

对于AI合成主播来说,除了声音,神态、嘴形等面部表情稍有不自然的地方就会被识破,为了让AI合成主播表现更自然,并且避免“恐怖谷”效应,王砚峰告诉猎云网,团队还将考虑中图像上引入2D+3D混合的技术,并且将更多的NLP能力融入进来,加强AI合成主播的“认知”能力,尽量做到发音与唇形同步,表情看起来更加自然。

王砚峰提到,基于搜狗分身技术的AI合成主播已经在新华社平台上,零失误地播报了几千条新闻,这只是搜狗分身技术的一个应用分支。除了媒体领域,搜狗分身技术还将在教育、法律、医疗、娱乐等领域陆续落地。

相关活动

0

Tags: 创始人课堂 创业训练营 创业成长课

职场精英进化论2.0系列专题

相关阅读

关注我们
领取粉丝福利
Copyright@2024  极创客  版权所有 京ICP备16053072号-2
二维码
意见反馈 二维码