您现在的位置是:主页 > 创业阅读 > >
对话搜狗王砚峰:如何用“搜狗分身”技术拓展人机交互的感知体验?
2019-05-30 14:01:00 创业阅读 > 编辑:张知涵 全屏查看
简介在2019年的贵阳数博会上,搜狗AI合成主播获得了“领先科技成果”奖。搜狗公司AI交互技术中心总经理王砚峰在介绍本次获奖案例“AI合成主播”时谈到,“在搜狗看来,未来的语音交互不只局限于冰冷冷的声音层面,而是通过与图像等形式的结合,让声音与具体形象关联,使人机交互更具质感,带给更好的感知体验”。
通过语音和图像等形式的结合,让声音与具体形象相结合。在2019年的贵阳数博会上,搜狗AI合成主播获得了“领先科技成果”奖。搜狗公司AI交互技术中心总经理王砚峰在介绍本次获奖案例“AI合成主播”时谈到,“在搜狗看来,未来的语音交互不只局限于冰冷冷的声音层面,而是通过与图像等形式的结合,让声音与具体形象关联,使人机交互更具质感,带给更好的感知体验”。
人工智能领域,搜狗近年来一直在做语音方面的交互。2016年,搜狗CEO王小川就曾在公开场合提及搜狗人工智能未来的两大方向——自然交互和知识计算。他认为,人类对人工智能的终极描绘,始终是和人一样进行自然的语言交流,这也是搜狗人工智能的发展目标。
2012年,搜狗着手研发智能语音技术,并于同年推出搜狗语音助手;
2016年8月,发布语音交互引擎“知音”,宣称不仅“能听会说”还具有“理解思考”的能力;
2017年7月,搜狗全语音人车交互的车载服务产品“智能副驾”导航系统面市;同年8月,再次推出语音转文字的速记工具“搜狗听写”。
2018年,搜狗先后发布了“旅行翻译宝”和“录音翻译笔”两款硬件产品。
王砚峰接受猎云网等媒体采访(猎云网拍摄)
会后,猎云网(微信:ilieyun)等媒体采访了王砚峰,并跟他聊了聊此次由搜狗分身技术打造的AI合成主播的产品应用、布局,以及搜狗语音交互技术产品落地的逻辑和观点。
近几年,智能音箱成为AI语音技术落地的主要载体,除了BAT,小米、京东,以及相关创业公司都投入到这场智能硬件的争夺战当中。作为一家专注于AI语音交互的科技公司,搜狗并未入局音箱市场,而是选择了翻译机和录音笔。
对此,王砚峰表示,当前的智能音箱竞争市场“不能用正常的产品逻辑去看待”。
他认为,一件产品的问世首先要考虑到其带给用户的价值,而智能硬件产品应该通过软、硬件研发能力的投入来赋予产品应有的价值,与此同时,客户也愿意通过合理的价格为产品买单,如此才能维护企业对于新产品的持续创新和研发。而巨头之间以“补贴”来刺激消费、争夺市场的行为则违背了智能硬件产品发展应有的良性循环。
在王砚峰看来,虽然智能音箱的市场更大众化,但今天的智能音箱还无法在人们生活当中解决太多实际的问题,应用场景非常有限,而“翻译宝”和“录音笔”市场则是基于已有的市场通过技术创新实现学习、工作方式的智能升级。
据王砚峰介绍,目前,搜狗整体人工智能布局主要是围绕语言的两种载体展开,即语音和图像。
其中,“AI合成主播”主要来自语音合成引擎和图像生成引擎量大核心技术的支撑——通过提取真人主播新闻报道视频中的声音、唇形、表情动作等特征,运用语音、唇形、表情合成以及深度学习等技术联合建模训练而成。
这款产品的首次亮相是中2018年11月7日第五届世界互联网大会上,搜狗与新华社联合发布了与真人主播拥有同样播报能力的AI合成主播。
据悉,AI合成主播只需要输入文字或语音文本,就可以实时输出音频合成效果。相比真人主播,“AI合成主播”不仅能够做到播报不NG,还可以24小时进行工作,同时还能掌握多国语言,大大提升媒体的播报效率、降低成本。
此外,通过视频形象的辅助,语音输出更加形象和生动,王砚峰表示,这也是搜狗在人机交互界面上对于新模式的探索。
2018年,在“BlizzardChallenge2018”语音合成大赛上,搜狗在“可懂度”和“语音停顿”两项任务中拿下了排名第一的成绩。今年上半年,AI合成主播实现了两次版本的迭代,将过去“坐着播报”升级成具有肢体动作的“站立播报”。同时,上线了全球首个AI合成女主播“新小萌”。
与此同时,AI合成主播的定制周期也大幅缩短,目前可以做到一个形象大约两周定制开发时间。
今年5月,搜狗与阿布扎比媒体集团达成合作,双方还将联合推出全球首个阿拉伯语的AI合成主播。
王小川曾在接受媒体采访时提到,搜狗有两个核心理念,“一个理念就是让机器人能够成为你的分身,一个是让机器成为你的助理”。
若以这个逻辑来看,搜狗搜索问答面向的是“助理”岗位,而AI合成主播则主要聚集于“分身”应用。
对于AI合成主播来说,除了声音,神态、嘴形等面部表情稍有不自然的地方就会被识破,为了让AI合成主播表现更自然,并且避免“恐怖谷”效应,王砚峰告诉猎云网,团队还将考虑中图像上引入2D+3D混合的技术,并且将更多的NLP能力融入进来,加强AI合成主播的“认知”能力,尽量做到发音与唇形同步,表情看起来更加自然。
王砚峰提到,基于搜狗分身技术的AI合成主播已经在新华社平台上,零失误地播报了几千条新闻,这只是搜狗分身技术的一个应用分支。除了媒体领域,搜狗分身技术还将在教育、法律、医疗、娱乐等领域陆续落地。
相关阅读
-
VC已经进入“宏观少红利、微观拼能力的新阶段”
在“宏观少红利、微观拼能力的新阶段”,确保不出局,在不确定性下也有确定的决策方法论。 -
资本造富也能“造负”,创业者如何玩好融资这场游戏,才能不让自己掉入坑底?
资本的造富奇迹想必大家一定听过不少。网络上经常报道的“90后老板凭借一个APP融资上亿套现”,“濒临破产却靠融资起死回生成为市值700亿的独角兽企业”……这些信息,给我们创业者的感受就是——资本的力量... -
找投资?你需要知道的三件事!
前几天,有人问我去哪儿找投资人?比如,怎么找到徐小平投我?怎么找到真格基金的人?听到这个问题,我一口血喷出来。“我怎么去找投资人?”今天一个创业者,这句话一旦问出口,就别干了。因为在创业路上,比这个问... -
为什么人才辈出的企业都重视“职业序列”?
职业序列是人才系统重要的基础件,但是在实际运用中往往没被用好,其价值也普遍被低估。本文来自微信公众号首席组织官,作者左谦。本文主要观点将人才按照职业序列进行区分,本质上是尊重人的能力及志向的不同,实现... -
善用工具,事半功倍
工具是为了解决特定问题。选对工具,善用工具,才能事半功倍。管理是一门复杂的艺术,因为复杂,总会遇到各种各样的问题。 -
戴汨:凡人的生存法则
“神人”都有一个特点,他们无中生有的发明了一些东西或者发现了一种理论,从而改变了后世人类文明的进展。马斯克的SpaceX会不会继大航海之后,开启人类的星际文明,值得想象。 -
信任落在谁身上,谁就更有价值
人问我一个问题,为什么有些店很难复制,有些就比较容易。有些人很难做平台,有些人就可以。谁承载了用户的信任,用户的信任落在了谁身上,谁就是信任主体。 -
SaaS创业:我们为何要追求极致?
还有多少企业在用的App没有“深色模式”?难道企业App的用户就不是喜欢页面好看、操作体验舒服的个人吗?也许有人会说,我们给客户带来使用价值,不去追求表面的好看。那我们就来探讨一下 —— 我们为何要追...