互联网

您的位置:主页 > 互联网 >

依图科技入局语音赛道AI独角兽为何高调换轨?:宝盈官网

发布日期:2021-03-15 23:30浏览次数:
本文摘要:现在行业巨头都建立了自己的智能语音生态系统,国外有IBM、微软公司、Google等,国内有百度、蚂蚁、科大通讯飞、Sogou和云知声。但是这次,四大AI独角兽之一的伊图技术也在月球上获得了入场券。12月11日,图技术今天发表了中文语音识别技术方面的最近突破,在世界上仅次于中文开源数据库AISHELL-2中,图短语音问答的字错误率(CER )仅为3.71%,约比原行业领导人高20% 另外,据图科学技术现场报道,微软公司Azure和华为发表了两项新的合作。 为什么这个时候进站?

宝盈集团

现在行业巨头都建立了自己的智能语音生态系统,国外有IBM、微软公司、Google等,国内有百度、蚂蚁、科大通讯飞、Sogou和云知声。但是这次,四大AI独角兽之一的伊图技术也在月球上获得了入场券。12月11日,图技术今天发表了中文语音识别技术方面的最近突破,在世界上仅次于中文开源数据库AISHELL-2中,图短语音问答的字错误率(CER )仅为3.71%,约比原行业领导人高20% 另外,据图科学技术现场报道,微软公司Azure和华为发表了两项新的合作。

为什么这个时候进站? 对插图来说,从计算机视觉转移到语音识别是一个巨大的冲刺,因为行业巨头林立,入驻者比插图更早获得市场份额。但是,图的首席创造者吕昊博士表示,现在的语音识别技术发展太多,与面部识别的正确性相比,语音识别的发展现在很慢,无论是学术界还是工业界,都对语音市场寄予很大的期待,这意味着著未来充分发挥了空间语音识别技术只是在几十年前发展起来的,从50年代的贝尔研究所到890年代的美国和日本,在这个技术上的突破,从软件到硬件都有进展。

我国的语音识别研究始于1958年,在随后的《863计划》中语音识别成为最重要的课题,中国的语音识别技术开始转向切实的研究阶段。但是,由于语音场景简单,技术革新依然处于缓慢状态,目前只应用于更好的场景。现在业界有些机构宣传认识技术超过了人类的水平,但大多来自安静、近场等有限环境下的结果。

电话、语音节目、远视野、混响、噪音、口音、语音节目等简单场景必须根据目的开发不同的模型。“但是技术不能束缚我们的想象力。

」吕昊离开了依图的首席创造者近一年,去年年底辞去了在谷歌的工作,离开了生活了10年的美国,回国后再次参加了依图。他确实在语音识别领域,虽然图像技术是新产生的,但目标是发挥构筑业界拐点的作用。“依图入局语音市场的初衷是出于好奇心,打算用算法技术展开实际问题的解决问题。

我们在AI领域做了很多年,我们知道了人工智能的解读和展开的应用。”。我们可以看到,AI作为解读世界的最重要的组成部分,每个人都进行交互,作为嵌入的最重要的入口,语音识别剪切了沿着图的AI布局。在这次的官方中,“第一次转移到语音行业”的讨论很多,但实际上,根据图,有喝醉的领域,语音和意思的相关技术以前在医疗相关产品中展示过,但没有发表。

鲁昊坦率地说,科大通信实现语音技术确实是业界领先的,但科大通信的语音有多好,以及与其他语音的距离有多近,——只不过是半透明。准确率在业界水平为98%-99%,在什么情况下测量是没有人能评价的。实质上,入局语音市场还有一个要素。

吕昊也全告诉他了(公众号:)。“工业界现在实现语音识别的水平已经比学术界多,部分公开发表数据集的性能提高了1~3倍。

工业界现在搞语音技术的只有这些,要在学术界推进商业模式,由于数据成本非常低,可能没有额外的路径。干脆自己做吧。”合作巨头:有华为和微软公司,语音市场的入场券更晚了这次,自由选择了新路线。根据图,并不是以“孤独英雄”为目标。

因为航道和微软都是自由选择和依图站在一起的。在发布会现场,微软公司的Azure发布了插图语音开放平台,并不向第三者开放,以前两家公司宣布在智能语音领域将有新的动作。另外,根据图,华为将推出“智能语音牵引解决方案”。

该解决方案还基于图中的语音开放平台和华为的全栈全场景上模(Ascend )系列芯片和面向数据中心外部的Atlas 300 AI加速度卡向第三方公开。“我们始终认为核心技术的突破仍然是当前破局中文语音识别发展的关键。

”吕昊回答。目前,AI产业链包括在基层、技术层和应用层中。

bbin宝盈国际

在某种程度上,智能语音识别也由这三层组成。基于大量数据积累、深度神经网络模型的发展和算法的递归优化,近年来语音识别的准确率大幅度提高,外部也在大型测试结果中仔细观察了“与人匹敌”、“与人相近”等词语。

但是,语音识别领域还不存在两条线:3%和15%。一般来说,字符错误率超过3%会影响字符的可读性,达到15%时则没有什么可读性,体验好感会大幅下降。

根据场景的不同,表达可能会有很大差异。特别是在中文语音识别技术领域,中文的博大带来的同音不表示同意等问题,对语音识别处理的游戏性带来很大的挑战,明显影响最后的体验。

记者招待会上,如图所示发售的中文语音识别算法与业界前领导人相比,精度大幅度提高。最近公开的AI shell-2的三个测试子集、来自第三方的近场口音测试集、近场安静聊天测试集、语音节目测试集、电话测试集、远程测试集,图中的错误率全部在15%以下(未超过红外线) AISHELL-2是AISHELL Foundation和希尔贝壳发布的开源数据库,数据规模约为1000小时,是目前世界上仅次于中文开源数据库。这是来自1991名中国不同口音区域的发言人参录音,经过专业语音编辑拉丁化表示,通过严格的质量检查,数据库文本正确率在96%以上。值得一提的是,在ai shell2- 2018 a-eval数据中,基于图的识别精度高达96.29%,字错误率(CER )仅为3.71%。

进入最多100亿美元的市场,如图所示,自己的“还年长”智能语音技术是人工智能最成熟期的技术之一,因为享有相互作用的自然性,所以具备很大的市场空间。根据中国语音产业联盟的《2015中国智能语音产业发展白皮书》数据,2017年世界智能语音产业规模将首次达到100亿美元,超过105亿美元。中国2017年智能语音产业规模也将首次突破100亿元,5年填充增长率将达到60%。

到目前为止,科大通信发表了2018年Q3报告。前三季度建设收益比上年增长56%,为52.83亿元,主要是因为AI相关领域的研究开发投入、生态系统构筑的投入、教育、政法、医疗、智力城市等重点课程的市场布局投入持续增大。科大通信飞高级副总裁、研究院院长胡国平在公开场合作出响应,科大通信飞在语音识别错误率方面每年上升30%以上。鲁昊坦率地说,从数据量、入局时间等观点来看,与BAT、科大的差距很多,但作为新秀,看到市场变化缓慢是真正有机会的,以这个发布会的形式让外部了解语音市场的现实。

对于语音开放平台发布后场景的落地,鲁昊现在没有特别致力于某一场景,而是推出普遍的语音开放平台,南北通用化,从外部动员API,在不同场景下作业阿尔有趣的是,根据插图在现场发表了“问答大会”的微信小程序,使用户能够在最多60秒内直观地感受到语音识别技术的现实。业界也首次公开发表了半透明体验算法的水平差异。语音识别技术近年来发展的语音市场转向了新的玩家,出现了异常的热度,作为严重关注的AI领域,认识到了近年来语音识别技术发展的基本轨迹: 2017年3月,IBM采用了LSTM模型和具有三种强大声学模型的WaveNet语言其中集中于拓展深度自学应用于技术,进而取得了5.5%的错误语亲率突破。

2017年8月,微软公司通过改进微软公司语音识别系统中神经网络的听力和语言模型,2016年减少了约12%的错误率,错误率为5.1%。2017年12月,谷歌发布了新的从终端到终端的语音识别系统(state-of-the-artspeechrecognitionwithsequence-to-sequence models ),错字亲率减少到5.5 2018年6月,阿里巴巴达摩院推出了新一代语音识别模型DFSMN,全球语音识别精度记录减少到96.04%,错误语亲率减少到3.96%。2018年10月,云从科学技术推出了新的Pyramidal-FSMN语音识别模型,将wer(worderrorrate )减少到2.97%,比以前提高了25%。

当然,今天必须记住基于2018年12月11日图的这次语音开放平台发布会。车站在AI的十字路口,根据图技术更进一步。

原创文章,发布许可禁令刊登。以下,听取刊登的心得。


本文关键词:依图,科技,入局,宝盈集团,语音,赛道,独角,兽,为何,现在

本文来源:宝盈集团-www.biquge01.net

微信扫码 关注我们

  • 24小时咨询热线

    24小时咨询热线034-324517046

  • 移动电话11116930126

Copyright © 2006-2020 www.biquge01.net. 宝盈集团科技 版权所有 地址:黑龙江省绥化市青冈县费算大楼80号 备案号:ICP备41704118号-3 网站地图 xml地图