加入收藏 | 设为首页 | 会员中心 | 我要投稿 宿州站长网 (https://www.0557zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营 > 正文

讯飞输入法创始人:从一个Demo到4亿用户,我的一些思考和努力

发布时间:2017-01-08 18:25:48 所属栏目:运营 来源:馒头商学" />
导读:副标题#e# 去年锤子手机发布会上,科大讯飞语音输入法强势被关注。从2010年直到2016年被追捧前,它是如何“默默无闻”从一个idea做到4亿用户?这款产品是如何从0到1,再从1到10? 和馒头妹妹一起看看这篇文章,9分钟后,你就能了解这背后。 来源:馒头商学

对于语音输入来说,刚开始大家最关心的是识别率的问题,这个功能是能否达到使用水平的一个核心门槛。我们分析认为,识别率至少要达到一定的指标,比如说95%以上,这样的功能,其实就可以达到一个使用的门槛。可以讲,讯飞是最早迈过这个使用门槛的公司。

在2012、2013年的时候,我们的整体识别效果就已经达到这个水平了。

在2014年的时候,我们达到了97%的水平。这个识别率可以说已经是业内第一了。

对于语音输入来说,很多用户在用的过程中也发现这样的一些问题。

2.不用联网就能语音输入,克服了网路条件不稳定问题

初期我们最先关注的是关于网络的依赖问题。我们的语音输入虽说基于云架构,整个系统的迭代非常快,但是令用户比较困扰的其实是它比较依赖网络,特别是初期。

那时我们的4G还没有普及,网络条件还不稳定。即便是4G时代,现在在高铁上或者是一些信号盲区如果用语音输入其实还是比较痛苦的。另外,对于流量,很多用户还是在意的,虽然语音输入并不能占太多的流量,但是他心里面仍然有这个考虑。

对于网络的依赖,我们也想了一些办法去解决,最终我们的方案就是用在线加上离线的语音。这里的挑战在于,对离线语音一样是需要强调它的识别的效果的,另外还有它在手机端的响应速度也是一大挑战。

我举个简单例子让大家知道这个挑战有多高。因为我们在线语音是在服务器上计算的,从技术角度上讲,我们要做到现在的效果,需要依赖的资源通常都是按几百G上T的一个量级去做的。大家知道,我们现在在手机端能放的语音资源,如果是离线语音包我们能做到30M以内,最大的语音包也就控制在100M以内。所以,要保证效果好这个资源差距是很大的。

另外,就是服务器都是用GPU去做运算,或者说多核的高效能CPU。目前手机端虽然号称是8核、16核,但是跟服务器的配置仍然是完全不能比的。所以,怎样在手机端也能做到计算解码过程呢?这些其实是一个巨大的技术挑战。

但是我们确实在离线语音上做到了,我们现在整个的离线语音的效果已经超过了90%的初步使用门槛。而且,我们还做到了对网络状况做智能的判断,确保在线和离线无缝的结合。

刚才提到为什么通用效果达到一定门槛之后就很难再突破?其实这里有个人差异的部分在里面,有环境的影响在里面。因为我们实际使用语音,并不是那么理想化的。

什么叫理想化?就是不但我的环境要足够地安静,我的普通话也要足够的标准。但是,平时我们实际使用并不是这样的,我们的环境有很多噪声的干扰,而且我们每个多多少少都会带一点口音。

3.个性化语音

讯飞输入法创始人:从一个Demo到4亿用户,我的一些思考和努力

所以,这些问题会导致我们的通用识别有一些错误。对于这种错误,我们针对性的方案是考虑去做一些个人学习的部分。

(编辑:宿州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读