日本搞逼视频_黄色一级片免费在线观看_色99久久_性明星video另类hd_欧美77_综合在线视频

國內最全IT社區平臺 聯系我們 | 收藏本站
阿里云優惠2
您當前位置:首頁 > 互聯網 > 語音、音頻技術的一點思考

語音、音頻技術的一點思考

來源:程序員人生   發布時間:2015-07-27 08:31:33 閱讀次數:2623次

語音和圖象、視頻1樣,是人與人之間溝通的交換方式。

語音信號處理是1門綜合性的學科,它與語音學、心理學、數字信號處理、計算機科學、模式辨認等有著密切聯系。

語音技術1般可以分為3大類:

 

1.人與人之間的通訊:語音增強、語音編碼、語音通訊、VOIP等  

簡單的說,以網絡為載體,實現人與人之間的語音通訊,觸及到語音前端去噪,增強,語音緊縮編碼等。

     語音增強、語音去噪等, 主要解決的是前端問題,單純的語音、音頻處理技術主要利用在嵌入式方向。

     開源的像Webrtc、Speex之類。

     VOIP、語音通訊主要對網絡協議等需求更多1些,VOIP和傳統移動語音通訊相比,主要體現在價格上的優勢,通話質量上和傳統相比還是有1定差距。 現在移動運營商的收益也在逐步減低,當價格上有所調劑時,VOIP估計也很難生存了。

這1類崗位主要集中在芯片類、通訊類、語音類、嵌入式、少數互聯網公司:高通、聯發科、展訊、科大訊飛、華為、思科、愛立信、哈曼、創新科技、微軟Skype、騰訊等。

     語音、音頻編碼,做標準的很少,單純做算法的也很少。主要需求集中圍繞著具體的芯片在代碼和性能做底層匯編優化,1般很少能觸及到算法層面的優化。

     開源的像ffmpeg 等,未來安卓平臺也會像蘋果1樣,都支持硬解,所以這方面就業情況更窄。

     

2.語音合成:

簡單的說,機器說話給人聽,代替人把相干的信息繪聲繪色的念出來。

主要流程:

    語音庫  訓練好模型

    文本分析,上下文語義分析,韻律分析,輸出語音參數

    語音合成器輸出

技術相對較為成熟,像HTS、Straight等,每塊模塊都非常重要,都需要深入研究,才能合成出高質量的語音,所以需要全部團隊成員配合。

功能:由文本產生語音,解放了用戶的雙眼。

利用:語音合成引擎,它的優化在于大范圍,任意文本組合發音,目前市場上有懶人說書、聽書之類的APP。

如果是小量的語音需求,完全用錄音就能夠代替,本錢低。

 

3.語音辨認和理解:

簡單的說,人說話,機器能夠聽懂,能夠依照人說的內容和唆使,代替人完成相干的操作。相干的還有說話人辨認、情感辨認、語種辨認、語音測評、語義理解等。

 

行業現狀:

傳統的語音公司:Nuance、科大訊飛、捷通華聲等。

傳統的軟件類公司:微軟、IBM等。

互聯網公司:云知聲、百度等。

 

1方面語音辨認是最難的語音技術,搭建好辨認平臺相對容易,有很多開源的項目,像HTK、Kaldi,但是本質進1步提高辨認率其實不簡單。

它包括了許多個模塊技術,門坎很高,數學功底深厚,這1類的人材更加希少。

首先,必須要準備好大量的語音庫,做好訓練和辨認。

其次,就算你只深入到語音辨認的某1項技術,首先必須搭建1整套辨認流程來檢測實驗的效果。

再者,基本上各個模塊都能影響到辨認率,特別是噪聲,所以也必須要熟習這些模塊。

最后,還有其它技術還在等著你,中文分詞、語言模型的訓練和建立、和后期的自然語言處理、語義辨認、云端服務等。

 

另外一方面,目前語音辨認盈利模式還不是很明朗,所以也決定了投入這1塊的人力也很稀缺。 

初期做這1塊的微軟和IBM基本上也不靠這個盈利,Nuance的贏利點主要在車載、醫療轉錄等,最后也是與蘋果合作,做了款SIRI,火了1把。

國內的科大訊飛,在辨認方向盈利也很低。

http://www.huxiu.com/article/9885/1.html

該公司的營收主要依托傳統業務如普通話測評、英語測評、呼喚中心、嵌入式語音導航和毛利率很低的信息工程業務。

所以“科大訊飛”、云知聲開放了自己的云平臺,提供免費API,給產品利用公司提高效力,下降本錢,侵占更大的市場,將語音技術融入到互聯網當中,必將會有1些小語音公司或團隊將會解散。

 

雖然如此,語音辨認依然是解決用戶與機器交互體驗性最好的方式,未來前景1片光明。

語音公司向來不依賴于員工范圍,關鍵的是幾個技術大牛,所以語音公司或部門人數比較少,令缺勿濫。

未來只有少數比較牛的團隊才能生存下來,其它的都會被Kill掉。


1方面,互聯網語音技術,用戶肯定免費,所以未來語音公司可能向第3方公司收取費用,也就是說,語音公司是給大多數公司提供解決方案,第3方公司給報酬。因此大公司BAT都有組建自己的語音團隊,不依賴第3方,效果據稱不錯。

另外一方面,語音技術公司未來可能會轉型,不單單給第3方公司提供語音技術支持,將技術轉化成產品,語音公司也將會開發直接面向用戶的產品,將盈利方式多樣化,所以未來利用開發的產品人員需求可能增多。


4.音樂技術:

聽音識曲,放個音樂片斷,能檢索出歌曲的名稱。

哼唱識曲:哼唱音樂片斷,能檢索出歌曲的名稱。

這個需求主要存在于互聯網音樂類軟件中,目前大多數播放器都有自己的檢索,其它主要依賴于音樂雷達。


從對語音、音頻技術來看全部技術行業:

技術里面,掌舵好方向,提供解決方案的人材是最重要的。

技術1般依賴于團隊,1個人很難撐起。

技術能細化成很多單元,每一個人精力有限,只是其中的1顆螺絲釘,只能深入1部份,了解全部全局。

不能夠單純弄技術,技術的尋求永久是無止境的。

技術更新是非常快的,特別是在開源的大趨勢下,所以在年輕的時候必須淘到錢。

做技術要像醫生1樣,做些有積累性的技術,利用面、公司比較需求比較寬的技術,這樣才會值錢。太窄的技術只會把人作死,除非是在大公司還可以換崗。

技術必須轉化成產品,必須有盈利才會持久。

做技術的同時,結交各種各樣的人材,多多開闊眼界,說不定,有1天,你需要他們,或他們需要你。

再感興趣的事情,干多了也會覺得沒啥意思,最后都是往錢看,特別是年齡越大的時候。

盡可能接觸1些產品,能將自己的技術沉淀到產品中,開發出1個自己的產品。

 

互聯網的精神是開源,最需的是創意、點子。

總而言之,技術全部產品線的1環,它是為了解決問題而存在,問題是由于用戶需求在,解決需求是由于有錢在推動。

生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關閉
程序員人生
主站蜘蛛池模板: 国产在线不卡 | 国产在视频一区二区三区吞精 | 久久久久久高清 | 91啪国产在线 | 久9re热视频这里只有精品 | 欧美一级久久精品 | 国产精品久久久久久久电影 | 亚洲福利在线观看 | 久久国产日本 | 亚洲精品电影网在线观看 | 久99久久| 精品久久精品 | 亚洲射| 精品一区二区三区免费观看 | 欧美成人免费网站 | 美女在线观看www | 天天综合久久 | 亚洲九九夜夜 | 成人午夜电影在线观看 | 夜夜操天天操 | 在线免费激情视频 | 日日草影院 | 在线免费黄色 | 污视频网站在线免费观看 | 日韩一区二区精品 | 日韩久久久久久 | 久久久综合色 | 国产乱码精品一区二区三区不卡 | 国产性―交一乱―色―情人免费看 | 国产成人av在线播放 | 日韩精品视频久久 | 国产精品一区二区无线 | 国产精品不卡 | 综合中文字幕 | 小受性瘾放荡的np文h | 香蕉久草 | 99爱在线视频 | 国产综合一区二区 | 欧美日韩精品免费观看视频 | 欧美一区二区三区免费观看 | 成人久久网 |