<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給陳孝良
      發送

      0

      語音交互的痛點,為什么扎克伯格精心打造的AI“賈維斯”還會出糗?

      本文作者: 陳孝良 2016-12-26 13:19
      導語:體驗扎克伯格“賈維斯”的尷尬,也正是當前語音交互技術升級期的尷尬。

      雷鋒網按:作者陳孝良,博士,聲智科技創始人,曾任中科院聲學所副研究員和信息化辦公室主任,中科院上海高等研究院客座,北京市公安局首屆網絡應急專家,主要從事聲學信號處理和 GPU 深度學習算法研究工作。

      最近扎克伯格在Facebook上傳的視頻---其驚心打造的AI管家“賈維斯”著實吸引了不少眼球,再次喚起了人們對人工智能未來的遐想和期望。以下是其在Facebook上的視頻,還沒有看的朋友可以戳進來看一下.

      扎克伯格Facebook展示AI語音管家“賈維斯”的視頻

      當記者到扎克伯格家中真實體驗的時候,“賈維斯”似乎并不給力,不僅連續多次呼叫“賈維斯”才有反應,而且還經常無法正確執行命令,特別是“賈維斯”似乎更不愛聽扎克伯格夫人的命令,唯一讓人寬慰的就是在播放歌曲方面還差強人意。

      為什么會出現這個情況?扎克伯格在博客中坦誠了問題:類似手機近場訓練的AI和類似Echo可以響應從任何角度命令的AI是不同的,后者顯然更加復雜而且短期內更適合垂直場景交互而不是通用語音交互。

      事實上,體驗扎克伯格“賈維斯”的尷尬,也正是當前語音交互技術升級期的尷尬。語音交互是人機交互最主要的方式之一,包括了聲學處理、語音識別、語義理解和語音合成等核心技術。

      聲學處理主要是仿真人類的耳朵,保證機器能夠聽得準真實環境下人的聲音,語音識別則是把聽到的人聲翻譯成文字,語義理解則分析這些文字的意義,語音合成就把機器要表達的文字翻譯成語音。這四項技術雖然獨立發展,但實際上無法割裂,同時在其他技術的配合下,才能形成一次語音交互的完整鏈條。

      從當前的技術水平來看,這四項技術已經達到了商業初級可用的階段,但是距離我們滿意還應該有3-5年時間的距離。即便是被國內幾家公司號稱最為成熟的語音識別,其實也在近場到遠場的技術升級期。

      以Siri為代表的近場語音識別已經發展了60多年,特別是在2009年以后借助深度學習有了實質性提高,但是正如扎克伯格所說的,當真正產品落地的時候,我們發現用戶真正需要的卻是類似Echo所倡導的遠場語音識別。顯然,這又是一個嶄新的技術領域,因為拾音距離的擴大帶來的問題不僅僅是語音信號的衰減,而且還帶來了復雜的真實環境以及復雜的用戶習慣。

      語音交互的痛點,為什么扎克伯格精心打造的AI“賈維斯”還會出糗?

      以Siri為代表的近場語音識別要求必須是低噪聲、無混響、距離聲源很近的場景,比如用戶總是要對著手機講話才能獲得符合近場語音識別要求的聲音信號,同時還要求用戶滿足標準發音,其識別率才有可能達到95%以上。但是,若聲源距離距離較遠,并且真實環境存在大量的噪聲、多徑反射和混響,導致拾取信號的質量下降,這就會嚴重影響語音識別率。同樣的,我們人類在復雜遠場環境的表現也不如兩兩交耳的竊竊私語。

      通常近場語音識別引擎在遠場環境下,若沒有聲學處理的支持,比如麥克風陣列技術的適配,其真實場景識別率實際不足60%。而且,由于真實場景總是有多個聲源和環境噪聲疊加,比如經常會出現周邊噪聲干擾和多人同時說話的場景,這就更加重了語音識別的難度。因為當前的語音識別引擎,都是單人識別模式,無法同時處理多人識別的問題。

      顯然,扎克伯格的“賈維斯”過渡到以Echo、機器人或者汽車為主要場景的時候,近場語音識別的局限就凸顯出來。為了解決這些局限性,利用麥克風陣列進行聲學處理的重要性就凸顯出來。麥克風陣列由一組按一定幾何結構(常用線形、環形)擺放的麥克風組成,對采集的不同空間方向的聲音信號進行空時處理,實現噪聲抑制、混響去除、人聲干擾抑制、聲源測向、聲源跟蹤、陣列增益等功能,進而提高語音信號處理質量,以提高真實環境下的語音識別率。通常經過聲學處理以后的真實場景語音識別率可以達到90%左右。

      事實上,以麥克風陣列為核心的聲學處理并不是什么新技術,聲學本來就是一個古老的學科,而且陣列處理技術早就在軍工領域廣泛應用。我們常常提到的雷達和聲納,實際上都是大規模的陣列信號處理技術,這是國防對抗的耳朵,機器學習還無法取代這些傳統技術。

      語音交互的痛點,為什么扎克伯格精心打造的AI“賈維斯”還會出糗?

      語音識別倒是50年代后才興起的新技術,我國的語音識別研究稍晚一些,1958年才起步,當時中國科學院聲學研究所利用電子管電路識別10個元音。由于各方面條件的限制,中國的語音識別研究工作一直處于緩慢發展的階段。直至1973年,中國科學院聲學研究所才開始了計算機語音識別。2009年以后,由于深度學習的突破以及計算能力和數據積累,才讓語音識別有了近20年來最快的發展,但是這也僅僅提高了近場語音識別的效果。最近幾年才開始興起的麥克風陣列技術就是為了應對遠場自由語音交互的需求。

      但是,麥克風陣列技術也有很多難點問題需要解決。麥克風陣列僅實現了真實環境中的聲音信號處理,獲得了語音識別要求的聲音,機器可以聽得見人的命令,但是這個命令所表示的文字和意義卻是云端所要解決的,因此端和云這兩個系統必須匹配在一起才能得到最好的效果。

      近場語音識別當前都是深度學習訓練的結果,而深度學習的局限就是嚴重依賴于訓練樣本庫,若聲學處理的聲音與樣本庫不匹配則識別效果也不會提升。從這個角度應該非常容易理解,物理世界的信號處理也并非越是純凈越好,而是越接近于訓練樣本庫的特征越好,即便這個樣本庫的訓練信號很差。顯然,這是一個非常難于實現的過程,至少要聲學處理和深度學習的兩個團隊配合才能做好這個事情,另外聲學信號處理這個層次輸出的信號特征對語義理解也非常重要。不僅如此,麥克風陣列處理信號的質量還無法定義標準,聲智科技正在盡力推動這個事情,但是難度非常大。

      從上面的描述小結來看,當前的麥克風陣列+近場語音識別的端云識別其實并不是理想的技術架構,因為這限制了將來技術的突破。麥克風陣列+遠場語音識別的方案應該是比較理想的,但是當前這面臨著兩個難題。

      其一就是讓諸如蘋果、微軟和谷歌等巨頭放棄近場語音識別的優勢本身就是一件很難的事情。當年諾基亞就是因為功能機的巨大成功才導致不敢All in錯過了智能機時代。所以語音識別領域才會有亞馬遜這類似乎不搭界的企業做出了迄今還算唯一成功的產品Echo。

      其二就是遠場標注數據的嚴重缺乏,而且這類數據暫時還無法直接付費買來。因為但凡我們雇人采集和標注數據,就很難讓大量的用戶遵循自然的方式來錄制聲音,這是人性難以避免的。這里可以做個簡單的實驗,如果非專業演員,若給你個腳本,你會怎樣去朗讀或者表達呢?

      “賈維斯”的喚醒也同樣面臨諸多問題,給人工智能產品取個名字是當前無法避免的問題,這和人類取名標示一樣,端上的聲學處理還要借助這個名字來進行測向和后續處理。因此語音喚醒也直接決定了遠場語音識別的效果,以Siri為代表的近場交互剛開始通過人工按鍵避免了這個問題,但是遠場交互則無法再借助人工參與的方式實現。

      遠場語音喚醒的難度現在比遠場語音識別還要大一些,其面臨的環境更加復雜,而且當前還沒有更令人欣喜的技術出現。語音喚醒技術目前主要還是參數式、拼接式和訓練式,參數式的方法主要是在芯片中應用,也幾乎被淘汰了。拼接和訓練其實類似,都是借助深度學習的模型實現,只是數據來源不同而已,拼接從大庫中剪裁數據進行訓練,而訓練則直接對用戶自定義的喚醒詞進行大規模數據采集和標注,然后再進行深度學習訓練。顯然訓練的喚醒效果會更好,這兼顧了用戶叫喚醒詞的語速、語調和口音,但是這項技術的成本非常大,需要覆蓋的用戶群體非常大,而且和上面識別中提到的難點一樣,采集的數據總是容易受到用戶刻意發音的干擾,實際上也很難做到真實,但是不斷的迭代會快速提升語音喚醒的效果。

      總的來說,“賈維斯”的尷尬其實是個普遍現象,遠場語音喚醒暫時還是個世界難題。這不是機器聽覺達到人類水平就能令人滿意的,假如突然有個老外叫我們的中文名字,我們的反應或許也不會太過敏感。事實就是這樣,我們還暫且不提遠場語音喚醒所要面對的復雜環境和多人喚醒問題,當前機器還只能勉強響應聲音最大的喚醒,還很難真的讓機器自主決策響應,這還需要時間去積累數據和迭代算法。另外也要強調下,語音喚醒和識別率并非只有一個詞錯率WER指標,還有個重要的虛警率指標,稍微有點聲音就亂識別也不行,另外還要考慮閾值的影響,這都是遠場語音交互技術中的陷阱。

      語義理解在當前遠場語音交互的地位暫時還不是太高,因為前面提到的各項技術實際上還在成熟之中,假如10個字錯了3個字,實際上語義理解就很難做了,特別是當前遠場語音交互中的語境缺失更是最大的障礙。舉個例子,我們隨機錄制一句純凈語音進行了一個實驗(簡單的比如人名),事實上平均超過60%的人無法準確寫出其中對應的正確中文。但是語義問題倒是有個工程化的解決方案,就是限制垂直場景,比如音箱、車機和安防等領域,這些場景單靠搜索也能解決用戶控制機器和簡單對話的問題。

      語音合成也是一個很大的麻煩,我以前有篇文章做了分析,從參數合成到拼接合成,以及谷歌的Wavenet和Amazon的Polly。我們現在的語音合成技術實際上越來越接近人類自然的流暢,但是還無法做到語調和語速的自適應變化。比如機器生氣了應該是什么聲音?機器害怕了又該怎樣?等等諸如此類的,這樣一算我們就明白了PPT公司所謂的人工智能又有多么可笑了。千萬先別談理解語言這個人類最為復雜的進化成果,就把我們所提到的種種問題做到用戶滿意真的就是謝天謝地了,也不要心存僥幸,這可能需要很多人很長的時間或許才有些收獲。

      遠場語音交互還面臨一個很大的難題,這就是軟硬一體化的問題,實際上很少有一項技術類似遠場語音交互這樣要求的鏈條如此之長。從硬件、算法、軟件到云端,缺一個鏈條遠場語音交互的效果就無法體現出來。硬件是所有算法和軟件的基礎,當前麥克風陣列的硬件體系還不成熟,包括麥克風器件和相關芯片,特別是在控制成本的前提下,很難達到語音信號處理的要求,這也是諸如亞馬遜、谷歌甚至微軟這類企業不得不做硬件的根本原因。硬件遲早會類似PC和手機一樣趨于成熟,但是推動產業鏈條的升級,特別是制造業的升級不是一朝一夕的事情,這個周期也必須要等待成熟。但是如果僅僅等待,很可能就是起大早趕晚集錯過了。

      因此,不難理解為何扎克伯格的“賈維斯”宣傳視頻與真實體驗之間的差別。遠場語音交互中的聲學處理、語音喚醒、語音識別和語音合成正處在從近場到遠場的技術升級期,語義理解更是剛生萌芽。雖然當前讓機器理解人類語言暫時還看不到希望,但是至少各項技術已經相對成熟,商業化的應用則會加速這些技術的成熟周期,甚至已經超過了芯片領域的摩爾定律發展速度。

      相信未來3-5年期間,我們會用上可以自然語音交互控制的人工智能產品,至少也能實現扎克伯格視頻中所演示的效果。所以這個行業的各家應該合作起來,共建標準共享成果,共同努力開發市場,人工智能時代我們國內更應該誕生更多偉大的企業。

      雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知。

      語音交互的痛點,為什么扎克伯格精心打造的AI“賈維斯”還會出糗?

      分享:
      相關文章

      專欄作者

      聲智科技創始人兼CEO,中科院聲學所博士
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 亚洲性av网站| 麻豆精品国产综合久久| 亚洲欧洲日产国码无码久久99| 熟女Www亚洲国产W| 尤物一区| 强d乱码中文字幕熟女1000部 | 色橹橹欧美在线观看视频高清| 囯产精品99久久久久久WWW| 久章草在线毛片视频播放| 亚洲AV免费| 免费A级毛片无码免费视频120软件| 亚洲国产另类久久久精品网站| 中文字幕av一区二区三区人妻少妇| 女人张开让男人桶出水视频免费版| 国产91丝袜在线观看| 少妇大胆瓣开下部自慰| 色噜噜狠狠色综合日日| 久久人人97超碰国产精品| 天美麻花果冻视频大全英文版| 九一看片| 亚洲精品国产suv一区88| 熟女丝袜国产| 东京热无码av| 综合一区二区三区| 无线乱码一二三区免费看 | 五月婷婷丁香色| 久久久久高潮毛片免费全部播放| 吉木萨尔县| 国产亚洲色婷婷久久99精品 | 视频一区二区三区福利在线| 欧洲性开放老太大| 成人福利国产精品视频| 精品国产品香蕉在线| 国产真实自在自线免费精品| 法国白嫩大屁股xxxx| 青青青亚洲精品国产| 丰满爆乳一区二区三区| 91亚瑟视频| 熟女熟妇伦av网站| 中文字幕熟妇人| 夜精品a片一区二区三区无码白浆|