0
2017年底起,翻譯機成為人工智能硬件的熱門品類。搜狗是最早發(fā)布AI翻譯機的公司之一,以語音和翻譯為核心技術(shù)的AI硬件也已然成為搜狗的重點投入領(lǐng)域。

9月19日,搜狗新品AI翻譯機——搜狗翻譯寶Pro正式上線。9月25日,搜狗召開了一場媒體溝通會,搜狗CEO王小川也來到現(xiàn)場與媒體暢談搜狗翻譯寶Pro。
搜狗翻譯寶Pro有多種顏色,采用鋁合金機身,手感不錯。搜狗翻譯寶Pro的主頁面很簡單,主要有三個功能模塊:語音翻譯、拍照翻譯、錄音備忘。點擊語音翻譯后可以選擇需要翻譯的語言,雷鋒網(wǎng)編輯選擇了中文翻譯為英文。機身側(cè)面有一紅一藍兩個按鍵,按住藍鍵可以開始錄音,紅鍵可以播放翻譯結(jié)果。

搜狗翻譯寶Pro在線翻譯支持42種語言實時互譯,不僅支持中文和其它41種語言互譯,還可以實現(xiàn)42種語言互相雙向翻譯;離線翻譯支持中英日韓4種語言互譯。
不少人剛接觸到搜狗翻譯寶Pro這款產(chǎn)品時,會有驚艷的感覺,主要來源于語音技術(shù)與翻譯技術(shù)結(jié)合產(chǎn)生的火花。如果你想把你說的中文翻譯成英文,那么只需要在搜狗翻譯寶Pro上設(shè)定中文轉(zhuǎn)英文,然后錄下你說的中文,搜狗翻譯寶Pro會自動翻譯成英文,并且將其讀出來。在此前,使用翻譯軟件都需要手動輸入文字,得到翻譯結(jié)果后,使用者還會面臨無法讀出翻譯結(jié)果的問題。語音識別技術(shù)和語音合成技術(shù)使得翻譯寶就像是私人隨身翻譯官,你只需要自然地說話,就能完成跨語言的交流。
目前,手機上的在線翻譯軟件也已經(jīng)實現(xiàn)了自然的對話翻譯。但是搜狗翻譯寶Pro這款產(chǎn)品卻有其獨特的存在價值:離線翻譯。離線AI翻譯和離線語音技術(shù)是手機硬件難以攻堅的兩大堡壘。
翻譯機的火爆其實源于AI翻譯技術(shù)的進步。2016年9月,谷歌推出了神經(jīng)網(wǎng)絡(luò)翻譯(Neural Network Translation),顛覆原來的的統(tǒng)計翻譯方法,大幅度提升機器翻譯的質(zhì)量。2016年11月,搜狗上線了神經(jīng)網(wǎng)絡(luò)翻譯技術(shù),并且不斷進行技術(shù)迭代,2017年7月升級為Transformer-NMT機器翻譯。2017 年 5 月份,搜狗參加了國際頂級機器翻譯評測 WMT,獲得了中英機器翻譯全球第一。
神經(jīng)網(wǎng)絡(luò)翻譯對算力要求極高,由于手機的硬件達不到要求,目前主要是借助云端的能力,而一旦手機沒有網(wǎng)絡(luò),AI翻譯就無法使用。搜狗翻譯寶Pro是專為AI翻譯定制的硬件,其全部的硬件能力都用來支持離線的AI翻譯。搜狗第一代旅行翻譯寶就已經(jīng)用到了離線的Transformer-NMT機器翻譯。
據(jù)雷鋒網(wǎng)了解,微軟、谷歌等公司也都在嘗試離線神經(jīng)機器翻譯技術(shù),將深度學(xué)習(xí)模型壓縮到手機可以管理的大小。但是在王小川看來,手機能支持的離線神經(jīng)機器翻譯技術(shù)與翻譯機還是有相當(dāng)大的差距,并且手機還沒辦法做離線的語音識別和語音合成。
離線AI翻譯之外,離線語音識別和語音合成是另一個手機硬件還未邁過的檻。搜狗目前的語音識別準(zhǔn)確率已經(jīng)達到97%,在線和離線語音識別模型也幾乎一致。語音識別是語音翻譯的第一步,其重要性可想而知,語音識別準(zhǔn)確才能保證后續(xù)翻譯正確,如果識別錯了一個字,很可能導(dǎo)致整句話的翻譯全部錯誤。現(xiàn)在手機上還無法實現(xiàn)如此高準(zhǔn)確度的語音識別模塊。
雷鋒網(wǎng)編輯在現(xiàn)場體驗了搜狗翻譯寶Pro的在線中英翻譯和離線中英翻譯,從語音識別、翻譯速度、準(zhǔn)確性方面都難以感受到兩者之間的差別。
搜狗翻譯寶Pro采用3.1寸高清觸摸屏。在一些人看來,翻譯機沒有做屏幕的必要,設(shè)計觸摸屏后跟手機還有什么區(qū)別?然而,從體驗來看,大屏幕確實是必要的。

前面解釋了語音識別對于整個語音翻譯起著決定性的作用,用戶確保翻譯準(zhǔn)確的一個重要步驟就是從屏幕上確認語音識別結(jié)果的準(zhǔn)確性,如果語音識別結(jié)果準(zhǔn)確,那么翻譯就不至于錯得太多。
此外,屏幕對拍照翻譯至關(guān)重要。目前僅有為數(shù)不多的幾家翻譯機有拍照翻譯的功能。在日常的語言翻譯需求中,除了對話之外,圖像里的內(nèi)容也占據(jù)了很大比率,例如:路牌、菜單、印刷品、網(wǎng)絡(luò)內(nèi)容等。
搜狗翻譯寶Pro的拍照翻譯采用了搜狗自研的OCR圖像識別技術(shù),能夠識別出圖像內(nèi)包含的文字內(nèi)容,然后經(jīng)過斷字斷句之后進行翻譯。OCR技術(shù)能應(yīng)對光線、曲面、角度、透視、畸變等拍照狀態(tài),可以覆蓋多種場景。還可以做到理解圖像的排版,將翻譯后的內(nèi)容以原圖的排版和格式呈現(xiàn),方便查看。
2018年3月,搜狗發(fā)布AI翻譯機——旅行翻譯寶,主打出國游語音翻譯。近年來,中國出境旅游人數(shù)逐年上漲,2017年出境游人數(shù)超過兩千萬,這是一個龐大的市場。而二代AI翻譯機的名字里去掉了“旅行”兩個字,將目光鎖定了更多的場景,例如商務(wù)、英語教學(xué)、體育賽事等。王小川談到,一開始叫“旅行翻譯寶”是為了在進入市場時有一個明確的定位和目標(biāo)人群,但是我們發(fā)現(xiàn)除了旅游之外,這款產(chǎn)品還有更加廣闊的需求。

搜狗翻譯寶Pro主要的功能有語音翻譯、拍照翻譯、離線翻譯、口語練習(xí)、錄音備忘等。口語練習(xí)就是搜狗翻譯寶Pro拓展的又一垂直領(lǐng)域。搜狗發(fā)現(xiàn),翻譯機這款產(chǎn)品面對的是有語言翻譯需求的人群,這一人群同時也會有語言學(xué)習(xí)的需求。口語練習(xí)可以通過語音識別來清晰地記錄用戶的發(fā)音,然后比對正確的發(fā)音,指出用戶的發(fā)音問題。
9月17日,搜狗和中網(wǎng)舉辦合作發(fā)布會,宣布搜狗翻譯寶Pro為中國網(wǎng)球公開賽官方唯一指定翻譯機。網(wǎng)球賽事成為搜狗翻譯寶Pro的一大新的領(lǐng)域。
可以看出,搜狗翻譯寶Pro的功能和場景都在不斷增加。這也帶來了一個疑問,搜狗翻譯寶Pro會越來越像手機嗎?有什么事情是搜狗翻譯寶不會做的呢?王小川談到,搜狗翻譯寶會一直專注于語音和翻譯,不會做語音和翻譯之外的事情,而是會選擇手機上無法實現(xiàn)的功能來做。
近兩年,搜狗已經(jīng)將AI作為其長遠的戰(zhàn)略方向,圍繞“自然交互”和“知識計算”兩大方向做以語言為核心的人工智能,核心的產(chǎn)品主要圍繞輸入法、搜索、同傳和翻譯。王小川透露,在今年年末,還會有三款令人意想不到的AI硬件推出,其中一款將具備同傳功能。
王小川說,這三款A(yù)I硬件將給人耳目一新的感覺。對此,雷峰網(wǎng)(公眾號:雷峰網(wǎng))將持續(xù)關(guān)注,并跟蹤報道。
相關(guān)文章:
2018 NLP領(lǐng)域持續(xù)火爆,廠商挖空心思尋找落地場景
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。