專訪小 i 機器人CEO朱頻頻：聊天機器人進入深耕應用場景的時候，什么才是真正的殺手锏？

本文作者：宗仁

2017-08-31 17:47

導語：聊天機器人接下來要在學術會議中具體要學習到什么？實際應用場景中受技術影響的因素有多大？具體應用時要注意些什么？

雷鋒網按：今年的墨爾本IJCAI 2017上, 一眾中國公司參會并出現在其白金贊助商名單上，其中的小i機器人是8家贊助商名單中比較特別的一家，或許它的AI造勢不如BAT們來得那么聲勢浩大，但它的聊天機器人在垂直領域的深耕或許你早有耳聞，通信、金融、電子政務、電子商務、智能硬件這些在同行眼中比較難啃的傳統領域和新興領域它們都一一涉足，競爭對手形態則從單純的聊天機器人，客服機器人上升到深度語義平臺，云服務平臺等。如此，在單個領域，百度DuerOS、騰訊小微、思必馳、三角獸這樣級別的公司都可以算作它的“對手”，但小i機器人跟大家“交鋒”的時候方向跟對手各有細微側重，多個領域合力的結果，就是小i 聊天機器人在智能客服等領域“市場份額越來越大”，“各個垂直領域語言知識庫和業務知識庫也愈來愈豐富”，儼然一匹不可忽視的實力黑馬。

究其原因，其一是聊天機器人背后的語義識別的技術難度本來就大；其二是聊天機器人應用的具體細分領域，各自領域的行業壁壘并不低，沒有一定的行業積累和時間投入，對手很難在短時間內追上。但是聊天機器人接下來要在學術會議中具體要學習到什么？實際應用場景中受技術影響的因素有多大？具體應用時要注意些什么？在聊天機器人進入深耕應用場景的時候，又怎么通過學術會議更上一層樓？就此雷鋒網在IJCAI上特意訪問了小i機器人CEO朱頻頻。

關于IJCAI

采訪IJCAI澳洲主席的時候，他提到小 i 是國內第一個來贊助這個大會的，包括之前小 i 也出現在諸多人工智能大會的白金，黃金贊助商名單上，小 i 贊助學術大會的標準是什么？需求是什么？

中文自然語言處理在上個世紀年代已相對成熟，我們做的主要工作是在以前的NLP的基礎上把它工程化，以及解決在行業，領域實踐中的數據問題，去做一些整合工作，再不斷地迭代，形成自己在數據層面、引擎層面的壁壘。

我們來學術會議，會重點關注是不是有一些比較顛覆性的技術，可能會重新定義或改變以前的圖像識別，聲音處理，自然語言處理的方法。雖然目前DL已經極大地改變了圖像識別的方法，但在自然語言處理方面還不是那么的明顯，在學術上也有很多探索，但在實際應用中還沒有收到一個比較好的反饋，IJCAI作為世界頂尖的學術會議，里面有許多不錯的學生，最新的一些技術，以及跟世界最前沿的一些研究的對接。還有一點，最近國內發布的一些人工智能報告說的挺客觀的一個事實，其提到國內的人工智能并不落后，甚至在某些應用層面屬于領先，不過在原創和相對基礎的技術上，中國相對比較落后，這是我們要去關注最前沿會議的一個關鍵原因。

總的來說，我們參加學術會議的標準可以歸納為3點：向工業化靠近；跟語言語義比較相關的；相關會議中的國際頂會。

這次小i在IJCAI industry day的演講主題是《聊天機器人的產業應用實踐》，為什么選這個？您自己去聽了哪些演講，主要想學習或者了解到什么？哪些學術論文和討論讓您受到了啟發？

學術工作很多時候會關注在非常細的一些點，比如某個算法上可能會提升多少個百分點，這在工業應用上并非最關鍵的部分，最關鍵的部分其實是看這個算法的綜合效果，對數據的要求，或者基于數據的工作對整個系統的提升。

我自己聽了一個關于對文章標題的辨識（相符，有歧義，不符合）的相關論文報告，這個論文主要講通過機器學習，把提取關系的方法轉化成語義排序的方法，但這就是一種新的方法，效果好不好后面有待驗證。據我的了解，當它采用人工標注的方式去對主流門戶網站的媒體文章標題進行符合度辨識時，論文的調查結果很有意思。其中發現新浪搜狐文章標題的百分比顯示正常，今日頭條文章標題的misleading（不符合）的比例則達到了30%，我自己對此的理解就是，這個地方是個標題黨。另外還聯想到一個點就是知識圖譜，目前它的初始關系圖大都是人幫建的，然后要去做好本體，以及各個內在關系在語義上的描述，但我想目前這塊除了人工標注的方法，有沒有自動的方法？

接著說上面關于對文章標題黨的辨識論文的實際價值，同樣的工作，還有互聯網上非結構化的數據去尋找這樣的關系，我們更看重其可能可應用于幫助我們去發現和搜集規則，上面論文提到的排序法可能會出現一些噪音，不過通過這些噪音分析會不會反而會通向真正的解決辦法？答案當然是智者見智，主要看人怎么去參與，根據我們的實際經驗，最好的系統常常是用戶邊使用邊升級，所以可以嘗試用在數據挖掘中而非生產系統中，這是我暫時能想到的。

小i在學術研究上的合作院校有哪些？

目前有復旦，華東師范，中科院軟件所，中科院計算所，中科大（這個跟很多公司在合作）。另外我們在貴陽成立一個子公司，幫助他們建立大數據的人工智能平臺。今年聯合復旦實驗室投了論文，但沒做重點宣傳，換句話說，今年我們公司重心在做產業化，如果要定一個目標的話，希望稅后收入希望達到2億，去年是9000萬。

請總結一下您眼里小i本身在IJCAI的幾個亮點？

我認為主要有三點：

贊助位置比較靠前（排在中國8家贊助商中的第二），呵呵。
中國軍團抱團來參加（一定程度上說明中國的人工智能正處在全球領先的位置）。
在參展的8家中國公司中，我們體量不算大，但我們是一家純粹的人工智能公司，我們所有的收入都來自人工智能，并不是讓人工智能助力它原本的其它業務，人工智能對于他們來說或許只是一種工具或手段，但對我們來說是全部，這在國內并不常見，可能科大訊飛是屬于這一類的。

關于行業應用

語義識別，現在大公司百度DuerOS、騰訊小微，后起公司有科大訊飛，思必馳、三角獸，小 i 如何跟這些竟品差異化的？

人工智能技術是一系列技術，其它技術都呈現出這樣的狀態，門檻降低，現在大家不在乎你能不能做，而是能不能發揮價值，在一些細分應用場景，各自的創業公司都在涉足，比如用在電話里的call understanding跟用在手機里的語音轉寫是兩回事，遠場喚醒和語音降噪又是一回事。但我們現在更看重其要產生商業價值。

根據我們的觀察，basic AI很多公司都能提供，但能做得好的并不多，包括2012, 2013年我們跟訊飛有很多競爭，現在沒啥競爭了，因為各自有各自的產業方向，現在正確的說法應該是稍微交叉。另外，想做這個方向的公司不少，但現在能形成氣候的公司不多，在產業里能形成威脅的不多，不少人在走我們之前走過的路，很多初創公司在語義層面去做。

另外，有時候我們發現，目前95%的語義識別公司都在做2B業務，但語義識別里面能夠落地的目前就只有智能客戶等這些相對成熟的場景，一些初創公司一開始可以靠有趣的技術拿到天使投資，但要往A輪B輪靠的話，它就只能找到落地的商業模式了，這時候就需要找典型的客戶代表，所以我們會碰到一些創業公司以非常低的價格在跟客戶談，因為他們現階段急需案例和客戶。

你如何看待小 i 應用基因行程的關鍵折點？

嗯，我印象中比較深刻的幾個節點：

06年開始做智能客服2B的嘗試。
09年全面轉到2B的方式（當然到現在還沒到爆發階段）。
11年下半年中國運營商開始采用智能客服機器人（當時運營商開始增長之前，我們正好已經形成了我們產品化的套路，iBot 6.0已經成型了）。
11年10月份，蘋果Siri的發布，很大程度上把語音語義能力呈獻給消費者和人工智能從業者的眼中。
13年上半年，我們給招商銀行做了微信上客服機器人，這個之后影響非常大，其它銀行紛紛把微信的客服當作一種標配。

關于深度語義平臺

深度學習甚至增強學習的沖擊，有沒有對小i語義識別技術提升產生很大的影響？

根據我們的實際經驗，這兩類新的技術更多起作用的地方，是在數據挖掘，以及整個學習體系方面能起到不錯的效果，實際應用中的作用比預期要差很多。如果一定要說沖擊，很多AI創業者一開始的時候，會講其系統是用DL（深度學習）做的，用了最新的什么算法，以此來助力PR。

之前我們分析過國內所有做Customer Service的系統，大家的確都用了一些深度學習的技術，但在其中占的比例非常之小，但感覺大部分是用來做幌子做包裝的成分更大，在自然語音領域使用DL的有效度遠比在CV和云服務中用的要少。通常做自然語言理解方向又分為兩類：

一類是百度那種面對巨大data開放的；
一類是用在data儲備沒有那么大的商業領域。前者可能深度語音識別的用處比較大（機器學習從非結構化的數據中提取結構化的數據，再進行一定的人工智能判斷，開放型的這類平臺可能更傾向于從龐大的數據里挖掘出來潛在的某種關系，譬如知識圖譜關系的自動搜取就很有潛力）。

但就我們智能語音客服里邊用處比較小，2B業務更強調業務上的邏輯，比如多輪對話，動態交互，我們更看重做一些scam架構提前預知，幫到用戶使用的時候快速把場景建立起來，這個過程有一些商業價值。目前一些創業公司做這個做得還不錯，通過把一些big data的分析，把機器學習和某些算法把一些常見的場景定義清楚，再變成一個圖形化的操作界面，使得用戶覺得非常方便，這樣用戶就不用關心底層技術，只要知道我已經預知了某些模型，模型只要定義一些具體的參數，導進來一些數據，結果就會自動出來。

總的來說，我們需要預知商業客戶的常見需求，建立模型，然后方便它不斷激烈商業邏輯上的數據。案例見多了，預測和洞察能力就會建立起來。

2016年小i機器人發布最強大腦2.0平臺；2017年小i機器人發布小 i 中文深度語義開放平臺VS Machine Mind OS，這個迭代之間，應用了什么新的技術？

我們今年的主要目標是深度語義，之前我們做智能客服的時候沒人做，現在這個已變成一種剛需，使用比較久的客戶，它會關注解決一系更深入的需求；
中小客戶和剛剛創業的客戶更關注FAQ的搜索。

基于這樣的大前提，也是為了兼顧我們的產品定位，我們分成了basic AI和deep AI，主要通過云服務和標準版服務往外輸出，（在有標注的前提下，能讓用戶快速上手；deep AI很多能力是小i獨家的能力，知識圖譜的推理不少研究機構就有，我們的方法更容易獲得有效的擴展，多意圖的理解，我們找到了一種非常有效的方法來解決這一類問題）。

舉個例子，比如“上海的天氣怎么樣，上海的特產是什么？”——“上海的天氣”是個問題，“上海的特產”是個問題，但你不可能求做個新問題就是“上海的天氣和特產是什么”，其實你在背后做組合，兩個問題組合成一個問題，這種情況下背后在做很多推理工作。深度神經網絡很大的一個問題是，它本身對于自然語義是不理解的，它只是基于一定特征的基礎上做一個映射，一旦情況有些變化，它需要對整個句子進行學習和構建。所以現在大家常用的方法，是如何用DL對針對比較大的數據，結合以前的先驗知識，共建一個效果最好的方法。譬如我們對話引擎中會用到一個主引擎，一個副引擎，副引擎在特殊情況下啟動的。

另設計一個好的DL架構也不容易，好比AlpaGo做的圍棋系統，FB也在做，但前者一開始的架構設計比較好，包括它自己幾千萬盤的自我對弈，之前人類棋局中都沒出現過。

小i的中文深度語義開放平臺能夠應用于智能客服、智能知識庫、智能IVR、實體機器人、智能硬件等多種場景。我想問基于一個平臺，應用于多個場景，這其中技術上，不變的地方是哪部分？要變的地方是哪部分？

如果你去做一套獨立系統的話，這件事情相對簡單, 但我們需要把AI的技術提供給我們客戶，不同客戶系統的版本都不一樣，這會對體系的架構擴展要求非常高，這樣我們會把我們的體系分成幾個不同的模塊，每個模塊之間用比較松散耦合的模塊在組合。不同領域的客戶，哪些是共通的，總結一下就是：

底層的，引擎的，邏輯，處理能力是共通的。
各個領域的語義庫，知識庫，上層應用是不同的，前面的交互渠道是不同的，開發的時候要把一些共通的部分預知到里面去，并對一些基礎的API提供二次開發的空間。

其中的語義和知識庫是最不同的，不同領域的語義其詞類不同，句子的平行語料不同，詞和詞之間訓練的權重模型也不一樣，不同領域的詞類不一樣。以銀行為例，不同的銀行客戶，銀行語料庫是可以共用的，但知識庫不一樣，70%，80%層面問題是相同的，答案很不一樣，業務邏輯中，有的需要跟云和圖像結合起來，這些地方挑戰較大。還有一些客戶會要求這套系統部署到自己的私有云服務器里去，要多解決很多問題，要適配不同的系統，中間層面的軟件，不同的數據庫，甚至不同的網絡安全策略。

通常我們的應對辦法就是，系統部署都要做好適應二次開發的心理準備（用戶界面，動態數據，第三方登錄用戶權限），對接多了后就會把這些定義成幾個基礎的接口。更重要的是知識層面的，分清哪幾個類別，原始素材的地方和形式（FAQ還是文檔，在線人工智能客服的形式），開始做之后有個測試的過程，80% ok后再上線，上線之后還有個運營的過程，從自身網站怎么學習，從第三方網站來的怎么去學習。

小結：

常年在學產兩界“跑場”的人都知道，一般學術界做的東西會比產業界發現它提前3-5年，然后學術界比較成功的demo可能兩年后就能在產業界出現了，慢一點的5年也有可能。自2015年人工智能恢復火熱以來，中國產業界公司出現在各種國際頂會已經成為學術會議的一道特殊風景，它們不僅關心學術界的前沿研究，還從資金、數據和計算力上實打實地支持學術界的研究，雖然投入巨大，學術到產業之間的轉化周期也不算短暫，但各家公司都在研究和研發之間尋找合理的平衡，尋找學術學術投入和產業價值之間合理的轉化百分比。

雖然不能短時間內立竿見影，但大家對于學術的投入還是很熱衷，在學術方面的積累對于技術方面的壁壘建立，以及給予技術壁壘后續更多的想象空間，還是有長遠意義的一件事，新加入的AI公司在踐行，早就深耕應用場景的小i機器人在踐行，不過后者以過來人的姿態參與，顯得更有借鑒意義一些。

專訪小 i 機器人CEO朱頻頻：聊天機器人進入深耕應用場景的時候，什么才是真正的殺手锏？

雷鋒網注：圖為朱頻頻在IJCAI Industry Day上受邀做《聊天機器人的產業應用實踐》的報告瞬間。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

4人收藏

宗仁

專注AIR(人工智能+機器人)

專注人工智能+機器人報道，經驗分享請加微信keatslee8（請注明原因）。科學的本質是：問一個不恰當的問題，于是走上了通往恰當答案的路。

掃描關注作者微信

發私信

當月熱門文章

專訪小 i 機器人CEO朱頻頻：聊天機器人進入深耕應用場景的時候，什么才是真正的殺手锏？

關于IJCAI

采訪IJCAI澳洲主席的時候，他提到小 i 是國內第一個來贊助這個大會的，包括之前小 i 也出現在諸多人工智能大會的白金，黃金贊助商名單上，小 i 贊助學術大會的標準是什么？需求是什么？

這次小i在IJCAI industry day的演講主題是《聊天機器人的產業應用實踐》，為什么選這個？ 您自己去聽了哪些演講，主要想學習或者了解到什么？哪些學術論文和討論讓您受到了啟發？

小i在學術研究上的合作院校有哪些？

請總結一下您眼里小i本身在IJCAI的幾個亮點？

關于行業應用

語義識別，現在大公司百度DuerOS、騰訊小微，后起公司有科大訊飛，思必馳、三角獸，小 i 如何跟這些竟品差異化的？

你如何看待小 i 應用基因行程的關鍵折點？

關于深度語義平臺

深度學習甚至增強學習的沖擊，有沒有對小i語義識別技術提升產生很大的影響？

2016年小i機器人發布最強大腦2.0平臺；2017年小i機器人發布小 i 中文深度語義開放平臺VS Machine Mind OS，這個迭代之間，應用了什么新的技術？

這次小i在IJCAI industry day的演講主題是《聊天機器人的產業應用實踐》，為什么選這個？您自己去聽了哪些演講，主要想學習或者了解到什么？哪些學術論文和討論讓您受到了啟發？