<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      智能硬件 正文
      發私信給張丹
      發送

      1

      機器人聊天的秘密|雷鋒網公開課

      本文作者: 張丹 2016-12-16 15:10 專題:雷峰網公開課
      導語:本期公開課請到了開放域聊天和 chatbot 頂尖專家——三角獸科技的 CTO 亓超,為大家揭開機器人聊天的秘密。

      語義理解簡單來說,就是讓計算機聽懂用戶說了什么,然后可以進一步回答用戶的問題或與用戶對話。這類技術在現實場景中的應用有大家比較熟知的微軟小冰與百度度秘。錘子手機中 Bigbang 功能也是基于語義理解技術中的語義分析功能進行的創新。本期公開課請到了開放域聊天和 chatbot 頂尖專家——三角獸科技的 CTO 亓超,為大家揭開機器人聊天的秘密。

      | 嘉賓介紹:

      亓超,自然語言處理方向碩士,AI領域開放域聊天和chatbot頂尖專家,10年科研與工程經驗。

      曾在佳能、騰訊、阿里負責推薦算法和人機對話系統研發;2014年微軟小冰開放域聊天技術創始人;百度T8Lead;度秘聊天技術負責人;從零寫了微軟小冰和百度度秘唯一兩款目前有實際應用的交互系統。

      機器人聊天的秘密|雷鋒網公開課

      | 講課實錄整理:

      雷鋒網:可以簡單介紹下三角獸嗎?

      亓超:三角獸科技成立于今年年初,核心技術方向是人工智能交互系統,目標成為智能生活軟硬件背后的主流交互系統,團隊現接近三十人,以BAT微軟樂視等一線AI團隊為主。 

      CEO王卓然,University College London PhD,在英國10年,從事理論機器學、統計機器翻譯,自然語言處理、語音聊天系統、統計對話系統、 多模態人與機器人交互、水下無人艇人機交互等多方向研究和實踐。在頂級國際會議與期刊上發表多篇論文,曾是百度T8Lead,度 秘App/小度機器人中控策略技術負責人。

      COO馬宇馳,中國傳媒大學新聞媒體管理方向學士,10年市場和品牌經驗,連續創業者,曾做過微信微博營銷公司,2014年O2O廚師上門公司由 徐小平投資。曾在Viacom集團中國區CBSOut door服務可口可樂、統一、愛國者3年。曾在奧美公關任Intel筆記本處理器公關經 理,主推“酷睿”兩個字。曾在Amway China負責企業品牌和廣告投放工作。

      技術合伙人陳華榮,中國科學院計算機軟件與理論專業碩士,在微軟工作11年,2013-16年Bing和Office的Exchange部門高級Lead,2005-10年在微軟亞 洲研究院研制Exchange12和14,2010-13年,微軟西雅圖總部研發Exchange15。

      技術合伙人王寶勛,哈爾濱工業大學計算機科學博士,微軟小冰首席機器學習科學家,發表多篇國際學術論文,學術經驗積累深厚。第二到第四代核心高級 研發工程師,負責小冰智能對話引擎、圖像智能對話引擎、垂直領域對話引擎等核心技術。

      技術合伙人李彥,上海復旦大學計算機科學專業碩士,前樂視推薦算法高級Lead,曾在阿里、人民搜索擔任推薦算法方向工程師,后在百度聯盟事業部、 360商業產品事業部任高級研發工程師。

      戰略合伙人何晉,北京科技大學設備工程學士,廚臨門戰略合作合伙人,靈境VR渠道總監,前百度和美團外賣全國連鎖餐飲大客戶部項目負責人 

      技術上,在開放領域聊天系統,任務驅動的人機對話系統,搜索及推薦引擎技術等方面有深厚的積累,商業客戶,IoT行業標桿客戶,如Rokid,錘子,威馬汽車,騰訊等,另外為這些客戶提供的支持也是不一樣的,開放域聊天,錘子領域應用,多輪對話,語義技術都有,證明了我們技術實力和技術到產品落地的能力

      資本融資4月份洪泰和天善1000萬天使,8月君聯和賽富2000萬preA,目前正在A輪的路上,計劃春節前close。

      錘子新一代手機Big Bang功能的核心算法模塊,Rokid機器人聊天系統,威馬汽車車載前裝的音樂和導航模塊,此外,還有一些推進中的項目,其中包括3家巨頭公司,4家手機,2家車載后裝,和一些機器人公司,以及為消費者提供信息和提供服務的企業客戶。

      雷鋒網:在您看來,目前語義理解技術主要用在哪些場景和應用里?

      亓超:語義技術是自然語言處理(NLP)方向很重要的一個部分,三角獸科技優勢和積累也主要在NLP方向。

      自然語言處理(NLP) 的研發有很久的歷史,特別是在互聯網發展起來后, 在很多場景里都有應用例如:

      •   搜索引擎中的排序算法及廣告推薦系統

      •   機器翻譯, 輸入法

      •   電商, 視頻, 及新聞的個性化及推薦系統

      •   等等

       這些系統的背后都會涉及到NLP問題。

      雷鋒網:國內語義理解技術的現狀是怎樣的呢?

      亓超:國內NLP及相關的技術目前BAT,360等互聯網大企業都有不錯的積累。其他互聯企業也有非常好的算法團隊, 例如今日頭條等等。

      很多產品線,例如百度度搜索,都會有各自的算法團隊在支持, 其中NLP的算法支持占了比較大的比例,單從NLP基礎技術本身, 百度和MSRA的NLP團隊無論從規模和深度上都有強大優勢,國內的大學里哈工大在這個方向有強大的實力和積累,創業公司在這方面會面臨人才稀缺的壓力, 比較難形成一個很好的算法團隊。

      雷鋒網:相比做語音識別的公司,提供語義理解的團隊看似要少一些,其中的難點是什么? 

      亓超:兩者在各自方向上都有各自的難點。

      語音識別和合成相對語義理解來說, 技術上相對成熟。并且很早就作為相對獨立的服務進行包裝, 較為容易進行產品的落地。 例如,地圖服務的導航功能 包含了識別與合成兩部分。另一方面從事語音技術的公司起步都比較早, 例如科大訊飛, 云知聲, 思必馳等, NLP相關技術落地到具體產品也非常依賴于應用場景,相關團隊多在大公司里作為某個產品線的算法團隊來進行支持 

      雖然越來越受到關注, 但NLP及相關算法人才特別是有經驗的從業者仍然非常稀缺, 促使從業者的收入水平較高, 人力成本占了比較大的比例。另外如果是ToC的商業模式, 那么運營成本也會占去較大比例

      雷鋒網:理解中的語義理解公司往往需要大量標記好的語料數據,這些數據如何形成?

      亓超:

      • 1. 并不是所有NLP問題的解決都要依靠大量標注數據, 問題的解決方案也分統計方法的和規則方法的,這個好比要擰一個螺絲使用普通螺絲刀還是電動螺絲刀,電動螺絲刀需要電,普通的不需要;

      •  2. 數據標注也并不一定是要純靠人來進行操作, 很多結構化和半結構化的信息可以用來讓機器進行學習, 例如電商的打分及評論數據可以用來進行觀點分類的學習任務;

      •  3. 未標注的語料很多時候的作用是很大的, 例如目前比較熱門的DNN技術, 在很多場景下是使用未標注的數據進行數據及特征的表示學習。

      雷鋒網:就三角獸而言,我們目前有多少這樣的數據?

      亓超:數據是我們的核心資源,數據抓取及建設會是我們長期的重點。以我們開放領域聊天系統依賴的數據舉例:

      •   百億級的人人對話數據(未標注生語料);

      •   億級的面向不同任務的有標簽或輔助信息的數據(未標注數據, 但可以進行數據處理后, 針對不同任;務可以用與進行機器學習任務);

      •   千萬級的有豐富標簽精品數據(采用人機結合的方法進行標注, 形成精品語料);

      •   已有并正在建設的百萬級的標注數據(采用人機結合的方法進行標注, 形成精品語料, 每天新增數萬條)。

      雷鋒網:無論小冰還是度秘,都在最初注入了大量關聯業務或者公開的數據(據說小冰是微博、度秘是貼吧),三角獸怎么解決冷啟動的數據問題的?

      主持人:小冰及度秘使用的大部分數據都是互聯網公開可見的數據(例如BBS或社區等人與人間的對話數據), 這些數據無論是大公司還是小公司都是可以公平獲取的。三角獸成立之初便已開始在各大bbs和社區進行大量的數據的抓取及語料的清洗。

      雷鋒網:一個完整的聊天機器人或者多輪對話系統,應該包含哪些技術模塊?

      亓超:聊天系統及對話系統是個龐雜的系統模塊 有張技術分解圖share給大家來參考。

      機器人聊天的秘密|雷鋒網公開課

      雷鋒網:看到圖片中對不同的模塊進行了顏色區分,可以詳細介紹下嗎?

      亓超:最下面這一層是依賴的基礎技術系列 上面藍色這層是利用基礎技術構造的基礎技術模塊,中間橙色是利用基礎技術模塊構造的子系統,上面兩層是將子系統進行封裝 對外提供打包服務api應用層。

      雷鋒網:多輪對話系統開發起來,與單輪對話系統的差異主要是哪些?

      亓超:其實嚴格來講, 沒有單純的單輪對話系統 涉及對話系統一定是要考慮上下文的處理, 例如訂票場景下,用戶與機器之間需要進行多次的需求描述、澄清及確認過程來完成訂票任務。單輪更偏向于信息獲取的系統, 例如搜索引擎及問答系統。

      雷鋒網:您當時是小冰團隊唯一負責核心算法的工程師,開創了開放域聊天系統。可以詳細介紹下什么是開放域聊天技術嗎?開放域聊天技術與傳統用關鍵字、模板或者人工參與的聊天技術的不同之處是什么?

      亓超:開放領域聊天中的開放是指對用戶不限定領域, 不會出現像Siri發布之初只能回復特定問題, 超出范圍的返回搜索引擎結果, 另一方面聊天以一種模擬人類日常對話的方式進行自然的人機對話, 不同于一個冷冰冰的工具。

       開放域聊天系統中也有關鍵詞及模板的方法作為輔助,我們主打的兩個技術方向是:

      •   1. 檢索式聊天系統: 基于幾十億量級人人對話, 使機器人進行人的聊天模式的模擬;

      •   2. Sequence To Sequnence 端對端的 生成時聊天系統: 利用數據量的精品人人對話語料, 利用RNN等相關技術訓練對話模型, 使機器具備對話的能力, 目前主要用于兒童聊天方向。

      這兩種方法的基礎都是統計和機器學習, 關鍵詞及模板的基礎是NLP方向中常用的另一種方法規則系統。

      無論是檢索式還是生成式, 相對于純規則的聊天系統來講:

      •   1. 產品體驗更好, 聊天回復生動不死板(每個用戶的query 都有較多的回復候選);

      •   2. 系統能力增長空間大, 更易利用到用戶反饋及消費大數據的福利;

      •   3. 更易于引入個性化等因素。

      雷鋒網:在情緒、情感識別一塊,國內相對薄弱,我們有哪些技術儲備?

      亓超:在文本內容中進行情感或觀點分類,國內這塊其實也不弱。在百度等大的互聯網企業這部分也有不少產品點已經商用, 例如百度搜索結果中的觀點抽取及聚合。情緒的處理是我們聊天系統中非常重要的模塊,目前主流的方法會使用到DNN相關的技術對文本進行表示并進行分類任務, 這塊我們也早已用到我們對外的聊天商用服務中, 并會在將來繼續擴大這部分的使用場景。例如,情緒分類觸發回復中加入表情 及 針對用戶情緒分類的結果進行回復的篩選。

      雷鋒網:Bigbang以及Rokid的產品投入應用之后,有沒有發現一些不滿意的地方,可否展開講講?

      亓超:Big Bang發布后, 我們受啟發和鼓勵很大, 后續我們會進一步將對話系統中成熟的模塊及技術, 拆解出來, 與手機系統綁定, 實現更多更好的手機體驗, 同時也能將真實場景下技術迭代帶來的收益反饋到對話系統里。

      Rokid與我們的合作在三角獸成立之初的4月份便開始合作,一直非常愉快, 后續我們會進一步加大在兒童及家庭場景下聊天及對話系統的研發投入

      雷鋒網:感謝亓超老師的精彩分享,以上是雷鋒網準備的所有問題,本次課程主干部分結束,亓超老師還有什么要分享的嗎?

      亓超:我補充兩張聊天系統架構圖給大家參考。

      機器人聊天的秘密|雷鋒網公開課機器人聊天的秘密|雷鋒網公開課

      第一張圖是我們服務整體架構的示意圖 解釋依賴的模塊以及服務間的關系,另一張圖分別介紹了檢索式聊天和生產式聊天的原理。

      | 聽眾問答整理

      Q:“語義理解有很多公司再做,圖靈,訊飛等,三角獸跟他們有什么不同呢?”

      A:訊飛的在語音技術方面,有絕對領先的優勢,我們目前主要焦點在文本內容的處理,語義技術是其中核心技術之一,我們頗為互補,目的是做整套自然語音交互系統。圖靈跟我們的業務有較大重疊,三角獸科技的團隊成員在之前經歷并打磨出市面上兩款較為成熟的產品,小冰和度秘在對人機交互系統的理解上相對較深 并由此也有很多應用與基礎技術的積累。

      Q:設計聊天機器人最重要的因素是什么?to b 端和to c 端的有什么區別? 

      A:聊天機器人要體現智能的特點:死板一問一答,缺少變化,只能回答特定問題等等都會體驗很差。另一方面,要有“學習”能力,通過人機對話數據的積累和反饋得到能力的提升。額外,在不同場景下,聊天機器人的角色也要實時發生轉變 提供服務功能。這好比,餐廳服務員在上班的時候要提供點餐的功,下班后角色發生轉變,會跟朋友一起聊天分享。

      Q:對語義理解是基于大量的語料,而互聯網詞匯翻新速度這么快,并且有大量矛盾的語義理解,這些要如何判斷處理?

      A:互聯網數據的大量更新累計是我們能做好聊天機器人的基礎。好比是招待客人,沒有菜,就算廚藝再好,也沒辦法做一桌菜出來。我們在數據處理上已經建立起了一套數據處理的系統 能很快消化新的語料和數據 。

      Q:在industry中,比較熱門的NLP算法有哪些?有什么優點和缺點? 

      A:目前比較熱門的方法大多是統計機器學習的方法 其中近幾年逐漸興盛的DNN相關技術 (在文本上長使用 CNN 和 RNN)占了主導。主流學術會議上 DNN 相關的論文,占了非常大比例。另一方面,在之前里,規則專家系統占主導,一個完整的系統兩種方法都需要用到,一般情況是用統計機器學習的方法,砍大刀處理大部分問題,規則的方法作為補充,來剃小刀,處理一些exception的問題。

      機器學習用到的數據來源,有分人工標注的和非人工標注的數據,機器學習的方法也會分為有監督的和無監督的,數據準備并沒有特定統一的原則和標準要根據任務情況來定。舉例說明,我們在訓練用于判斷兩句話是否在語義一致的模型上(例如不客氣 是否能回答 謝謝),用大量的人與人之間的真實對話,去除掉含有對話背景(例如具體人名 具體時間),后拿了訓練 RNN 和 CNN 模型 。

      Q:請問嘉賓,對模型進行訓練的數據準備方面,能否介紹一下?

      A:機器學習用到的數據來源,有分人工標注的和非人工標注的數據,機器學習的方法也會分為有監督的和無監督的,數據準備并沒有特定統一的原則和標準,要根據任務情況來定 舉例說明 我們在訓練用于判斷兩句話是否在語義一致的模型上(例如不客氣 是否能回答 謝謝)用大量的人與人之間的真實對話 去除掉含有對話背景 (例如具體人名 具體時間)后拿了訓練 RNN 和 CNN模型

      Q:我一直很好奇微軟小冰的開放式回答結果該如何調教,比如對某個答案不滿意,要怎樣讓她修改?

      A:小冰目前應該不支持來自用戶的調教。研發的調教會從兩個方面進行:語料擴充,模型迭代。

      Q:在車載的語音交互的使用場景中,您認為是開放式的交互比較好,還是封閉式的交互比較好。開放式指的是隨便用戶怎么說,封閉式指的是用戶只能說固定的指令。

      A:指令性式必須的。例如導航、音樂這些主功能。從我們跟車載設備商的溝通中反應,其實司機在開車過程中,還挺愛聊的。所以,只有指令性的功能,無法滿足這個場景下的所有需求。我們也在跟車載設備的合作伙伴合作打磨開放式的交互系統。

      最后亓超老師說:“智能交互系統技術的廣度與深度方面都比較復雜。以上單純一個點展開來講,也都需要很長時間,在這里 拋磚引玉,詳細細節也希望在今后能跟大家經常一起討論。”

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      分享:
      相關文章

      編輯

      如果你讀了我的文章,也想和我聊聊,歡迎加微信451766945
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 中文亚洲av片不卡在线观看| aⅴ天堂αv国产| 毛片a久久99亚洲欧美毛片| 乱人伦人妻系列| 国产一级AAAAA片免费| 孕妇高潮太爽了在线观看免费| 97无码精品人妻免費一区二区| 美女网站免费福利视频| 黑人无码av| 视频一区二区三区四区不卡| 中文字幕无码人妻| 办公室强奷漂亮少妇视频| 91日本视频| 久久伊人色AV天堂九九小黄鸭| aaa少妇高潮大片免费看| 最新成免费人久久精品| 99精品在线观看| 中文字幕在线人妻视频| 色吊丝永久性观看网站| 国产乱妇乱子视频在播放| 色悠久久久久综合网国产| 亚洲精品成人a?v| 国产成人无码av一区二区在线观看| 狠狠撸狠狠插| 91精品91久久久久久| 国产av麻豆mag剧集| 影音先锋资源| 亚洲免费人成在线视频观看| 欧美性受xxxx白人性爽| 国产精品亚洲а∨天堂2021| 凤城市| 天天摸天天做天天爽天天舒服 | 国产成人亚洲日韩欧美| 一二三四中文字幕日韩乱码| 亚洲精品精华液| 黑森林福利视频导航| 欧美顶级metart裸体全部自慰| 国产制服丝袜在线观看| 日本久久久久久免费网络| 国模冰莲自慰肥美胞极品人体图 | 国产在线精品一区二区在线看|