<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
      人工智能 正文
      發(fā)私信給黃善清
      發(fā)送

      0

      眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      本文作者: 黃善清 2018-11-14 09:37 專(zhuān)題:KDD 2018
      導(dǎo)語(yǔ):模型假設(shè)每個(gè) learner 都有指數(shù)型的記憶遺忘曲線,并且能夠保證教學(xué)的有效性,多樣性,以及教學(xué)樣本的質(zhì)量。

      雷鋒網(wǎng) AI 科技評(píng)論按:本文為亞利桑那州立大學(xué)在讀計(jì)算機(jī)博士生周耀的獨(dú)家投稿,他給大家介紹了一個(gè)基于機(jī)器教學(xué)為基礎(chǔ)的自適應(yīng)交互型眾包教學(xué)框架——JEDI ,它假設(shè)每個(gè) learner 都有指數(shù)型的記憶遺忘曲線,并且能夠保證教學(xué)的有效性,多樣性,以及教學(xué)樣本的質(zhì)量。作者的原論文入選了今年的 KDD 會(huì)議。以下為投稿全文。

      在很多機(jī)器學(xué)習(xí)的問(wèn)題中,一個(gè)模型的表現(xiàn)往往取決于標(biāo)注數(shù)據(jù)集的數(shù)據(jù)規(guī)模和標(biāo)注質(zhì)量。很多的監(jiān)督式機(jī)器學(xué)習(xí)(supervised learning)模型,尤其是深度學(xué)習(xí),都需要大量的標(biāo)注數(shù)據(jù)來(lái)進(jìn)行模型訓(xùn)練。比如說(shuō),ImageNet 是一個(gè)廣為人知的用于計(jì)算機(jī)視覺(jué)領(lǐng)域的圖像識(shí)別,物體檢測(cè),物體定位的數(shù)據(jù)集,里面包含了 1400 萬(wàn)張有人工標(biāo)注和分類(lèi)的圖片。然而,很多的研究者都比較關(guān)注如何能夠有效的使用這些數(shù)據(jù)進(jìn)行模型設(shè)計(jì)和改良,卻只有比較少的研究在跟進(jìn)如何更有效的獲得這些高質(zhì)量的大規(guī)模標(biāo)注數(shù)據(jù)。目前互聯(lián)網(wǎng)存在的,人為標(biāo)注的大規(guī)模數(shù)據(jù)集通常都會(huì)使用眾包(crowdsourcing)技術(shù)來(lái)進(jìn)行標(biāo)注。

      眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      圖 1:深度學(xué)習(xí)和 ImageNet

      相比較于外包數(shù)據(jù)集給專(zhuān)業(yè)公司做標(biāo)注,眾包標(biāo)注的優(yōu)勢(shì)有以下幾點(diǎn):

      1.  價(jià)格低廉。很多非職業(yè)的標(biāo)注者(worker)愿意以較低的報(bào)酬在一些平臺(tái)上,比如說(shuō) AMT(Amazon Mechanical Turk),幫助科研工作者或者公司來(lái)標(biāo)注數(shù)據(jù)。

      2. 標(biāo)注周期短。因?yàn)閷?duì)于標(biāo)注質(zhì)量的要求并不是很?chē)?yán)格,放置在眾包平臺(tái)的數(shù)據(jù)往往可以在短期內(nèi)得到標(biāo)注。

      3. 標(biāo)注數(shù)量大。在眾包的標(biāo)注平臺(tái)上,一般每個(gè)數(shù)據(jù)(item)都會(huì)得到多個(gè)標(biāo)注者的標(biāo)注,因此每一個(gè)數(shù)據(jù)都會(huì)得到大量的冗余標(biāo)簽。

      眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

       圖 2:眾包標(biāo)注的平臺(tái)

      圖 2 和圖 3 是一個(gè)典型的眾包標(biāo)注的例子:目標(biāo)是讓 worker 把圖片的類(lèi)型標(biāo)注為兩類(lèi):馴化的貓,野生的貓。如果 AMT 給出了圖 2 中的 item,大多數(shù)的 worker 都可以很容易的給出正確的標(biāo)簽。

      眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      圖 3:眾包平臺(tái)的標(biāo)注者標(biāo)注一個(gè)簡(jiǎn)單的家貓圖片

      然而,很多時(shí)候,圖片標(biāo)注也需要一些專(zhuān)業(yè)知識(shí)。圖 4 中的貓,對(duì)與一些 worker 來(lái)講,就不是很好辨別這只貓是馴化過(guò)的還是野生的。比如說(shuō),和動(dòng)物打交道比較多的 worker 就可以相對(duì)容易的解決這個(gè)標(biāo)注問(wèn)題,但是一個(gè)不太有經(jīng)驗(yàn)的小女孩就可能給出錯(cuò)誤的標(biāo)簽。因此,對(duì)于一個(gè)特定的標(biāo)注問(wèn)題,worker 和 worker 之間有著標(biāo)注能力的差異,這種差異也會(huì)在標(biāo)注的時(shí)候在他們給出的標(biāo)簽上體現(xiàn)出來(lái)。這種差異往往會(huì)對(duì)眾包標(biāo)簽融合的算法帶來(lái)一些挑戰(zhàn)。

       眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      圖 4:眾包平臺(tái)的標(biāo)注者標(biāo)注一個(gè)比較難的家貓圖片

      目前,比較成熟的眾包標(biāo)簽融合的算法主要有兩類(lèi)方法:

      1. 第一類(lèi)方法主要是用收集的眾包標(biāo)簽對(duì) worker 的標(biāo)注能力進(jìn)行估計(jì),然后在標(biāo)簽融合的過(guò)程中加大優(yōu)秀 worker 的權(quán)重并且降低較差 worker 的權(quán)重。

      2. 第二類(lèi)方法一般是通過(guò)設(shè)計(jì)更好的激勵(lì)機(jī)制(incentive mechanism)來(lái)引導(dǎo) worker 提供更優(yōu)質(zhì)的 label。

      然而,現(xiàn)在常用的方法都忽略了一個(gè)很重要的事實(shí),那就是:相比于機(jī)器,人類(lèi)是非常擅長(zhǎng)學(xué)習(xí)一個(gè)新的概念(concept),而且可以很容易的將所學(xué)的概念很好的泛化并且轉(zhuǎn)移到相似的問(wèn)題中。圖 5 中,人類(lèi)可以通過(guò)看一些插畫(huà)展示從而學(xué)會(huì)如何正確標(biāo)注家貓和野貓的圖片。因此,一個(gè)更有效的使用眾包標(biāo)注的方式其實(shí)應(yīng)該是在監(jiān)督 worker 標(biāo)注的同時(shí)對(duì)他們進(jìn)行教學(xué)(teach)。

      眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      圖 5:人類(lèi)的學(xué)習(xí)和泛化遷移能力

      基于機(jī)器教學(xué)的眾包教學(xué)框架——JEDI

      為了充分利用 worker 的學(xué)習(xí)能力,我們提出了一個(gè)基于機(jī)器教學(xué)(machine teaching)的眾包教學(xué)框架 JEDI。首先,我們會(huì)先介紹什么是機(jī)器教學(xué)?機(jī)器教學(xué)其實(shí)是機(jī)器學(xué)習(xí)的反過(guò)程。如圖 6 所示,如果給予一個(gè)數(shù)據(jù)集和一個(gè)算法(e.g. SVM, Logistic Regression),機(jī)器學(xué)習(xí)的目標(biāo)是在模型空間(model space)里學(xué)習(xí)一個(gè)概念(concept)。然后,對(duì)于機(jī)器教學(xué),目標(biāo)概念(target concept)和算法是已知的,最終的目標(biāo)是找到最優(yōu)的數(shù)據(jù)集。關(guān)于數(shù)據(jù)集最優(yōu)的定義可以很多元化,e.g. 數(shù)據(jù)集規(guī)模最小,學(xué)習(xí)速度最快,等等。

       眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      圖 6:機(jī)器學(xué)習(xí)和機(jī)器教學(xué)

      我們提出的 JEDI 眾包教學(xué)實(shí)際上是 adJustable Exponentially Decayed memory Interactive Crowd Teaching 的縮寫(xiě),JEDI 的特點(diǎn)是:

      1. 自適應(yīng)教學(xué),每個(gè) worker/learner 的教學(xué)過(guò)程都是不同的。

      2. 記憶遺忘,每個(gè) worker/learner 都會(huì)在學(xué)習(xí)的過(guò)程中逐漸遺忘過(guò)往所學(xué)。

      3. 指數(shù)衰減,記憶遺忘的曲線是呈指數(shù)衰減的。

      4. 交互教學(xué),worker/learner 和 teacher 是有多次交互的。

      關(guān)與交互教學(xué),圖 7 是一個(gè)簡(jiǎn)單的例子:

       眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      圖 7:交互式教學(xué)

      如圖 8 所示,JEDI 的每一輪教學(xué)(這里假設(shè)是第 t 輪)包括以下三個(gè)步驟:

      1. Teacher 估計(jì) learner 的學(xué)習(xí)進(jìn)度,根據(jù) learner 之前的標(biāo)注反饋得到上一次的學(xué)習(xí)概念,然后 teacher 向 learner 推薦一個(gè)新的樣本進(jìn)行教學(xué)。

      2. Teacher 向 learner 展示教學(xué)樣本(隱藏樣本真實(shí)標(biāo)簽),要求 learner 提供他自己對(duì)當(dāng)前樣本的標(biāo)注標(biāo)簽。

      3. Teacher 展示樣本真實(shí)標(biāo)簽,learner 辨識(shí)樣本真實(shí)標(biāo)簽,并結(jié)合樣本本身進(jìn)行概念學(xué)習(xí)。

       眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      圖 8:JEDI 的交互式教學(xué)示意圖

      學(xué)生(learner)模型:

      - 每一個(gè) learner 的學(xué)習(xí)過(guò)程都假設(shè)遵循梯度下降的規(guī)律:

      眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      - 我們進(jìn)一步假設(shè)每一個(gè) learner 對(duì)于學(xué)過(guò)的 concepts 的可收回度(retrievability)呈指數(shù)型遞減:

      眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      老師(teacher)模型:

      - Teacher 的目標(biāo)是通過(guò)教學(xué)減少 learner 學(xué)到的當(dāng)前概念(current concept)和目標(biāo)概念之間的差異,所以教學(xué)的目標(biāo)方程是:

       眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      - 這個(gè)目標(biāo)方程可以被分解,具體細(xì)節(jié)請(qǐng)參考論文:

      眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018 - 如果我們將預(yù)測(cè)錯(cuò)誤的概率簡(jiǎn)寫(xiě)為如下表達(dá),總體的教學(xué)目標(biāo)可以進(jìn)一步簡(jiǎn)化為:

       眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      JEDI 模型的具體運(yùn)作

      JEDI 模型理解:

      - 教學(xué)有效性(usefulness)和教學(xué)多樣性(diversity)的平衡(tradeoff):JEDI 的目標(biāo)函數(shù)經(jīng)過(guò)簡(jiǎn)化,優(yōu)化問(wèn)題的目標(biāo)函數(shù)會(huì)包括有效性和多樣性兩部分組成。直觀的來(lái)講,這個(gè)平衡意味著 JEDI 可以通過(guò)最大化下一個(gè)教學(xué)樣本的有效性和最大化教學(xué)樣本之間的多樣性從而引導(dǎo) learner 向著目標(biāo)概念的方向?qū)W習(xí)。

      眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      圖 9:教學(xué)有效性和多樣性的平衡

      - 探索(exploration)和利用(exploitation)的選擇:如圖 10 所示,如果 teacher 選擇的下一個(gè)教學(xué)樣本 xt 和上一個(gè)教學(xué)樣本 xt-1 有標(biāo)簽相同,我們稱(chēng)之為利用(exploitation);如果 teacher 選擇的下一個(gè)教學(xué)樣本 xt 和上一個(gè)教學(xué)樣本 xt-1 有標(biāo)簽不同,我們稱(chēng)之為探索(exploration)。

      眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      圖 10:教學(xué)中的探索和利用

      - 教學(xué)樣本的質(zhì)量:如果上一個(gè)教學(xué)樣本 xt-1 是一個(gè)有效性(usefulness)比較低的樣本,JEDI 眾包教學(xué)可以保證下一個(gè)教學(xué)樣本 xt 具有以下特性:

      •  在 exploitation 的教學(xué)場(chǎng)景下,teacher 會(huì)推薦跟 xt-1 特征非常不同的教學(xué)樣本 xt。因?yàn)?xt-1 的有效性比較低,同一個(gè)類(lèi)型(class)的但是特征(feature)非常不同的樣本可能會(huì)有比較高的教學(xué)有效性。

      • 在 exploration 的教學(xué)場(chǎng)景下,teacher 會(huì)會(huì)推薦跟 xt-1 特征非常接近的教學(xué)樣本 xt。因?yàn)椴煌?lèi)型(class)的但是特征(feature)非常接近的樣本可能會(huì)有比較有代表性,從而有較高的教學(xué)有效性。

      眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      圖 11:JEDI 教學(xué)的教學(xué)樣本

      真實(shí)場(chǎng)景的教學(xué):

      - JEDI 教學(xué)在現(xiàn)實(shí)場(chǎng)景中是無(wú)法直接估計(jì) learner 學(xué)到的當(dāng)前概念 wt 的,因此我們?cè)?JEDI 里使用原目標(biāo)函數(shù)的下限來(lái)解決這個(gè)優(yōu)化問(wèn)題:

       眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      - JEDI 教學(xué)也需要樣本的預(yù)測(cè)為正類(lèi)的概率和預(yù)測(cè)為負(fù)類(lèi)的概率作為輸入,這兩個(gè)參量也不是直接給予的,我們使用 harmonic function 來(lái)對(duì)他們進(jìn)行估計(jì):

      眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018總結(jié):

      JEDI 是一個(gè)基于機(jī)器教學(xué)為基礎(chǔ)的自適應(yīng)交互型眾包教學(xué)框架,它假設(shè)每個(gè) learner 都有指數(shù)型的記憶遺忘曲線,并且能夠保證教學(xué)的有效性,多樣性,以及教學(xué)樣本的質(zhì)量。

      具體信息請(qǐng)參考我們的論文:

      http://www.public.asu.edu/~yzhou174/ 

      源代碼:

      https://github.com/collwe/JEDI-Crowd-Teaching 

      demo 展示:

      http://198.11.228.162:9000/memory/index/ 

      視頻講解:

      https://www.youtube.com/watch?v=345o0QazwO8&t=4s 

      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

      眾包標(biāo)注質(zhì)量不穩(wěn)定?讓機(jī)器給標(biāo)注工上個(gè)課吧! | KDD 2018

      分享:
      相關(guān)文章
      當(dāng)月熱門(mén)文章
      最新文章
      請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
      姓名
      電話
      郵箱
      微信號(hào)
      作品鏈接
      個(gè)人簡(jiǎn)介
      為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
      您的郵箱還未驗(yàn)證,完成可獲20積分喲!
      請(qǐng)驗(yàn)證您的郵箱
      立即驗(yàn)證
      完善賬號(hào)信息
      您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說(shuō)
      主站蜘蛛池模板: 人妻少妇嫩草AV无码| 亚洲午夜亚洲精品国产成人| 91超碰在线精品| 色综合亚洲| 少妇人妻偷人精品免费视频| 中文字幕乱码熟女人妻水蜜桃| 野花社区在线观看视频| 天堂8在线天堂资源bt| 色综合欧美在线视频区| 亚洲国产成人字幕久久| 国产办公室秘书无码精品99| 日韩一区二区三区三四区视频在线观看| 亚洲无aV在线中文字幕| 欧美阿V| 国产羞羞的视频一区二区| 日本一区二区视频在线播放| 国产免费无码一区二区| 五月天天爽天天狠久久久综合| 亚洲国产成人精品综合| 成年女性特黄午夜视频免费看| 特黄aaaaaaaaa毛片免费视频| 国产精品国产三级国产a| 亚洲中文字幕无码一区| 麻豆一区二区三区精品视频| 丁香六月婷婷综合激情欧美| 久久99视频| 青草视频在线观看| 国产黄色免费看| 乱色熟女综合一区二区| 国产乱国产乱老熟300部视频| 中文字幕一区二区三区精华液| 青草99在线免费观看| 少妇无码| 年辖:市辖区| 夜夜偷天天爽夜夜爱| 日韩 无码 偷拍 中文字幕| 亚欧美国产色| 亚洲人ⅴsaⅴ国产精品| 老色69久久九九精品高潮| 国产午夜在线观看视频播放 | 国产粉嫩美女一区二区三|