<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能學術 正文
      發私信給青暮
      發送

      0

      近億級數據集下線,MIT道歉,ImageNet 亦或遭殃

      本文作者: 青暮 編輯:劉曉坤 2020-07-02 10:14
      導語:持續的沉默只會在將來造成更多的傷害

      近億級數據集下線,MIT道歉,ImageNet 亦或遭殃

      作者 | 青暮、陳大鑫

      編輯 | 叢末

      麻省理工學院(MIT)已永久刪除包含8000萬張圖像的Tiny Images數據集。
      此舉是論文《Large image datasets: A pyrrhic win for computer vision?》中的發現導致的結果。論文作者在數據集中發現了許多有危害類別,包括種族歧視和性別歧視。這是依賴WordNet名詞來確定可能的類別而沒有檢查圖像標簽帶來的結果。他們還確定ImageNet中也有類似的問題,包括非自愿的色情材料等。
      在The Register向MIT發出警示之后,該數據集已于本周刪除。MIT還敦促研究人員和開發人員停止使用該數據集,并刪除任何副本。CSAIL的電氣工程和計算機科學教授Antonio Torralba表示:“實驗室根本不知道這些令人反感的圖像和標簽存在于數據集中。”他告訴The Register:“很明顯,我們應該手動篩選它們。為此,我們深表歉意。”
      由于MIT在采集數據集時使用不當的方法,這些系統可能將女性標記為“ji女”或“biao子”,而對黑人和亞裔的描述則帶有貶義。該數據庫還包含標有“cunt”的女性生殖器特寫圖片,此外還包括帶有“nigger”(黑鬼)標記的黑人和猴子的圖片,穿著比基尼或抱著孩子的婦女,被貼上“ji女”的標簽,將日常圖像與誹謗、令人反感的語言聯系起來,并把偏見引入AI模型。      
      近億級數據集下線,MIT道歉,ImageNet 亦或遭殃       該圖展示了MIT數據集中標有問題單詞的圖片數量。
      近億級數據集下線,MIT道歉,ImageNet 亦或遭殃
      Tiny Images數據集可視化下線之前的屏幕快照。它展示了標簽“ji女”的數據集示例,出于法律原因,已將其像素化。圖片包括母親抱著嬰兒的照片、圣誕老人的爆頭照片、色情女演員和穿著比基尼的女人的照片。
      如今,Tiny Images數據集與更知名的ImageNet數據集都成為了評估計算機視覺算法的基準。但是,與ImageNet不同,到目前為止,還沒有人檢查過Tiny Images中有問題的內容。
      ImageNet也存在相同的問題,因為它也使用WordNet進行了標記。名為ImageNet Roulette的實驗讓人們將照片提交到ImageNet訓練的神經網絡,一些人上傳了自拍照,但是當軟件使用種族主義和冒犯性標簽描述他們時,他們感到震驚。
      在這些龐大的數據集中,有問題的圖像和標簽所占的比例很小,很容易將它們當作異常現象而忽視掉。這部分數據集在AI訓練過程中通常不能得到均衡的分配。這就是面部識別算法難以識別女性和膚色較深的人的原因。底特律的一個黑人在今年早些時候被面部識別軟件誤認為是可疑小偷后,被警察誤捕。近期頗有爭議的圖像翻譯算法PULSE則將奧巴馬的模糊照片變成了白種人。
       
      1


      禍起WordNet 

      Torralba教授介紹了Tiny Images數據集的構建方式:獲得大量單詞(包括貶義詞),然后編寫代碼以使用這些單詞在網絡上搜索圖像并將其結合在一起。
      Torralba教授說:“數據集包含直接從WordNet復制的53,464個不同名詞”然后,這些數據被用來從互聯網搜索引擎自動下載相應名詞的圖像,最后使用當時可用的過濾器來收集8000萬張圖片。”
      WordNet于1980年代中期在普林斯頓認知科學實驗室建立,由George Armitage Miller創立,他是認知心理學的創始人之一。“ Miller著迷于單詞之間的關系,Prabhu說:“數據庫本質上反映了單詞如何相互關聯。”
      例如,“貓”和“狗”比“貓”和“傘”更緊密相關。不幸的是,WordNet中的某些名詞是種族歧視的和侮辱性的。幾十年后的今天,這些術語困擾著現代機器學習。
      “在構建龐大的數據集時,需要某種結構,” Birhane說:“這就是WordNet有效的原因。它為計算機視覺研究人員提供了一種對圖像進行分類和標記的方法。當可以使用WordNet時,為什么要自己手動做呢?”
       
      2


      Tiny Images和ImageNet的批判研究

      回到這件事的起因上,該論文的兩位作者是來自硅谷一家隱私初創公司UnifyID的首席科學家Vinay Prabhu和愛爾蘭都柏林大學的博士學位候選人Abeba Birhane,他們在研究了MIT數據庫之后發現了成千上萬張帶有針對黑人和亞洲人的種族主義誹謗和用于描述女性的貶義詞標簽的圖像。之后他們以ImageNet-ILSVRC-2012數據集為例做了一些研究并發表了本篇論文。
      作者調查了由于不嚴格且考慮不周的數據集管理做法而導致的整個社會以及個人所面臨的危害和威脅的情況,并且提出可能的糾正方法,并批評這些方法的利弊。作者適當開源了在此努力中生成的所有代碼和普查元數據集,以使計算機視覺社區得以建立。通過揭露威脅的嚴重性,作者希望激發大型數據集管理流程的強制性機構審查委員會(IRB)的組成。
      作者認為在大數據時代,個人知情同意、隱私權或代理權的基本原則已逐漸被侵蝕。機構、學術界和工業界,在未經同意的情況下收集了數以百萬計的人的圖像。如表1所示,在同行評議的文獻中發現了數以千萬計的人物形象。這些圖片是在未經個人同意或知情的情況下獲得的,也未經IRB批準收集。
      近億級數據集下線,MIT道歉,ImageNet 亦或遭殃
      作者對ImageNet數據集進行了批判:
      ImageNet數據集的出現被廣泛認為是深度學習革命中的一個關鍵時刻,它改變了計算機視覺和人工智能。從圖像的可疑方式的來源,到圖像中人物的標記,再到使用這些圖像訓練人工智能模型的下游效果,ImageNet和大規模視覺數據集(LSVD)總體上構成了計算機視覺的一個代價高昂的勝利。這場勝利是以傷害少數群體為代價的,并進一步助長了對個人和集體的隱私和知情權的逐漸侵蝕。當更廣泛的計算機視覺社區缺乏對ImageNet數據集的審查,這只會鼓勵學術和商業機構在沒有審查的情況下建立更大的數據集。
      隨之作者又進行了一些反思:
      大型圖像數據集,如果沒有仔細考慮社會影響,就會對個人的福利和福利構成威脅。允許人臉搜索的反向圖像搜索引擎在過去的一年里取得了顯著而令人擔憂的效率。只需支付少量費用,任何人都可以使用他們的門戶或API來運行一個自動化程序以發現ImageNet數據集中人類的“真實”身份。例如,在性工作受到社會譴責或法律定罪的社會中,通過圖像搜索重新識別性工作者,對受害者個人來說確實是一種危險。
      說到這里我們額外提一句,以上事情在中國也切切實實的正在發生著,國內某家搜索引擎巨頭的老板曾在前年中國發展高層論壇現場就人們關心的數據和隱私問題談到:“中國人更加開放,對隱私問題沒有那么敏感,如果他們可以用隱私交換便捷性,很多情況下他們是愿意的。”
      哦,怪不得他之后在自家公司的大會上被人潑了"宏顏禍水",另外這家公司出品的“百毒”識圖相信大家也都用過。
      最后作者給了一些解決方案建議:
      1、合成真實和數據集蒸餾
      這里的基本思想是在模型訓練期間使用(或增強)合成圖像來代替真實圖像。方法包括使用手繪草圖圖像(imagenet sketch),使用GAN生成的圖像和數據集蒸餾等技術,其中一個數據集或一個數據集的子集被提煉成幾個具有代表性的合成樣本。這是一個新興的領域,在跨視覺域的無監督域適應和通用數字分類方面有一些有希望的結果。
      2、對數據集強化倫理過濾
      3、定量數據集審計:以ImageNet為模板
      近億級數據集下線,MIT道歉,ImageNet 亦或遭殃      近億級數據集下線,MIT道歉,ImageNet 亦或遭殃
      作者對ImageNet進行了跨范疇的定量分析,以評估道德違規的程度和基于模型注釋的方法的可行性。這導致了ImageNet普查,需要對57個不同指標進行圖像級和類級分析,這些指標包括計數、年齡和性別(CAG)、NSFW評分、類別標簽的語義和使用預先訓練的模型分類的準確性。
       
      3


      結論與討論

      作者試圖引起機器學習界對大規模數據集的社會和倫理影響的關注,例如非一致同意的圖像問題和經常隱藏的分類問題一直被認為是計算機視覺和人工智能領域最令人難以置信的突破之一。
      ImageNet的成就確實值得慶祝,并且創造者們為解決一些倫理問題所做的努力也值得認可。盡管如此,ImageNet以及其他大型圖像數據集仍然很麻煩。持續的沉默只會在將來造成更多的傷害而不是帶來好處。在這方面,作者概述了一些解決辦法,包括審計卡,可以考慮改善提出的一些關切。作者還策劃了元數據集,并將代碼開源,以ILSVRC2012數據集為模板進行定量審計。
      作者敦促機器學習界密切關注他們的工作對社會,特別是對弱勢群體的直接和間接影響。在這方面,必須意識到當前工作的歷史前因、背景和政治層面。作者希望這項工作有助于提高人們的意識,并為繼續討論機器學習中的倫理和正義提供幫助。
       
      4


      一些其他觀點

      1、副本無處不在
      即便MIT主動下線了Tiny Images數據集,但是數據副本無處不在。很多用戶都下載過這些副本到本地,如何保證這些副本不會被再次上傳到網絡呢?在reddit上有網友表示知道該數據集的副本地址。
      2、人工智能鑒黃系統的工作還能繼續嗎?
      如果想要訓練一個人工智能鑒黃系統,那么必須要先人為的制作數據集也就是要對一些圖片打上標簽說這是色情圖片。
      問題是這些圖片從何而來呢?
      如果是用爬蟲程序從色情網站上收集,那么怎么保證這些圖片當中哪些能用呢?比方說有些無辜受害的情侶被偷拍的照片被不法分子上傳到色情網站,然后爬蟲程序又把它們下載下來,我們難道可以哪怕是為了開發鑒黃系統而理所當然的使用這樣照片嗎?這難道不是對無辜受害者的隱私再一次侵犯嗎?
      另外如果說收集的是色情從業者(他們的國家合法化這項職業)的視頻和圖片,那TA們的肖像權就不值得尊重和保護了?
      所以說一旦考慮到要嚴格遵守隱私權和肖像權,人工智能鑒黃系統就難以為繼。
      3、利用人工智能程序自動判斷種族、性別等歧視是個矛盾
      因為如果我們要考慮制造一個AI系統來自動幫助我們判別某些圖片是不是存在某種歧視,那么我們同樣需要收集和利用這些有歧視的圖片,可是在得不到本人允許的情況下我們又何以冠冕堂皇的利用這些圖片來做成“典型"來告訴人工智能說:嗨AI,快看!這個就是XX歧視的圖片,你可得“記住”哈!
      那就讓我們“愉快”地拋棄人工智障回到農耕(手工)時代吧!
      可是,難道個人或者企業私自收集并利用這些包含隱私/歧視的數據就合法了嗎???
      所以,如何建立一個公開的征得當事人同意的令公眾信服的數據集就成為了當前和未來的一大難點。
      參考內容:
      https://www.reddit.com/r/MachineLearning/comments/hjelz4/n_mit_permanently_pulls_offline_tiny_images/
      https://arxiv.org/abs/2006.16923
      https://www.theregister.com/2020/07/01/mit_dataset_removed/

      雷鋒網雷鋒網雷鋒網

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      近億級數據集下線,MIT道歉,ImageNet 亦或遭殃

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 未满十八18禁止免费无码网站| 岛国无码av| 中文字幕亚洲资源一区二区| 无码人妻av免费一区二区三区| 一本色道久久综合| 国产人妻精品午夜福利免费| 91婷婷| 99福利资源久久福利资源| 国产麻豆精品一区| 天天做天天爱夜夜爽导航| 欧洲lv尺码大精品久久久| 超碰福利导航| 欧州成人与兽| 欧美一道本| AV人摸人人人澡人人超碰| 久久成人免费观看全部免费| 亚洲韩欧美第25集完整版| 精品人妻潮喷久久久又裸又黄| 白丝美女办公室高潮喷水视频| 四虎永久地址www成人| 鹤庆县| 无套中出极品少妇白浆| 国产盗摄人妻精品一区| 亚洲精品成人av无码A| 成年午夜免费韩国做受视频| 免费观看国产小粉嫩喷水精品午.| 亚洲 中文 欧美 日韩 在线| 色色91| 国产精品无码a∨麻豆| 色天使av| 中文字幕天天躁日日躁狠狠躁免费| 神马午夜久久精品人妻| 久热中文字幕在线精品观| 国产亚洲精品久久久久四川人| 精品xxx| 国产偷人妻精品一区二区在线| 影音先锋91| 欧美久久久久中文字幕| 樱桃视频影院在线播放| 国产精品漂亮美女在线观看| 8av国产精品爽爽ⅴa在线观看|