0
雷鋒網 AI 開發者按:就在幾個月前,AI 研習社推出了第一場有關美食識別的挑戰賽(http://www.35crmo.cc/news/201912/flrnkIxJGI4bw3TE.html)。該比賽要求參賽者能夠從給出待識別圖片中正確區分豆腐與土豆,這一任務也讓眾多圖片識別愛好者得到了初級練手。
相較第一場美食識別挑戰賽,這次推出的比賽 2.0 難度略有增加。除了食材種類的成倍增加之外,四種食材的圖片辨識度也有所降低。這對于專注于圖像識別的開發者而言,相信是非常值得嘗試的一次挑戰!

如果你單純以為這次挑戰賽只是將種類增加了 2 類,那可就誤會大了。從學術的角度來看,這次的問題實際上是由之前的二分類問題擴展到了多分類問題。
通常在處理二分類問題時,我們只需將所涉及類別分為兩類,例如:真(1),假(0),然后再進行兩兩配對即可。之后根據測試結果與實際情況的對比,我們還會得到一個混淆矩陣,其中包括四類數據:
預測為真且實際為真的 True Positives(TP)
預測為假且實際為真的 False Negatives(FN)
預測為真且實際為假的 False Positives(FP)
預測為假且實際為假 True Negatives(TN)

二分類問題
除此之外,也涉及到由此衍生的多個衡量模型質量的相關指標。例如:精確率 (Precision)——模型判斷正確的數據 (TP+TN) 占總數據的比例;召回率 (Recall)——模型正確判斷出的正例 (TP) 占數據集中所有正例的比例;準確率 (Accuracy)——針對模型判斷出的所有正例 (TP+FP) 而言, 其中真正例 (TP) 占的比例。
而如果是多分類問題,例如本次挑戰賽所涉及的 4 類,不僅分類將對應增加為茄子(0)、山藥(1)、苦瓜(2)、西蘭花(3),而且相應的混淆矩陣也將由之前的 2*2 變為 4*4。如果多分類問題擴展到 10 類,那混淆矩陣將會變成 10*10 的矩陣。

多類細胞分類問題示例
類似于線性回歸分類,多元線性回歸較單元線性回歸問題,增加變量個數即單變量推廣到多元;運用梯度下降法時,方法同單變量線性回歸,代價函數也將有很大的變化。
具體而言,多變量的時候,變量的取值范圍將有差異。如果差異過大,產生的代價函數極不規整,像特別狹長的橢圓,這時候進行梯度下降時,路徑會十分曲折。

圖片來源:https://blog.csdn.net/qq_36187544/article/details/87879423
如此一來,多分類問題不僅有多個參數增加的代價問題;同時,考慮到模型質量問題,也需要有更為復雜的衡量指標來對模型進行判斷與優化。因此,多分類問題每多一個類別,識別問題的復雜維度將大大增加。
當問題從二分類變為多分類時,通常開發者們采用的是拆解法,即:將多分類問題拆分成多個二分類問題,為每一個二分類問題訓練一個分類器,再綜合多個分類標準下的預測結果進行集成,得到最終分類。這種將問題轉換的拆分策略主要為三種:
二元關聯 將每個標簽當做單獨的一個類分類問題。給定數據集 D 這里有 N 個類別,這種情況下就是將這些類別兩兩配對,從而產生 N(N-1)/2 個二分類任務,在測試的時候把樣本傳給這些分類器,然后進行決策。
分類器鏈 將每一次的一個類作為正例,其余作為反例,總共訓練 N 個分類器。測試的時候若僅有一個分類器預測為正的類別則對應的類別標記作為最終分類結果,若有多個分類器預測為正類,則選擇置信度最大的類別作為最終分類結果。
多分類策略 基于一種糾錯輸出碼的分類方法,分為編碼與解碼兩個步驟。編碼負責對 N 個類別做 M 次劃分,解碼則負責用 M 個分類器分別對測試樣本進行預測,得到最終預測結果。

ECOC 編碼示意圖
但不管是哪種策略,對于每個分類器的訓練集,開發者都可以先將原始訓練集的標簽重新定義分成兩類,轉化為二分類問題,然后對每個分類器作相應的心理,從而對測試集進行分類判斷得到每一個分類器標簽,最后在通過對各個分類器的標簽得到最后的識別結果。
除此之外,選擇合適的評價指標有助于選出更適合于當前任務的算法,開發者還可以為這一識別模型設計合適的評價指標。對于分類任務而言,評價指標主要關注點在于系統分類正確的能力;因此,所涉及到的評價指標可參考二分類的精確率、召回率、準確率等。

對于多類別分類,圖示為兩特征分 3 類
本次 AI 研習社發起的美食識別挑戰賽任務即:正確判斷美食圖片中出現的食材。其中,食材共 4 種分類,包含了:茄子、山藥、苦瓜、西蘭花。
這相對于第一場美食識別系列挑戰賽「土豆 or 豆腐」而言,難度有所上升。但和之前比賽相同的是,每張圖片只包含了其中一種食材。

來源:AI 研習社
大賽主頁提供了「肺炎 X 光片」相關的數據集,包括了訓練集 6140 張,測試集 856 張。參賽者需要根據美食圖片中食材進行分類,其中:茄子=0、山藥=1、苦瓜=2、西蘭花=3。
開始時間:2020-02-13 18:00:00
結束時間:2020-03-14 23:59:59
本次大賽基礎獎金池為 3000 元,比賽一共設置了三種獎項,包括了:參與獎(30%)、突破獎(20%)、排名獎(50%);AI 研習社春節紅包活動仍在繼續,邀請好友參賽得獎金,獎金直接劃入個人賬戶,視同比賽獎金。以上四種獎項均互不沖突哦!

數據集部分圖片示例
數據集下載鏈接:
https://static.leiphone.com/food_challenge2.zip
春節紅包活動:
最終提交結果文件如下所示,其中,第一個字段位:測試集圖片 ID(注意 ID 即文件名是從 0 開始的);第二個字段:食材 ID(茄子=0、山藥=1、苦瓜=2、西蘭花=3)
Ps:建議使用 UTF-8 編碼,共計 856 個結果,因為數量不足可能導致無法評分哈~

整個比賽的評審完全透明化,我們將會對比選手提交的 csv 文件,確認正確分辨圖片數據,并按照如下公式計算得分,其中:
True:模型分類正確數量
Total :測試集樣本總數量

每日 24:00,我們也會將最新結果更新在官網排行榜上,你可以隨時隨地查看自己的排名情況。
更多信息,可進入參賽主頁查看:https://god.yanxishe.com/26
雷鋒網 AI 開發者 雷鋒網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。