^{<sub id="jgr5k"></sub>}

加速AI 2.0，ARC推理挑戰(zhàn)賽等你來戰(zhàn)！

本文作者：楊文

2018-03-20 23:37

導(dǎo)語：AI2 Reasoning Challenge

雷鋒網(wǎng)AI研習(xí)社按：目前市面上有很多智能語音問答產(chǎn)品，其中絕大多數(shù)給人的感覺就像是個玩具，甚至有些「弱智」。為了解決 AI 在高級問答上的難題，近日，國外研究團隊 Peter Clark 等人發(fā)表了一篇論文題目為：Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge（覺得你已經(jīng)解決了問答難題？來嘗試 AI2 推理挑戰(zhàn)賽吧（ARC）！這篇 paper 中提出的數(shù)據(jù)集也是小學(xué)自然科學(xué)領(lǐng)域目前最大的公開數(shù)據(jù)集。（文末有下載地址）

ARC 數(shù)據(jù)集包含 7,787 個小學(xué)級別，多項選擇的科學(xué)問題，旨在鼓勵高級問題回答的研究。數(shù)據(jù)集被分成挑戰(zhàn)集和簡易集，前者只包含基于檢索算法和單詞共現(xiàn)算法出現(xiàn)的回答不正確的問題。問題分為以下幾個部分：

挑戰(zhàn)訓(xùn)練集：1,119
挑戰(zhàn)開發(fā)集：299
挑戰(zhàn)測試集：1,172
簡易訓(xùn)練集：2,251
簡易開發(fā)集：570
簡易測試集：2,376

論文中提出了一個新的問題集、文本語料庫和 baseline，這些共同構(gòu)成了 AI2 推理挑戰(zhàn)賽（ARC），以鼓勵人工智能研究在高級問題回答中的應(yīng)用。它需要比之前的挑戰(zhàn)（如 SQUAD 或 SNLI）擁有更強大的知識和推理能力。ARC 問題集分成挑戰(zhàn)集和簡易集，挑戰(zhàn)集只包含基于檢索算法和單詞共現(xiàn)算法出現(xiàn)的回答不正確的問題。該數(shù)據(jù)集僅包含問題（用于人類測試），也是該領(lǐng)域目前最大的公開數(shù)據(jù)集（共 7,787 個問題）。我們在挑戰(zhàn)集上測試了幾條基線，其中包括在 SQUAD 和 SNLI 任務(wù)中領(lǐng)先的神經(jīng)網(wǎng)絡(luò)模型，但發(fā)現(xiàn)沒有一個能夠顯著優(yōu)于隨機基線，這也反映了該項任務(wù)的難度。我們還發(fā)布了 ARC 語料庫，這是一個與任務(wù)相關(guān)的大小為 14M 的科學(xué)語句語料庫，并且實現(xiàn)了三種基線神經(jīng)網(wǎng)絡(luò)模型的測試。你的模型能否在上面更好地運行？

以下是 ARC 問題集在測試分區(qū)上的分數(shù)（單位：％正確率）。

評分注釋：如果模型能推測出給定問題的正確答案k線圖，得分為1 / k分。

加速AI 2.0，ARC推理挑戰(zhàn)賽等你來戰(zhàn)！