0
雷鋒網(wǎng)AI研習(xí)社按:目前市面上有很多智能語音問答產(chǎn)品,其中絕大多數(shù)給人的感覺就像是個玩具,甚至有些「弱智」。為了解決 AI 在高級問答上的難題,近日,國外研究團隊 Peter Clark 等人發(fā)表了一篇論文題目為:Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge(覺得你已經(jīng)解決了問答難題?來嘗試 AI2 推理挑戰(zhàn)賽吧(ARC)!這篇 paper 中提出的數(shù)據(jù)集也是小學(xué)自然科學(xué)領(lǐng)域目前最大的公開數(shù)據(jù)集。(文末有下載地址)
ARC 數(shù)據(jù)集包含 7,787 個小學(xué)級別,多項選擇的科學(xué)問題,旨在鼓勵高級問題回答的研究。數(shù)據(jù)集被分成挑戰(zhàn)集和簡易集,前者只包含基于檢索算法和單詞共現(xiàn)算法出現(xiàn)的回答不正確的問題。問題分為以下幾個部分:
挑戰(zhàn)訓(xùn)練集:1,119
挑戰(zhàn)開發(fā)集:299
挑戰(zhàn)測試集:1,172
簡易訓(xùn)練集:2,251
簡易開發(fā)集:570
簡易測試集:2,376
論文中提出了一個新的問題集、文本語料庫和 baseline,這些共同構(gòu)成了 AI2 推理挑戰(zhàn)賽(ARC),以鼓勵人工智能研究在高級問題回答中的應(yīng)用。它需要比之前的挑戰(zhàn)(如 SQUAD 或 SNLI)擁有更強大的知識和推理能力。ARC 問題集分成挑戰(zhàn)集和簡易集,挑戰(zhàn)集只包含基于檢索算法和單詞共現(xiàn)算法出現(xiàn)的回答不正確的問題。該數(shù)據(jù)集僅包含問題(用于人類測試),也是該領(lǐng)域目前最大的公開數(shù)據(jù)集(共 7,787 個問題)。我們在挑戰(zhàn)集上測試了幾條基線,其中包括在 SQUAD 和 SNLI 任務(wù)中領(lǐng)先的神經(jīng)網(wǎng)絡(luò)模型,但發(fā)現(xiàn)沒有一個能夠顯著優(yōu)于隨機基線,這也反映了該項任務(wù)的難度。我們還發(fā)布了 ARC 語料庫,這是一個與任務(wù)相關(guān)的大小為 14M 的科學(xué)語句語料庫,并且實現(xiàn)了三種基線神經(jīng)網(wǎng)絡(luò)模型的測試。你的模型能否在上面更好地運行?
以下是 ARC 問題集在測試分區(qū)上的分數(shù)(單位:%正確率)。
評分注釋:如果模型能推測出給定問題的正確答案k線圖,得分為1 / k分。

雷鋒網(wǎng)提示,更多比賽內(nèi)容點擊:http://data.allenai.org/arc/
數(shù)據(jù)集下載地址:https://s3-us-west-2.amazonaws.com/ai2-website/data/ARC-V1-Feb2018.zip
論文地址:https://arxiv.org/pdf/1803.05457.pdf
via AI2 Home
雷鋒網(wǎng)編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。