0

雷鋒網 AI科技評論消息,近日,Stuart Axelbrooke在Kaggle平臺上公布了Twitter客戶支持數據集公布,這個數據集包括來自大企業的超百萬條推文與回復,大家可以利用這個數據集做很多有意思的工作。數據集的具體信息如下所示,雷鋒網 AI科技評論編輯整理如下:
Twitter客戶支持數據集(Customer Support)是一個龐大的推文與回復語料庫,這個數據集比較現代化,有助于自然語言理解和會話模型的創新,也對客戶支持實踐與影響效果的相關研究有所幫助。
背景
自然語言處理(NLP)目前仍然需要密集的編碼方式,NLP中的創新加速了對數據的理解,但是驅動這一創新的數據集與現在真正使用的語言不太匹配。
Twitter客戶支持數據集里有Twitter上大量的用戶和公司的客戶支持中心之間的對話語料庫,這個語料庫的語言主要是英文,比起其他會話文本數據集有三個主要優勢:
聚焦——這個數據集里的數據主要是用戶聯系客戶支持中心來解決特定的問題的對話,他們討論的問題類型相對來說較少,當與reddit語料庫(reddit Corpus)等不受約束的對話數據集相比,這種情況更甚。
自然——這個數據集里的用戶覆蓋面要比Ubuntu對話語料庫(Ubuntu Dialogue Corpus)更廣。比起Cornell電影對話語料庫(Cornell Movie Dialogs Corpus),這個數據集中有更多更自然和更常用的輸入文本。
簡潔——由于Twitter上對話的簡潔性,客戶支持中心會回復得更自然,關于問題和解決方案的描述都會會有過多廢話,這也便于利用循環網絡,可以使得信息的限制相對較低。
有意思的問題
這個數據集的大小和覆蓋范圍激發了許多有意思的問題:
我們能預測公司客戶支持中心的回答嗎?考慮到每個公司處理的問題都是在某個范圍內,答案看起來是肯定的!
用戶的請求會過時嗎?最好的公司反應速度有多快,與最糟糕的公司相比呢?
在局部聚類(topical clustering)時,能學習到高質量的稠密嵌入(dense embedding)或相似性表現嗎?
語氣是如何影響客戶支持中心與用戶的對話的?說對不起有用嗎?
內容
數據集是CSV格式,每一行為一條推文。對列的描述如下所示,每段對話至少包含一條用戶請求和一條公司回復??梢杂胕nbound字段來計算哪個用戶ID是公司用戶ID。

tweet_id
推文ID,匿名,每條推文只有一個此類ID,response_tweet_id和in_response_to_tweet_id中有引用到這個ID。
author_id
用戶ID,匿名,每個用戶只有一個此類ID,數據集中的@被與用戶相關的用戶ID替換掉了。
inbound
用戶的請求推文是否被那些在推特上進行客戶支持的公司“歸檔(inbound)”。該特征在訓練會話模型時的數據重組階段非常有用。
created_at
發推文的日期和時間
text
推文內容。電話號碼和電子郵箱等敏感信息用__email__等類似句段來掩蓋。
response_tweet_id
與請求推文相關的回復推文ID,用逗號隔開。
in_response_to_tweet_id
該條推文所回復的推文ID(如果存在)
數據集下載地址:https://www.kaggle.com/soaxelbrooke/customer-support-on-twitter
via:Kaggle
雷鋒網 AI科技評論編輯整理
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。