實測：ChatGPT的翻譯能力怎么樣？

本文作者：溥茜

2023-02-13 17:55

導語：騰訊 AI Lab發布的論文稱，ChatGPT 的機翻能力，在小語種環境下，表現并不如其他商用翻譯軟件強。

在今天，狂熱追捧ChatGPT，仿佛已經成為了一種“政治正確”。

ChatGPT一出，學界、工業界無不驚為天人。一位研究機構的資深研究員就對AI科技評論說過：“ChatGPT出來，直接給我們整不會了——生成做的比我們好就不說了，NLP（自然語言處理）能力還比我們強不少。”

微軟注資百億美元，谷歌則如臨大敵，ChatGPT在科技圈里掀起的巨浪，仍是現在進行時。

但是，ChatGPT并非“萬能鑰匙”——大模型在某些專業領域的準確度，仍然無法超越其他垂類產品。近日，騰訊AI Lab 就通過實驗證明，在機器翻譯領域，ChatGPT在某些情況下，能力弱于其他商業翻譯產品。

實測：ChatGPT的翻譯能力怎么樣？論文地址：https://arxiv.org/pdf/2301.08745v1.pdf

1
ChatGPT是個好翻譯嗎？

騰訊AI Lab的調查文指出：

首先，在高資源環境——如歐洲語言上——ChatGPT的表現與商業翻譯產品（如谷歌翻譯、DeepL Translate）相比具有競爭力，但是，在低資源環境——如古代語言——明顯落后；

其次，在翻譯的魯棒性上，ChatGPT在生物醫學摘要、或Reddit評論方面表現不如商業翻譯產品，但是在口語方面也許會是一個很好的翻譯工具。

為了更好地理解ChatGPT的翻譯能力，騰訊AI Lab從以下三個方面開展實驗：

提示詞（Prompt）翻譯：ChatGPT是一個大型語言模型，在翻譯時需有提示詞（Prompt）作為引導才能引導系統進行翻譯。所以，提示詞的風格會影響翻譯輸出的質量。例如，在多語言機器翻譯模型中，如何將兩種語言信息聯系起來非常重要，這通常是通過附加語言標記來解決。

多語言翻譯：ChatGPT是一個處理各種NLP任務并涵蓋不同語言的單一模型，可以被視為一個統一的多語言機器翻譯模型。因此，ChatGPT在資源差異（如高與低）和語系差異（如歐洲與亞洲）上的表現是該實驗所探討的重點之一。

翻譯魯棒性：ChatGPT是基于GPT-3開發的模型，GPT-3在涵蓋各種領域的大規模數據集進行上訓練，因此，在特定領域的表現，是這次研究者們的重點之一。

提示詞翻譯

為了設計觸發ChatGPT機器翻譯能力的提示詞，騰訊AI Lab團隊向ChatGPT提出以下prompt：

提供十個可以讓你翻譯的簡明提示或模版

并獲得圖1中的結果：

實測：ChatGPT的翻譯能力怎么樣？圖1: ChatGPT推薦的10個可引發其進行機器翻譯的prompt

生成的提示語看起來很合理，但是都有相似的格式，研究人員將它們總結成三個候選prompt（如圖2），其中[SRC] 和 [TGT] 分別代表翻譯的源語言和目標語言。另外，研究人員在Tp2中增加了一個額外命令，要求ChatGPT不要在翻譯的句子上加雙引號（在原始格式中經常發生）。盡管如此，ChatGPT依舊不穩定，如會將同一批次的多行句子翻譯成單行。實測：ChatGPT的翻譯能力怎么樣？

圖2：候選翻譯提示

研究人員將三種不同的候選prompt與Flores-101的測試集在漢譯英任務中的表現進行比較，圖3顯示了ChatGPT和其他三個翻譯軟件的結果。雖然ChatGPT提供了相當好的翻譯，但它仍然落后于基線至少5.0個BLEU點。關于三個候選prompt，Tp3在所有指標方面表現的最好，因此在這篇論文中，研究者默認使用Tp3。