0
| 本文作者: 我在思考中 | 2021-11-15 10:23 |

近日,國際NLP領域頂級會議EMNLP 2021拉開帷幕。云從科技與上海交通大學聯(lián)合研究團隊的《Relation-aware Network:探索視頻片段定位任務中的多種層面關系》成功入選會議論文,并于大會進行線上宣講。
EMNLP(Conference on Empirical Methods in Natural Language Processing)是計算語言學和自然語言處理領域的頂級國際會議之一,由國際語言學會(ACL)旗下SIGDAT組織。EMNLP論文入選標準十分嚴格,今年論文錄取率僅23.3%,相比去年略有下降。EMNLP學術會議上展示的研究成果,被認為代表著自然語言處理領域的前沿水平與未來發(fā)展方向。
本次入選論文,圍繞“基于語言查詢的視頻片段定位”這一視覺-文本的跨模態(tài)任務,將NLP與視覺技術結合,技術讓機器同時具備“理解文字”和“看懂視頻”的能力:能夠更精準地讀懂文字,并理解視頻內(nèi)容,在整段視頻中找出與給定文字相對應的視頻片段。該項成果在多個數(shù)據(jù)集上,都取得了優(yōu)于過去研究的表現(xiàn)。
這一成果在技術研究與實踐領域都具有十分重要的意義:
在技術上讓機器實現(xiàn)“多感官進化”:如今視覺、聽覺等單點AI技術,將越來越難以滿足多樣的應用需求。該項技術旨在讓機器向完成“跨模態(tài)任務”進化:讓機器能夠同時掌握視覺、文字等多種模態(tài)的信息,做到像人類一樣看懂、聽懂、讀懂,擁有全面的能力。近年來在學界,跨模態(tài)任務已成為一大研究熱點,為AI領域注入新的活力。
突破單點技術,擴大跨模態(tài)應用場景:在實戰(zhàn)場景中,隨著高清攝像頭的普及以及網(wǎng)絡媒體的快速發(fā)展,各式各樣的視頻呈海量增長態(tài)勢,自動化視頻處理AI技術也迎來巨大的需求。本項成果基于語言查詢的視頻片段定位技術,能夠有效解決治理、出行等多領域的難點問題,例如公共場合下的安全監(jiān)控、社交媒體視頻內(nèi)容的審核等等,突破以往的單點技術應用瓶頸,帶來數(shù)量級的效率提升。
NLP等決策技術被認為是AI領域下一個技術突破口,使機器擁有理解、思考、分析決策的能力,為人機交互、行業(yè)應用等帶來顛覆式改變。云從科技、上海交通大學提出Relation-aware Network,探索視頻片段定位任務中的多種層面關系。
基于語言查詢的視頻片段定位任務(Temporal Language Grounding):該任務是給定一個視頻和一段描述語句,通過融合視覺和語言兩種模態(tài)的信息,在視頻中定位出語言所描述內(nèi)容的視頻片段。隨著高清攝像頭的普及以及網(wǎng)絡媒體的快速發(fā)展,每天都會出現(xiàn)大量各式各樣的視頻,自動化的視頻處理技術就被廣泛應用在公共場合下的安全監(jiān)控、社交媒體上視頻內(nèi)容的審核中,作為視覺-文本的跨模態(tài)任務,基于語言查詢的視頻片段定位也受到了越來越多的關注。

一方面,已有的視頻片段定位方法通常只考慮了視頻片段和整個句子的關系,而忽略了視頻片段和句子中每個詞語這種更加細致的關系,這樣就不能全面地交互視覺和語言的信息,云從和上交聯(lián)合團隊的研究者們提出了一種coarse-and-fine的交互方式,從粗粒度和細粒度的角度同時考慮了視頻片段-句子層面和關系和視頻片段-詞語層面的關系。
另一方面,現(xiàn)有的工作往往忽視了不同視頻片段之間的關系,或者僅僅采用了幾層卷積網(wǎng)絡的堆疊,存在計算量大、有噪聲影響等缺點,本文的研究者們提出了一種稀疏連接的圖網(wǎng)絡,僅僅考慮了起始或者終止時間相同的視頻片段,高效地建模了不同視頻片段之間的關系,幫助模型更好地區(qū)分視覺上相似的視頻片段。

代碼地址:https://github.com/Huntersxsx/RaNet

RaNet一共包含5個部分:(1)多模態(tài)的特征編碼模塊;(2)候選視頻片段的生成模塊;(3)候選視頻片段和查詢語句的交互模塊;(4)不同視頻片段的關系構建模塊;(5)結果選擇模塊。
特征編碼模塊中,研究者們采用了在時序動作檢測(Temporal Action Localization)中表現(xiàn)優(yōu)異的GC-NeXt來獲取視頻序列中的時序信息,使用雙向的LSTM來獲取語言信息的長時間依賴。
候選視頻片段生成模塊中,研究者們借鑒了之前工作2D-TAN的方式,構建了一個二維的時序網(wǎng)格圖,每一個小網(wǎng)格都代表一個候選視頻片段,其特征是由起始時間幀的特征和終止時間幀的特征串聯(lián)而得。

視覺語言交互模塊中,研究者們同時構建了視頻片段-句子層面的關系和視頻片段-單詞層面的關系。對于視頻片段和句子的關系,研究者們之間對語言特征進行max-pooling,然后和視頻片段特征進行點乘。對于視頻片段和單詞的關系,研究者們通過語言特征和視頻片段特征首先構建出一個注意力權重矩陣,然后再與視頻片段特征交互,動態(tài)地生成query-aware的視頻片段表征。這種粗粒度和細粒度結合的方式能夠充分地交互視覺和語言兩種模態(tài)之間的信息。
視頻片段關系構建模塊中,研究者們將每個候選視頻片段視作圖的點,將這些視頻片段之間的關系視作圖的邊,構建了視頻片段關系的圖網(wǎng)絡模型。考慮到重疊比較高的視頻片段關聯(lián)性更強,研究者們在構建圖時僅考慮了和當前候選視頻片段具有相同起始時間或者終止時間的視頻片段,在網(wǎng)格圖中就是一種十字架的形式。這樣構建圖的方式不僅可以減少不相關視頻片段帶來的噪聲影響,還能有效提高模型的效率。
結果選擇模塊中,研究者們采用一個卷積層和sigmoid激活層為每個候選視頻片段進行打分,根據(jù)得分從大到小排序,選擇top-1或者top-5作為最終的預測視頻片段。
最后,研究者們使用了alignment loss對模型進行了訓練:

研究者們通過大量的實驗驗證了RaNet對于基于語言查詢的視頻片段定位任務的有效性。
本文在3個常見數(shù)據(jù)集TACoS、Charades-STA、ActivityNet Captions上,采用了Rank n@m評價指標,與以往的工作進行了對比,在3個數(shù)據(jù)集上基本都取得了SOTA的表現(xiàn)。

為了突顯出模型中每個模塊的重要性,研究者們做了消融實驗,從結果來看,同時考慮視頻片段和句子的關系,以及視頻片段和單詞的關系,比單獨考慮這兩者帶來的收益要多。當同時構建不同視頻片段之間的關系時,模型能夠更加精準地對視頻片段進行定位。

研究者們還與之前SOTA模型2D-TAN比較了在不同IoU上的相對提升率,可以發(fā)現(xiàn),在越高的IoU上,本文的RaNet提升得更加明顯。

研究者們比較了Pooling、Sampling、Addition、Concatenation這四種不同的視頻片段特征的生成方式,實驗發(fā)現(xiàn)更加關注邊界特征的Concatenation操作表現(xiàn)更好。

不同word embeddings的影響:
為了探尋不同的詞向量編碼對實驗結果對的影響,研究者們還比較了不同word embeddings的表現(xiàn),發(fā)現(xiàn)越強的語言表征更有益于模型精準地定位視頻片段。

研究者們還展示了模型在TACoS數(shù)據(jù)集上的參數(shù)量和FLOPs,并和之前的2D-TAN模型進行了對比,由于在構建視頻片段關系的模塊中本文采用的是稀疏連接的圖網(wǎng)絡模型,所以參數(shù)量大大減小,效率得到了提升。

最后,研究者們還通過可視化的例子展現(xiàn)了模型的能力。

針對基于語言查詢的視頻片段定位這個任務,云從-上交的聯(lián)合研究團隊提出了,將視頻片段定位類比為自然語言處理中的多項選擇閱讀理解,同時建模了視頻片段-句子層面和視頻片段-單詞層面的關系,并且提出了一種稀疏連接的圖網(wǎng)絡高效地建模了不同視頻片段之間的關系,在公開數(shù)據(jù)集上取得了SOTA表現(xiàn)。
更多的技術細節(jié)請參考[RaNet: arxiv paper](https://arxiv.org/abs/2110.05717)。

雷鋒網(wǎng)
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。