2
| 本文作者: 李尊 | 2016-07-11 14:13 |
導讀:2016國際人工智能聯合會議(IJCAI2016)于7月9日至7月15日舉行,今年會議聚焦于人類意識的人工智能。本文是IJCAI2016接收論文之一,除了論文詳解之外,我們另外邀請到哈爾濱工業大學李衍杰副教授進行點評。
聯合編譯:Blake、陳圳、章敏
摘要
普適計算領域中人類活動識別已經開始使用深度學習來取代以前的依靠手工提取分類的分析技術。但是由于這些深度技術都是基于不同的應用層面,從識別手勢到區分跑步、爬樓梯等一系列活動,所以很難對這些問題提出一個普遍適用的方案。在本文中我們認真地探索了深度、卷積、遞歸方式對三種代表性的包含運用可穿戴感應器測得的運動數據組進行的實驗。我們將展示怎樣訓練遞歸方法并介紹一種創新性的規范方式,講述它們如何在大型基礎數據集上實現現有技術下最好的表現。通過使用隨機樣本模型進行數千次實驗,我們對每個人類活動識別中的不同任務中的模型適用性進行了探究,對使用fANOVA架構的超參數影響做了探索,為以后想將深度學習應用到他們的研究中的學者提供了參考。
1. 引言
過去幾年里深度學習已經成為機器學習領域中最流行的研究方向。由于這個概念的流行導致它的分支已經快速擴張,且在學術界和商業界的推動下勢必還會進一步推進。對于普通人來說,深度學習中像Torch7這一類機器學習框架已經隨手可及,深度學習對一系列的運用層面也有相當大的影響。
另外一個因為深度學習受益的領域是在普適計算方面的人類活動識別(HAR)。在HAR領域中占主導地位的技術方法包括用身體佩帶的傳感器,手動設計特征提取程序,以及各種(監督)分類方法。在許多情況下這些相對簡單的裝置就足夠了,能夠得到令人印象深刻的識別精度。然而對于更復雜的行為,例如在醫學應用中,這種手動調教方法還是存在顯著挑戰。有些工作還進一步進行,這也許可以解釋一些明顯的慣性在通過深度學習技術領域的主要技術途徑。
深度學習在普適計算方面的人類識別活動上有機會造成很大影響。它可以替代缺乏有利于其他領域如語音識別強大的魯棒性,設計了手動特征提取程序。然而,對于從業者來說困難的是選擇為他們的應用最合適的深度學習方法。促進深度學習幾乎都提供了最佳的系統,很少有工作包括在其最優參數是如何被發現等細節。由于只有一個分數報告,平均性能與峰值性能比較結果仍不清楚。
在本文中,我們運用目前最先進的深度學習方法對普適計算中的人類行為識別中的三種問題進行了探索。針對深度、卷積和遞歸模型的訓練過程進行了詳細描述,并且我們針對遞歸性網絡介紹一種創新規劃方法。在4000多個實驗中,我們探討HAR中每個超參數對不同的影響,為以后想將深度學習應用到他們的研究中的學者提供了參考。在這些實驗的過程中我們發現,遞歸性網絡實現了目前最佳的表現。

圖1 本文中使用的模型
2. 普適計算中的深度學習
通過穿戴設備感應器獲得的運動數據是多元時間序列數據,這些數據都有相關的高維時空頻率(20Hz-200Hz)。在普適計算領域中分析這些數據基本上是在Bulling等人所提出的基礎方法上進行的。第一步是把時間序列數據分割成相鄰的片段,通常是通過單個特點或者是滑動窗分割技術。在分割出一系列特性中,在每一幀最有可能包含的是統計特性或者頻率域中的詞干。
目前在普適計算領域中最流行的方法是卷積網絡,許多作者都用它來處理活動識別任務。更進一步的是,卷積網絡已經被用來處理特定領域的問題,像在Autism中檢測常規運動等,它們以及能將其提升到目前最佳的水準。
3. 針對人類活動識別對深度學習進行比較
雖然在不同情境的人類行為識別(HAR)方面已經有過一系列的研究探索,但是對于深度學習的兼容性上仍然缺乏一個系統性的研究。研究者進行初步試驗對邊界空間進行探索,但通常忽略了細節問題,這使得整個過程仍然不明確且難以重復。相應的,像CNNs這樣的單一網絡在單一應用情境下表現良好。然而,單個的良好表現并不能代表整體在普適計算在人類行為識別上的普遍適用性。在限定條件下的探索實驗中,這些結果有多少代表性?哪些參數對于最終表現影響最大?實驗者怎么找到那個剛好適合他們研究的參數?這些問題對于研究學者們十分重要,但是目前這些問題仍然沒有解答。
在本文中我們首先提出了 在三種代表性數據集上 最流行的深度學習方法的表現。
這些包括幾個典型的應用情境,如控制手勢、重復動作和帕金森疾病中的醫學運用。對三種模型的比較如下。為了探索每種方法的適用性我們選取了一系列合理范圍的超參數,同時隨機模型配置。
為了探討每一種方法的適用性,我們為每一個超參數和隨機樣本模型配置都選擇了合理的范圍。并且,通過上千次的實驗對它的性能做出報告,同時分析超參數對每種方法的影響。
3.1深度前饋網絡(DNN)
我們使用了深度前饋網絡,它相當于五個有著softmax-group的隱層的神經網絡。DNN代表網絡輸入數據的一個非線性轉換序列。我們遵循規則,并提出了一個有著N個隱層的網絡作為N層網絡。每個隱層都包含有,相同的數量的單元,對應的線性轉換,和一個激活函數(ReLU)。我們使用了兩個不同規范技術:(i)Dropout:在訓練期間,每一個隱層的每個單元都通過一個概率Pdrop設置成0,而在推斷時,每一個單元的輸出都通過1/pdrop進行縮放(所有實驗的dropout率都是固定值0.5)。(ii)Max-in準則:每個批梯度下降之后,網絡中每個單元的輸入量都被放縮到一個最大歐式長度din。對于限制方法中超參數的數量,我們選擇不去進行任何生成的預訓練,并且只依靠監督學習的方法。輸入到網絡中的輸入數據相當于每個移動數據的幀。每個幀都由Rd中不同數量的s樣本組成,也就是簡單地連接到一個單一的向量FtRs*d。圖1(d)中對模型進行了說明。
DNN是用批梯度下降的方法進行訓練的,其中每一個批梯度下降包含64個幀,并且它是根據測試集中的階級分層進行分層的。我們使用隨機梯度下降的方法,盡量減小陰性似然。
3.2卷積網絡(CNN)
卷積網絡的目標是在輸入數據的模式匹配中引入一個位置,并且確保每個有運動數據幀的模式的精確位置,的平移不變性(例如,發生的時間)。我們研究了卷積網絡的性能,遵循了[Srivastava等人,2014]在結構方面的建議,并且規范化了技術。圖1(c)說明CNN的整體結構。每個CNN包含至少一個暫存的卷積層,一個pooling層,和一個完整的連接層——在最高等級Softmax-group之前。暫存的卷積層相當于有著nf種不同特征圖——寬度為Kw,的輸入序列的卷積。最后的max-pooling,即是尋找寬度為mw范圍中最大值,并對應一個子采樣,向系統引入平移不變性。整個實驗中max-pooling的寬度為固定值2。每個max-pooling層的輸出都通過一個激活函數進行轉換。隨后的完全連接的部分有效地對應一個DNN并且遵循上述相同的架構。
對于規則化,我們應用了每一個max-pooling層/完全連接層的dropout,在整個實驗中可能的dropout Pidrop在i層中是固定值(p1drop=0.1,p2drop=0.25,pi>2drop=0.5)。類似于DNN我們同樣使用了max-in準則。輸入到CNN的輸入數據,如DNN中一樣,對應移動數據的幀
。然而,并非連接不同的輸入維度,矩陣結構被保留(FtRsxRd)。CNN的訓練,使用了批梯度下降法(64幀)和隨機梯度下降法,以盡量減少陰性似然。
3.3遞歸網絡
為了研究移動數據的時序依賴,我們使用了遞歸數據網絡,它基于vanilla變型(不包括peephole聯系)的LSTM單元。當網絡中的一些連接形成定向循環時,該結構是遞歸的,其中當前的時間t會考慮到前面時間t-1的網絡狀態。當錯誤的衍生物通過遞歸網絡中的很多層“通過時間”進行反向傳播時,LSTM單元用于抑制梯度下降。每一個LSTM單元(聯合)都會持續追蹤代表他“記憶”的內部狀態(the constant error carousel)。隨著時間的推移,該單元學會,輸出,覆蓋,或者基于當前的輸出和過去的內部狀態清空他們的內存,從而使一個系統保留數百個時間步長的信息。
我們實現了兩個有特色的LSTM遞歸網絡:(i)深度前饋LSTMs,它包含多種遞歸單元層,并及時聯系“前饋”(見圖1(a));(ii)雙向LSTMs,它包含了兩個平行的遞歸層,在一個連接了它們在時間步長t時內部狀態的層之后(見圖1(b)),延伸到當前時間步長的未來和過去中。
實際上這兩種特色的LSTM,在他們的應用要求方面有著很大不同。前饋LSTM聯系當前的時間步長,是基于它看到了過去,并且,在推理時,“未來”還不知道的情況下,它本質上適合于實時應用。另一方面雙向LSTMs利用了未來和過去的上下文,去解釋時間t時的輸入,這使得它更適合于離線分析場合。
在該工作中,我們應用了三種不同設置的遞歸網絡,每一種都使用adagrad和max-in規則進行訓練以便最小化陰性似然。
在第一種情況下,在任何給定的時間t輸入到網絡的輸入數據,都對應當前幀的運動數據,它延伸到一個特定的時間長度,并且維度也被級聯(如前面的DNN一樣)。我們將該模型稱之為LSTM-F。前饋LSTMs達到第二種應用情況,代表了實時的應用,其中提出的每一個移動數據采樣都是針對于他們記錄序列中的網絡,稱之為LSTM-S。最后場景中,對于同樣的樣本到樣本預測問題,應用了雙向LSTMs。我稱之為LSTM-S。
3.4對于HAR訓練RNNs
RNNs相同的應用,包括演講識別和自然語言處理。在這種設定下,輸入的上下文(例如,一個單詞)受限于它周圍的實體(例如,句子,段落)。訓練RNNs時,通常把上下文的實體看成一個整體,例如在一個完整的句子中訓練RNN。
在HAR中,移動數據個體樣本的上下文沒有得到很好的定義,至少,超越了鄰近樣本之間的直接關系,并且好像還取決于移動的類型和它更廣泛的行為情景。這是該領域眾所周知的事,并且它會影響選擇滑動窗口分割的窗口長度。
對于建立用于訓練RNN的b批梯度下降,我們在開始和結束訓練集中,初始化了多個位置(pi)b。對于建立批梯度下降,我們采用了L樣本跟隨(pi)b中的每個位置,并且增加L步長的(pi)b,它可能纏繞到該序列結束。我們發現隨機初始化位置以避免梯度振蕩是非常重要的。當這個方法保留對RNN提出的樣品排序時,它不允許每一個批梯度下降層,都關于類-分布。
4.實驗
實驗中研究的不同種類的超參數在表1中列出。最后一列表示了每個數據集采樣的參數配置的數目,它們被挑選出來代表一個相等量的計算時間。我們在三個代表了HAR典型問題的基準數據集進行了實驗(下文進行描述)。實驗是在一個有著3個GPUs (NVidia GTX980 Ti)的機器上進行,其中除了最大的網絡,兩個模型配置都在不同的GPU上運行。
在每次訓練之后,我們都在驗證集中進行性能評估。每個模型都訓練了至少30次,其中最大的是300次。訓練30次之后,如果在10次后驗證性能沒有得到提升,便終止訓練。我們選擇了顯示最優驗證集性能的次數,并且將對應的模型應用到測試集中。
4.1數據集
實驗中,我們研究了三個在普適計算中具有代表性的HAR數據集。每一個數據集都對應一個HAR的應用。第一個數據集,Opportunity,它包含如開門和關門的操控手勢,這種手勢持續時間段,而且是不重復的。第二個數據集,PAMAP2,它包含了典型的系統特征——長時間和重復的物理運動,這其目的是描述能源支出。第三個數據集,Daphnet Gait,對應一個醫療應用,它參與展現了一個典型帕金森氏病中的運動并發癥,眾所周知該疾病有著非常大的整體變化性。接下來我們詳細的描述每個數據集。
Opportunity數據集(Opp)
Chavarriaga等人,用4個參與者——被要求進行相同的廚房活動,身上傳感器的數據組成了注釋記錄。數據是在頻率為30Hz的情況下,從人體12地方記錄到的,并且用了18個中級手勢進行了注釋(例如,開門/關門)。每個對象,都從五個不同的方式進行了數據記錄。我們使用的子集,沒有丟失任何的數據包——包括加速的記錄,如抬手臂,放回,和腳部完整的IMU數據。最終數據是79維度的。我們使用了對象1中的第2關作為我們的驗證集,并且通過使用我們測試集中對象2和3的第4和第5關,復制最流行的識別挑戰。剩余的數據被用于訓練。對于幀到幀的分析,我們創造了持續時間為1秒和重疊部分為50%的滑動窗口。最終的訓練集包含大概650k的樣本(43k的幀)。
PAMAP2數據集
Reiss和Strickere,在被要求進行12項日常生活的9個參與者中,進行了數據記錄,包括家庭活動和各種各樣的活動(北歐散步,踢足球,等)。加速度計,陀螺儀,磁力計,溫度,心率數據都是由位于手,胸部和腳踝的慣性測量單位記錄的(總共超過了10個小時)。最終的數據是52維度的。我們在驗證集中使用了對象5的第1和第2關,在測試集中使用對象6的第1和第2關。剩余的數據用于訓練。在分析中,我們向下采樣計算器到33.3Hz,以便與Opportunity數據集有一個時間分辨率的比較。對于從幀到幀分析,我們用一個5.12秒的非重疊滑動窗口——它的相鄰窗口之間持續時間為一秒(78%重疊),復制以前的工作。該訓練集包括大概473k的樣本(14k的幀)。
Daphnet Gait 數據集
(DG)Bachlin等人記錄了帕金森病(PD)對于10個參與者的影響,這意味著開展活動,可能會導致步態凍結。凍結是帕金森病常見的運動并發癥,它會影響個體的移動,例如散步。我們的目的是檢測這些凍結的事件,以便通知未來情境激勵系統。這代表一個兩級的識別問題。加速器數據是從腳踝以上,膝蓋以上和軀干部位進行記錄的。最終的數據是9維的。我們在驗證集中使用對象9的第1關,在測試集中使用了對象2的第1和第2關,并且使用剩余的數據進行訓練。據我們分析,我們向下采樣加速器數據到32Hz,對于幀到幀的分析,我們創造了持續1秒且重疊為50%的滑動窗口。整個訓練集包含了大概470k的樣本(30k的幀)。

表1:模式的超參數和實驗的數值范圍
通過逐幀分析,我們創造了持續時間為1秒且重疊部分為50%的滑動窗口。訓練集大約包括470K的樣本(30k幀)。
4.2超參數的影響
為評價所有實驗中每一個參數的影響,我們運用fANOVA框架分析方法。fANOVA會決定每一個超參數對于網絡結構表現的影響程度。它會就模式的表現建立一個預測模式,并作為超參數的函數。這一非線性模式隨即被分解成為超參數的相互作用函數。fANOVA曾在遞歸函數中進行超函數探索。
對于探索者來說,知道模式的哪一方面對表現的影響最大是至關重要的。我們將模式的參數分成三類:(1)學習型參數,控制學習過程;(2)規則型參數,限制模式的建模能力以防止過度重合;(3)構建型參數,影響模式的結構。每一個超參數都不一樣,我們估計歸因于參數類別和不同等級參數之間的相互作用。
4.3 表現標準
由于在本次研究中所使用的數據集有偏重,所以要求表現標準的類別分布是獨立的。我們傾向于評估f1數值的平均值:

相關研究曾使用加權f1分值作為主要表現標準。為把我們的結果和其他先進方法進行比較,我們會對加權f1分值進行評估:

Nc表示的是在c等級之內的樣本數量,Ntoatal代表是樣本總數量。

表2:每一模式和數據集所獲得的最好結果,和一些比較標準。變量增量(表格的下半部分)指代的是所有實驗中上等和中等表現之間的絕對差別。
5.結果
結果在圖2可見。圖(a-c)顯示的是主要表現標準在每一個數據中的累積分布。圖(d)通過fANOVA 解釋了每一超參數類型的影響。
總的來說,我們觀察了模式在OPP和DG上的優秀表現分布,其中在(b-LSTM-S)表現最好f1的平均值超過了15%,在OPP中表現最差(DG上的平均值為12%)(見圖2)。在PAMAP2上的差別較小,但也有7%。在OPP上表現最好的方法超過目前的先進方法,在f1的平均值上超過4%(加權f1值超過1%)。CNN模式發現此項研究比之前結果都要好,因為f1的平均值和加權平均值都超過5%(見圖2)。遞歸方法表現良好,它能就實驗樣品進行建模,能對HAR進行新(實時)運用,因為它們能緩解分割時間序列數據的壓力。

圖2:(a)-(c)每一個數據集識別表現的累積分布;(d)從fANOVA分析得出的結果,并解釋超參數的種類對于識別表現的影響(見表1)。
在本次所研究的模式中,表現得分的分布不同。CNNs顯示最有特色的表現:模型配置的一小部分表現較差(例如,在PAMAP的得分為20%),而其余配置在表現上的差別卻不大。在PAMAP2中,例如,最優表現和中等表現之間的f1平均值只相差7%(見表2)。DNNs顯示在OPP上所有方法的最優和中等表現相差最大值為35。7%。兩個前置RNNs模式(LSTM-F,LSTM-S)在不同數據集上表現相似。尤其在PAMAP2和OPP上進行探索的配置識別表現非凡。
超參數種類對于識別表現影響的解釋在圖2(d)中可見。有趣的是,我們觀察的是CNN中,參數的最一致影響。與我們期待相反的是,圍繞學習過程(見表1)的參數對于表現的影響最大。我們希望對于這一模式而言,擁有多樣選擇結構變體影響會更大。對于DNNs,我們不會觀察任意超參數種類的系統影響。在PAMAP2中,準確的學習參數會是最關鍵的。在OPP中,是模式結構最關鍵。十分有趣的是,我們觀察到網絡結構較淺的模式比深度網絡表現更好。在這一網絡結構表現中有下降趨勢且帶有超過3層的隱藏層。這可能與我們僅僅只依靠監督進行訓練有關,因為生成訓練能提深度網絡的表現。
在OPP中,基于框架的RNN(LSTM-F)的表現受本次研究中的結轉概率影響。由于經常保持內在狀態或是忘記內部狀態,這都會導致表現結果較差。我們發現0.5的Pcarry在大多數情況下都表現良好。我們的發現值得進行對轉結時間表進行更加深入的研究,這會提高LSTM的表現。
基于樣本實驗的前向LSTMs(LSTM-S)的研究結果證明了之前的發現,因為對于這種模式其學習率是至關重要的參數。然而,對于雙向LSTM(b-LSTM-S),我們發現每一層的單元數對表現影響重大,所以實驗者應重點關注此類參數。
6.討論
在本次研究中,我們探索了先進深度學習方法通過使用便攜式傳感器對人類活動識別的表現。我們介紹了如何在此設定中訓練遞歸方法并引入新穎的規則化方法。在數千次實驗中,我們用隨機選擇取樣的參數對模式的表現進行評估。發現在Opportunity中雙向LSTMs比目前先進的方法表現要好,基準數據庫要更大,利潤更可關。
但是對于研究者而言有趣的,不是每一個模式的峰值性能,而是參數在適應不同HAR任務時的探索和理解過程。對于時間較短但是按照時間順序發生的時間理解中,遞歸網絡模式比卷積模式表現得更好。因為遞歸模式有較好的理解語境能力。對于雙向RNNs,我們發現在所有的數據集中,每一層的單元數目對表現的影響都很大。對于持續時間長且是重復發生的動作,例如,走路,跑步;我們推薦使用CNNs模式。在此情景中平均表現能讓研究者更容易發現一個合適的配置,盡管RNNs模式和CNNs 模式表現差不多,甚至是RNNs有時表現的更好。我們強烈建議在優化網絡結構之前要開始探索學習率,因為在我們的試驗中發現學習率對表現的影響最大。
我們發現在不同的參數設置下,模式的識別表現都不一樣。Regular DNNs模式對于研究者來說是最可行的方法,因為它需要進行大量的參數探索,并且在優良表現和中等表現之間的跨度較大。所以研究者不應舍棄在開始時識別表現較差的模式。更復雜的方法,例如,CNNs或是RNNs在表現上的差別較小,所以更可能發現表現較好的參數并且迭代次數也少。
點評
這篇文章主要針對人類行為識別問題,介紹并比較了三類不同的模型,包括DNN,CNN和RNN,并運用可穿戴傳感器的運動數據和人類運動識別中的不同任務(如開關門、帕金森病等的運動情況)對三類模型的適用性進行了比較研究。
對于可穿戴設備收集得數據集,可穿戴設備主要以加速度計、陀螺儀等傳感器測得數據,精度會更高,但其應用也就有了限制,必須在可以加裝這些傳感器的場景才行。音視頻就更為一般性些,只需要有話筒和攝像頭,不一定加在被監控對象身上。
文中提到的實驗是深度學習在PD檢測方面的應用,用以判斷病情。
via IJCAI 2016
PS : 本文由雷鋒網(搜索“雷鋒網”公眾號關注)(搜索“雷鋒網”公眾號關注)獨家編譯,未經許可拒絕轉載!
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。