0
| 本文作者: 黃善清 | 2019-08-19 21:44 | 專題:IJCAI 2019 |
雷鋒網 AI 開發者按:8 月 10 日至 16 日,IJCAI 2019 在中國澳門隆重召開,其中 14 日至 16 日為 Industry Day 環節,是大會專為業界思想碰撞與交流而設的重磅環節,邀請了眾多來自國內外的 AI 企業與機構代表前來做大會報告。
當中,京東集團副總裁、京東數字科技首席數據科學家、京東城市總裁鄭宇做了場題為《Building Intelligent Cities with Big Data and AI》的大會報告,在本次報告中,他強調了智能城市領域數據的特殊性,他表示,時空數據擁有不一樣的結構與屬性,意味著需要使用不一樣的數據管理與人工智能算法來進行應對,而不能單純直接套用已有針對語音、圖像和文本的算法。
大會報告結束后,AI 開發者對鄭宇進行了專訪,請其解讀針對大會報告中的最新研究成果,并趁機聊了聊京東智能城市研究院的最新近況。以下為采訪全文。

鄭宇獨家解讀《Building Intelligent Cities with Big Data and AI》大會報告
簡單來說,城市的數據種類很多,所以讓大家感覺有點紛繁復雜,按以前的方法,大家就會來一個數據建一個表格,并未對數據的結構與規律進行分析。
所以我們準備做這么一個統籌的事情。
首先,我們針對數據的結構以及關聯的時空屬性,做了一個分類方法上的設計。
按照結構區分,可分為:
點數據
網絡數據
按照關聯的時空屬性區分,可分為三種:
空間靜態時間靜態
空間靜態時間動態
時空動態
將這三種時空屬性乘以兩種結構,我們就會獲得六種數據的分類方式。

什么是時空靜態的點數據?我們會說像個車站或賓館,它的位置是不變的;賓館的屬性,比如有多少層樓,房間有多大,同樣也是固定的。所以它既是時空靜態數據,也是點數據。
什么是空間靜態時間動態數據?傳感器,比如我們把一個空氣質量監測站點建在一個地方,建好后它的位置是不變的,但它的讀數卻每個小時都在變化著。
什么是時空動態的數據?比如你給滴滴發請求時,可能 13:10 也同樣有個人在給滴滴發請求,然后 13:20 又有另一個人在同個地方給滴滴發請求,這也意味著它的時間和空間是一直在變化的,甚至包括還有人使用摩拜掃碼。這些都屬于時空變化的點數據。
除此之外,這三類時空屬性的數據還有對應的網絡數據。
路網其實是一個靜態結構,路一旦修好后,它的結構是不變的,它屬于空間靜態時間靜態的網絡結構。
可一旦我們往馬路上疊加交通流量,它立馬就變成一個空間靜態時間動態的網絡結構。
那什么屬于時空都動態的網絡數據呢?比如固定軌跡,即是一系列點的結合,它同樣也是一個網絡結構。
換而言之,這六種數據結構覆蓋了一座城市涉及的所有數據類型,我們可以用這 6 種結構來表示所有數據,或者用它的組合來表達所有類型。
那么數據的類型不一樣,從時空屬性上來說又存在哪些差異?
在時間和空間方面,它們都擁有專屬的距離與空間層次。從距離上說,比如兩個點之間的距離、兩邊之和大于第三邊三角不等式以及地理學第一定律;從空間上說,包括一個城市、不同區域、不同街道、不同小區。處在不同的層次,它所代表的含義是不一樣的,那么你在不同層次上的表達,對于運算的體現與幫助也是有差別的。

從時間上分析的話,它的屬性包括臨近性、周期性以及趨勢性三大塊。
所謂鄰近性,即是相鄰的兩個時間點,它的讀數可能會比較接近,比如離得不遠的兩個身體,所感受到的氣溫都會比較接近;另外我們也看到時空數據存在著周期性,比如今早8點的交通流量很可能與昨天早上8點的交通流量是很相似的,而今早 8 點的交通流量則與今天中午 12 點的交通流量特別不一樣,這就打破了之前我們所說的鄰近規律,這個時候我們就可以看下一個屬性;趨勢性,這其實是一種預判,比如可能隨著氣溫變得越來越冷,我們起床起得越來越晚,然后出門的時間也就越來越晚,因此早高峰也就出現得越來越晚。
所以說周期性并非恒定不變的,而是擁有一個趨勢性的上揚或下降,我想表達的就是這個意思。

在明確好數據模型后,考慮到數據的結構與屬性不一樣,因此我們得有專門的管理方法。
演講中我主要談三點,分別是效率問題、版權保護問題和安全問題。
先說效率問題,我們現在有一個大系統,可以用更少的資源,以更快的速度來處理數據,特別是軌跡數據管理這一塊。同時它已兼容已有的云計算平臺,這一點其實很重要,說明我們無需從頭建立平臺,只要改變一下存儲格式,就能有效提升軌跡數據的查詢效率至一百倍,索引和數據和存儲的大小也減少了七倍。這些都是跟最好的方法進行對比。

過去我們并不重視時空數據的版權保護問題,比如你把時空數據拷貝一份拿出來賣,然后別人再拷貝一份拿去賣,你也無從得知,因為運轉單都一樣。高階一點的,會隨意幫你做點修改,然后告訴你這個數據是屬于我的。一旦缺乏這種保護機制,未來就很難形成一個數據融合共享機制。
解決方案方面,我們的一個具體想法是讓數據帶有密鑰,首先將空間化成區域,再把軌跡放到空間里,利用空間將軌跡切成幾段,然后每一段里面再按照另外一個密鑰參數切成很多時間小段,接著每一小段里會隱藏一個億比特的信息。隱藏的方式是什么?我們的方法是算這一段軌跡的質心,而這個質心有個地理學的計算定律。當我懷疑別人在出售我的數據時,我就把它拿來并用算法進行提取,如果連續好幾個提取出來都是我的信息,那就基本可以肯定是我的秘鑰做的。原理有點像數字水印,但卻是符合軌跡數據的。

國內業界有幾個正在思考這件事情的人,至于學界思考這件事情的人基本上等于零。業界有這個需求,卻不知道應該怎么做;學界的人并不怎么在乎這件事情,因為數據分享對他們而言就是一件免費的事情。現在我們經常說要推數據交易,搞大數據交易平臺,可你缺乏這一塊技術的話,你說誰敢賣,對吧?
第三點是安全性,因為有些數據的機密性太強,是不允許進行分享的,比如說結婚登記數據、社保信息、犯罪記錄等等。我們的解決方案是通過數字網關技術將各個平臺的內部聯到一起,在不泄漏信息的情況下,把不可逆的中間結果拿來互換一番,最終解決各自的問題。

關于深度學習應該怎么與時空數據相結合,我這里總結了三大挑戰:
第一個,怎么做數據變換。城市的好多數據拿來后,我們都是沒法直接使用的,畢竟它們不是簡單的圖片,不然可以直接放在CNN 或者 RNN上搞定。在這種情況下,我們應該怎么做數據變換?
第二,怎么將時空屬性給 encode 進去?如果完全不encode,只把它當成一個數據來做的話,周期性、趨勢性就會反映不出來,你的結果就不會十分準確。
第三,數據融合。怎么把不盡相同的數據融合在一起做決策?
基于這三者挑戰,我們把現在可以使用深度學習能力進行解決的城市應用場景,變成了多種不同的時空應用場景。

比如說城市里有些稀疏的站點,在這之前我們預測這些站點的讀數應該是多少,這是一類問題。

第二類問題,我把城市轉換變成均勻的格子,希望每個格子都能進行預測。


第三點就是它可能并非均勻的網格,而是由不規則的網格所組成,在這種前提下應該怎么做預測?


第四點是做區域與區域之間的轉移預測,這是相對于單點預測而言的,就是從A到B有多少人,從B到C又有多少人。


第五個就是我定義一個路線,然后想預測路線的時間、油耗等屬于動態預測層面的東西。


AI 開發者:通過今日的分享,您想傳達的核心觀點是什么?
鄭宇:我今日的分享核心緊緊圍繞時空數據,從數據表達、數據管理、數據分析到數據挖掘,提出了一整套不一樣的方法論,有別于過去針對文本與圖像的處理方案。其實任何一套數據,都應該擁有專屬的一套方法理論,從建模、表達、管理、存儲管理到挖掘分析一整套流程下來。
AI 開發者:城市數據整體來說可以分為幾種類型?
鄭宇:大概可以分為三大類。一類是以圖像為代表的非結構化數據,它的存儲與挖掘方法都是比較傳統的;第二類是以表格為存儲形式的政務數據,比如一個人的姓、收入等等,都屬于表格結構化的數據;第三類就是我強調的時空數據,這一類會比較特別,既不屬于前面兩類,也沒有太多人去關注。我們相信在 5G 時代來臨以后,第三類數據的數量會越來越大,這是未來毫無疑問的發展方向,所以我們就想重點去解決這部分問題。
AI 開發者:所以從您的角度來看,這部分問題的難點體現在什么地方?
鄭宇:如果是時空數據問題,我相信方法論總會推陳出新,再結合實際的問題,加上研究時間的投入,最終都會一個接一個被解決掉。
現在最重要的事情,是如何將大數據與人工智能領域的知識與行業背景、行業知識相結合,這其實是兩個不同的領域,一個是 domain work, 一個是 data science。你也許懂得很多工具模型、算法、K 平臺,但你可能不懂交通、不懂環境,那你的方法就很難落地。如何將理論與各個行業的業務知識進行結合,并形成真正的落地方案,這也是我覺得目前國內許多AI企業特別是研究院,都會遇到很多難點的環節。
AI 開發者:要組成一支既懂技術又懂業務的團隊,其實還挺有挑戰性的,京東智能城市研究院在這塊有哪些經驗可以分享的嗎?
鄭宇:我們的團隊跟事業部是一種深度綁定、深度融合的關系,很多人在兩邊都同時兼有崗位。比如我們的成員有可能既是一個部門的經理,也可能是研究院的一個 CV 研究員。當然,也有真正有個別少量的,不是特別多,這部分人就會純粹做研究,因為我們畢竟還是會需要一些基礎理論層面的東西,只不過是說我們會提前把問題進行拆解,再告訴他我們大概需要的是一個什么屬性、什么功能的東西,然后交由他們去解決算法本源的問題。然后我們還有一部分人負責做銜接作用、偏應用型的研究。
AI 開發者:京東智能城市研究院的人員結構組成是什么樣的?
鄭宇:一大半人都是做的應用型研究,一小半人做基礎型研究,大概是六四開的比例。人員數量方面,光 AI 部分目前已有三十幾個人,然后加上大數據團隊的話,大概是一百來人的規模。
AI 開發者:您認為一名 AI 開發者要想涉及智能城市領域,他必須具備哪些能力?
鄭宇:從技術層面來說,他起碼得具備數據挖掘的基礎知識。但要說真正去設計一個特別復雜的模型,那倒不一定,因為我們的平臺都已經將這些組件開放出來了,比如說交通流量預測、人員預測、空氣質量預測、選址模塊等,你只要直接進行調用,就可以快速構建出自己的模型。
所以你只需要擁有基本的數據挖掘與人工智能基礎知識,但不用特別高深;第二是要懂應用,且對行業背景有所了解,否則可供調用的模塊很多,但對于該使用哪個工具、業務需求是什么,這到底是一個預測問題,還是一個優化問題,還是一個分類問題,還是一個回歸問題,在此基礎上從業務出發,把它關聯回來。
AI 開發者:目前京東智能城市研究院有哪些招人的需求?
鄭宇:商業項目交付、解決方案產品經理、行業專家,這些都是我們需要的人才。我們目前這一塊業務的增長非常快,需要更多人一起加入進來。
AI 開發者:您在這個領域深耕也有一段時日了,結合這些年的經歷,您會怎么去定義“智能城市”這個概念?
鄭宇:在安全、穩定的情況下去做數據互通,做到萬物互連、數據互通,這是第一層;第二層是大數據與智能技術,利用大數據、人工智能技術去改變交通、金融等領域;第三層,它一定是個生態城市,包括宜居綠色的生態,包括不同機構與產業之間形成的技術合作,等于一個生態,因為我不可能什么問題都自己解決。就是這樣一個概念。
雷鋒網 AI 開發者雷鋒網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。