0
“做科學研究,不僅要認識世界,更要改造世界。”
曹洋在自己的個人實驗室網站上,將物理學家理查德·費曼的名言放在了顯眼的位置,讓每一位網站訪客都無法忽略。“What I cannot create, I do not understand.”這是他以自己的方式提醒自己和所有科研人員,莫忘初心。
20 年前,曹洋坐在中科院擠滿人的大禮堂里,上一門叫做《生物信息學》的課,臺上講課的是“中國生物信息學研究開拓者”--陳潤生院士。在陳潤生院士的啟蒙下,曹洋進入了這個當年甚至還不是一個明確二級學科的新興領域。
如今作為四川大學生命科學學院副教授的曹洋,已經在生物信息學領域深耕數年,具體研究方向包括藥物分子設計算法與應用、蛋白設計和三維結構預測及序列分析與功能預測。
在曹洋看來,科研工作不能僅停留在認識層面,只有研究成果轉化為實際應用,真正做到改造世界,這是他做科研的初衷。在未來,他希望在 AI 技術的助力下,藥物設計領域能達到“畫好圖紙”就能“蓋好房子”的水平,讓前期準備工作完美落實到實驗階段,提高藥物研發的成功率。
近期,2024 年度「第二屆生物信息與轉化醫學大會」落下帷幕。本屆大會以 “人工智能時代的轉化醫學”為主題,由北京攜云啟源科技有限公司承辦。來自四川大學生命科學學院的曹洋副教授受邀參會。
借此契機,曹洋副教授與雷峰網進行了深入對話。以下為對話全文(經編輯):
雷峰網:從學科背景來看,您在本科階段學的是應用物理相關專業,為何碩博時期轉向生物信息學?
曹洋:本科時期我對物理比較感興趣,所以選擇了應用物理大方向下的電子科學技術專業。到了研究生階段,我有幸進入中科院的生物物理研究所學習。
在 2004 年中科院入學的時候,新生要在各個實驗室輪轉,然后雙向選擇確定導師和研究方向。我當時有考慮過選擇結構生物學,用 X 射線衍射方法解析蛋白的三維結構;也考慮過神經生物學,看人的認知是怎么建立起來的。
最后下定決心學生物信息學,是在研究生一年級上了陳潤生院士和凌倫獎老師主講的《生物信息學》之后。課堂上講了很多讓我耳目一新的內容,比如怎么把生物學問題變成數學問題,非常引人入勝。我還記得當時上課的場景,研究生院的禮堂萬人空巷,水泄不通,很多同學沒有位置,只能坐在走道上聽。陳老師的講課內容對我來說是一個很好的啟蒙,受益匪淺。
那時從事生物信息學研究的蔣太交教授剛好從國外回來組建實驗室,我被他有關蛋白結構預測、設計的研究吸引了,因此成為他的第一批學生。
那時候生物信息學還不是學科體系下的二級學科。我入學的專業是生物物理專業,到我畢業的時候,畢業學位證上變成了生物信息學。
雷峰網:您在本科學習的物理學知識,對您之后的研究工作有沒有影響?
曹洋:影響還是挺大的。因為生物信息學是交叉學科,對數理的要求比較高。特別在早期,很多算法和軟件還不成型的時候,需要自己去做開發,理解背后的原理。而我做的生物信息方向和分子模擬非常相關,比如蛋白三維結構預測,需要在結構的基礎上分析生物學功能,其中會涉及到計算能量、相互作用、自由能等,如果前期沒有數理知識作為基礎,后面很多問題理解起來肯定會比較困難。
我也注意到,在生物信息學領域,物理學、計算機背背景的科研者比較偏向方法學研究;而生物學背景的則偏向生物學問題研究。所以不同的學科背景對后續科研方向有潛移默化的影響,但學科背景不是絕對因素,只是有這樣的趨勢。
雷峰網:在您看來,進入生物信息學這種跨學科領域,需要具備什么樣的能力?
曹洋:我認為,要有很好的邏輯思維能力和很強的學習能力,能夠迅速掌握相關的學科知識,并懂得如何在研究中運用上。
你會發現,在這個交叉學科里,需要綜合應用很多專業的知識來解決具體問題,不可能只學生物、化學等某一學科的知識就足夠,而沒有誰是能夠在大學本科就把各個專業知識都學完。所以從事前沿工作,一定要有開放的心態,有很好的自學能力,才可以跟上整個領域的發展,有進一步的創新突破。這是我這些年感受非常深的一點。
雷峰網:在中科院生物物理研究所學習期間,您的主要研究方向是什么?
曹洋:我當時主要做蛋白質三維結構預測的算法和應用。2010 年,我所在的蔣太交教授實驗室所研發的蛋白質結構預測方法,進入了國際蛋白三維結構預測比賽 CASP 的前二十名,是當時國內參賽隊里成績最好的。此外,我還研究了一些生物學問題,包括流感進化突變帶來的影響,比如在結構建模分子模擬的基礎上,研究流感病毒和細胞受體之間的相互作用。
雷峰網:您在結束學業之后沒有進入企業,而是選擇高校繼續科研工作是出于什么想法?
曹洋:我個人偏向在學術方面進行一些比較自由的探索。在高校的話,可以根據興趣去選擇研究課題,但在企業可能沒有辦法實現。當時剛好有一個機會,就入職四川大學了。
雷峰網:請介紹一下您現在正在進行的研究工作?
曹洋:我們課題組主要研究是圍繞計算機輔助藥物設計展開的。這幾年,我們團隊將重心放在了做生物醫藥相關的算法和軟件的開發,同時進行一些針對具體靶標的藥物設計與篩選。在計算機設計方法不斷落地,促進藥物研發的歷史進程中,我們希望貢獻一份力量。
雷峰網:您如何看待目前的藥物設計開發領域的發展?在開發靶向藥物的計算方法方面,您有哪些研究成果可以分享?
曹洋:此前,在蛋白三維結構預測領域有一個很大的突破——AlphaFold。在藥物設計開發領域,我們也期待能有這樣的突破。盡管現在出現了一些新的算法和技術,但還是跟生物醫藥研究的實際需求有很大距離。我們團隊開發了一系列的分子模擬計算法方法,比較有代表性的是分子對接 CB-Dock 系列。
雷峰網:請詳細介紹一下上述全自動化分子對接算法 CB-Dock 的優勢?
曹洋:這個算法平臺的核心優勢在于其高效和準確,用戶使用門檻低。
首先,它能準確識別靶標的分子結合口袋。這里采用了前期開發的算法 CurPocket,它基于分子的表面曲率,可以在給定蛋白質三維結構的情況下提取到其分子可能結合的口袋。這個口袋識別算法和下游計算能夠很好地匹配,使整個過程實現全自動化。
其次,它的分子對接可以學習已知的分子互作信息。我們開發了算法 FitDock,內置在 CB-Dock 里,在預測新分子與已知靶標的結合模式方面有很大優勢。
再有,我們在 CB-Dock 的軟件開發和維護方面很用心,使得操作軟件和分析結果都比較容易。它面向的是廣大生物醫學研究同行,能一定程度上減輕他們的學習負擔,更聚焦在研究具體問題上。
雷峰網:這套算法平臺現在使用率如何?
曹洋:我們這套計算服務器已經發布五年,國內外同行提交了超過 30 萬次計算任務,現在每天的使用量都有超過千次,相關論文的引用數量也上千。我發現在一些社交平臺都有這款軟件使用的視頻,是國內外同行的使用體驗和推薦。對此我覺得由衷高興,感到我們的努力對社會是有用的。
這套軟件用戶來自世界各地,我常收到用戶的郵件,咨詢相關的問題,也有為我們在改進軟件方面出謀劃策。比如前段時間我們服務器的安全證書到期了,沒有及時去更新,就有好多用戶給我們發郵件說遇到問題了,問我們能不能趕緊解決。也有一些企業聯系我們,申請使用軟件的授權。
雷峰網:接下來對于這套算法軟件的迭代更新有什么方向嗎?
曹洋:前段時間,有一個斯坦福的用戶給我們反饋,他建議可以在計算的過程中研究怎么樣合并不同對接算法的結果,還提到了批量的受體提交模式。因為現在這個軟件是一個受體對應一個配體,只能單個提交。這位用戶希望可以添加批量化提交的方式,這樣他們可以利用其做小規模的橫向對比研究。我覺得這是一個比較好的建議,還是得想方設法滿足相關研究的實際需求。
雷峰網:我注意到您的團隊還建立了 AbRSA,AbAlign 等抗體分析算法,請介紹一下該算法的開發過程?
曹洋:我們也關注抗體相關的研究,這是生物藥里的主要類型。前些年,我們在做抗體人源化設計的過程中,遇到一個難題,就是業界的各種分析軟件都沒辦法對手頭上的抗體樣本進行識別。這激發了想要我自己開發相關算法的念頭,我們花了一年多的時間,開發了一款抗體可變區編號算法 AbRSA ,解決了我前面遇到的困難。
這款算法對各類抗體或者 BCR 序列有很強的適應性,能準確地界定 CDR 區域、FR 區。在此基礎上,我們又進一步提出了抗體專用的多序列比對算法,可以對超大規模的抗體/ BCR 數據測序進行處理,進而幫助抗體的篩選和設計,同時也可以作為個體免疫狀態的分析。這些算法的源頭,都是我們在解決實際問題中想到的。
雷峰網:這個抗體分析算法的實際應用效果如何?
曹洋:軟件在發布后吸引了非常多用戶,包括國外很多知名的高校,還有像美國 FDA 食品藥品監督局這樣的用戶,以及國內的一些專利公司和做創新藥物開發的公司。現在在這個領域,國際上能獲得的類似計算工具大概就三款,我們是其中之一。
雷峰網(公眾號:雷峰網):您覺得這款軟件在同類型中的核心競爭力是什么?
曹洋:從算法角度上講,它的健壯性更好,能超快速度處理大規模數據。因為抗體從基因重排到體細胞超突變,其中的多樣性非常大。若想在不同序列模式上進行準確界定,就需要從算法上做比較細致的優化。
雷峰網:除了算法方面的研究成果,請分享一下您此前設計人工蛋白的科研過程?
曹洋:在十年前,要想設計全人工蛋白,大家都覺得這是困難的事情。即便前有華盛頓大學的 David Baker 教授的成功經驗,但對于普通實驗室團隊或者沒有深入了解這類研究的人看來,完成全人工蛋白的設計還存在很大的困難。而且這類實驗的成功率很低,經驗不足就容易失敗。
我進入人工蛋白設計領域是 2016 年到 2017 年期間,當時我正在美國密歇根大學張陽教授的實驗室做訪問學者,在那時候參與了 EvoDesign 的開發與實踐。我當時做了幾個靶標,包括 EGFR 這些靶標的結合蛋白設計,比較成功地設計出了高親和力的人工蛋白。
在設計出人工蛋白之前,我個人對這個領域還有很多懷疑。做完之后我發現,人工蛋白完全可以走向應用,相信在不遠的未來,它會在生物醫藥研發中大放光彩。
雷峰網:您覺得人工蛋白設計技術現在發展到什么階段了?
曹洋:我感觸特別深的是在 2020 年以后,AI 技術被大量引入蛋白設計領域,可以觀察到整個領域都蓬勃發展起來,其中不乏一些極富創意的設計新思路。
不僅僅是像 David Baker 團隊這樣的先驅,還有很多實驗室都取得了長足的進步,比如說科大劉海燕教授的從頭設計氨基酸序列算法 ABACUS、SCUBA,計算所卜東波教授的蛋白質序列設計算法 ProDESIGN,北航葉盛教授基于電子密度的設計算法 CUTEDGE 等,都像雨后春筍一樣被提出來,并且還有很多成功應用的案例。
同時,我們也看到了很多企業在往這方向發展,他們對人工蛋白設計技術表現了很大的興趣。人工蛋白設計正處在其廣泛應用的前夜。
雷峰網:在您看來,當前藥物設計算法領域處在什么階段?面臨的主要挑戰是什么?
曹洋:藥物設計算法已經取得了長足的進步,但是距離生物醫學的實踐需求還有較大的距離。我所期待的藥物設計技術,就像蓋房子一樣,只要滿足力學規則,就能使用軟件設計出符合想象的結構。但是實際上,現在藥物設計領域的技術還遠遠達不到上述理想狀態。往往很多時候是在設計階段想盡各種辦法達到指標,滿足要求,但最終實驗成功的概率只有千分之一,甚至萬分之一。雖然這個領域已經出現了很多分子設計的成功案例,有一些已經完成臨床甚至上市,但還沒有達到成熟的階段。在我看來,現在藥物設計領域面臨的最大挑戰在于,我們對于分子層面的規律認識不到位,計算能力不夠,這樣帶來的結果就是不夠準確。
雷峰網:對于現在想要進入藥物設計領域的年輕科研工作者,您有什么建議?
曹洋:我的建議是,要保持一顆努力學習的心。整個領域進步很快,需要的知識專長非常多,幾年前的知識可能現在已經落后了,所以要隨時保持學習,爭取走在前沿,有所突破。同時還希望密切結合應用實踐,推動整個領域的發展進步。
總而言之,時刻保持學習,瞄準這個領域的重大問題去做開發、做研究。
雷峰網:您怎么看待未來 AI 制藥的前景?
曹洋:引入這種人工智能系統來輔助藥物設計,是近年來最大的一個突破。雖然早期的工作也用了一些機器學習的方法,但不像現在這么大規模、廣泛的使用。而且新的 AI 技術建立在更多的數據基礎上,擁有更好的模型。相比之前的方法,有質的飛躍。
但即便現在 AI 制藥的概念和相關研究工作這么火,還是有很多沒有落地,并沒有在實際藥物研發中產生突出的作用。我們很希望接下來,不論是實驗算法也好,還是理論的研究也好,都能夠轉化為實際上市藥物,真正地推動整個領域從理論到實踐上的突破。
雷峰網:我注意到您的個人實驗室網站首頁有一句很顯眼的名言,是費曼的名言 “What I cannot create, I do not understand.” 請問您對這句話的理解?
曹洋:很多研究是試圖去解釋它背后的道理,但是解釋并不代表真正理解。排除所有可能性之后,如果能夠創造出預設的結果,才能夠稱之為真正理解。
這也是為什么我們看到很多研究,在解釋邏輯方面頭頭是道,似乎很讓人信服,但一旦應用到生物醫學場景,就會遇到很多問題。就以藥物設計的工作來說,我們要去創造實際的分子,不能僅停留在解釋現象。作為科研工作者,我們不僅要認識世界,更要改造世界,只有這樣,我們對世界的認識和理解才能更加深刻。
雷峰網:請介紹一下您第二屆生信大會上的演講內容?
曹洋:我主要介紹了實驗室近期有關抗體/ BCR 的數據分析、建模方面的工作進展。一方面是有關 BCR 或者抗體序列的多序列比對的新算法,在效率和準確性上達到了業內領先。另一方面是在這個基礎上的抗體三維結構預測,成藥性分析,就內部測試的結果,相比已知的抗體可變區預測方法,我們的準確性是最好的。我希望通過這次報告,跟國內同行分享相關的成果,也希望收到同行的建議和意見,把研究工作做得更好。
雷峰網:您在第二屆生信大會上有什么收獲嗎?
曹洋:收獲挺大的。我注意到現在生物信息領域的研究和醫學實踐已經深度聯系起來了。有幾個印象深刻的報告,比如有通過 BCR 的研究去分析人的健康狀態,進行免疫力解碼;蛋白設計新方法在蛋白活性和實驗成功率方面取得突破;還有基于 AI 算法在毒性毒理代謝、重定位等研究的創新。我回去后還要好好消化學習。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。