<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      醫療AI 正文
      發私信給劉海濤
      發送

      0

      五大頂級學者的AlphaFold 2論道:破譯結構、開源代碼后的產研「大變局」(下篇)

      本文作者: 劉海濤 2021-08-21 09:10
      導語:備受期待的AlphaFold2數據庫,是否會成為專家們打開蛋白質功能奧秘的金鑰匙?

      過去半個月,Alphafold2先后兩次沸騰了整個學術圈。

      一邊是“AI界年度十大突破”AlphaFold2終于開源,登上Nature;

      另一邊DeepMind又發布,堪比人類基因組圖譜的,最完整人類蛋白質結構數據庫。

      對自家的“王者級成果”,DeepMind聯合創始人、首席執行官德米斯·哈薩比斯(Demis Hassabis)也自豪表示:“這是迄今為止AI在推動科學進步方面做出的最大貢獻,我覺得這么說一點兒也不夸張。”

      但事實真是如此嗎?

      爆火的AlphaFold2是否被期望過高?后AlphaFold2時代,蛋白質結構領域是否會出現學術研究的“軍備競賽”?AlphaFold2代碼開源,是否為各大藥企和AI制藥企業創造了一次最佳的超車機會?備受期待的AlphaFold2數據庫,是否會成為專家們打開蛋白質功能奧秘的金鑰匙?

      近日,主題為“權威專家再談AlphaFold 2:AI是否會帶來結構生物學的「大革命」?”的圓桌論壇正式舉行。本次主題論壇由圖像計算與數字醫學國際研討會(ISICDM)主辦,雷鋒網、醫健AI掘金志協辦。

      印第安納大學醫學院副院長、AIMBE Fellow黃昆教授擔任主持,密蘇里大學教授、AAAS/AIMBE Fellow許東教授、密歇根大學教授、DeLano獎得主和I-TASSER算法發明人張陽教授、芝加哥豐田計算技術研究所、斯隆獎得主許錦波教授,中科院計算機所研究員卜東波教授共同參與了討論。

      在《五大頂級學者的AlphaFold2論道:破譯結構、開源代碼后的產研「大變局」(上篇)》中,幾位嘉賓共同深究AlphaFold2這次成果的技術細節與意義;

      在下篇中,將著重分析AlphaFold2數據集,這一重磅成果實際的科研價值,以及怎樣拓展到新冠疫苗、新藥研發等其他領域的未來話題。

      作為本次論壇的主辦方,圖像計算與數字醫學國際研討會(ISICDM)自2017年創辦以來,一直是醫工交叉的前沿陣地,圍繞圖像計算和數字醫學中的一些重要的理論、算法與應用問題進行學術討論,旨在促進電子信息(包括計算機、自動化與生物醫學工程)、數學和醫學等領域學者的交流與合作,截止至今,ISICDM共邀請到400余位大會報告及專題報告嘉賓。

      以下是主題論壇的現場內容,雷鋒網《醫健AI掘金志》做了不改變原意的編輯和整理:

      黃昆(主持人):Alphafold2現在開放了源代碼,也開放了模型預測部分,制藥巨頭是否可能會復現這些過程?是否會對AI初創企業造成較大沖擊?

      許東:據說DeepMind本來想把Alpha fold2變成一種商業模式,但因為David Baker復現并開源了類似成果,所以他們才選擇開源,不過這只是一種說法。

      我覺得藥企復現這些過程,商機可能不大,因為他們很難超越Alphafold2模型,也無法創造更大知名度,小公司要復現就更加困難。

      但現在有很多與結構交叉的AI創業公司,以生物制藥為例,通過結構做分子設計,在中國、美國都非常活躍,確實有不少商機。

      許錦波:剛好這幾天,我就正在與一個小公司討論Alpha fold2復現問題。

      他們表示,自己在David Baker之前就已經復現,他們買了16個GPU,重新寫了訓練代碼,最后得出結果比Alpha fold 2稍微差一點。

      所以從算法優化或算法簡化著手,十幾個GPU,幾個工程師沒準真能復現出Alpha fold2,盡管結果會差一點,但不會差太多。

      黃昆(主持人):Baker的3-track逐級結構約束,還有價值嗎?

      張陽:Baker這篇論文因為和AlphaFold2一起出來,媒體給了很大關注。

      首先,這篇論文是獨立的,雖然受到AlphaFold2啟發,但他們的程序在AlphaFold2代碼公布之前,就已經完成,不過算法精度要比后者差一些。

      其次,他們的最終模型結構不是端到端,我認為這是AlphaFold2的一個精髓。

      Baker實驗室雖然也實現了部分端到端模型,但結果甚至還比不上,利用距離和接觸約束的傳統算法,這可能還是算力問題,Baker文章也提到過。

      至于3-track算法,我也作過一個基準測試,結果要比論文中差一些,不過要比CASP14上,除了AlphaFold2其他組稍微好一些,我認為這種算法顯然代表了一種進步。

      但從方法學角度,端到端預測更能代表蛋白質結構預測的發展方向。

      黃昆(主持人):蛋白質結構預測僅僅是蛋白質折疊的一個子問題,物化知識在折疊問題研究可能才剛剛開始?force filed和simulation應該是否會有較大研究價值?

      許東:自己讀博士的時候,每天都在做force filed和模擬。

      機器學習其實并不代表物理過程,物理過程是通過force filed的力場來驅動和折疊,折疊過程特別復雜。

      而且物理和機器學習模式之間有很大的鴻溝,大家也在探討有沒有可能通過大數據方式回歸物理模式,把二者聯系起來。

      但蛋白質比物理要復雜,我們的圖神經網絡是模擬氨基酸之間相互作用,通過圖神經網絡記錄物理過程,并不是真實的物理過程,而是盡量接近物理過程,理解物理問題。

      所以,我認為繼續過程對force filed和simulation,可能會產生比較大的應用價值,但在蛋白質上可能需要很長時間理解,開發更好的工具。

      卜東波:做模擬前會有一個很大的障礙,就是我們目前還沒有標準答案。

      剛才許東教授介紹的真實物理過程,因為折疊太快,現在還無法可以知道折疊中間態,而即使是使用深度學習,我們也首先需要具備標簽和正確答案。

      和simulation相比,蛋白質結構預測有X-ray、冷凍電鏡做的結構作為標準答案,所以更加容易,但折疊過程,沒有真實物理過程做標準答案,對AI訓練和驗證都是非常大的阻礙。

      黃昆(主持人):聯想起二十年前structure genomics project(結構基因組學項目)的無果而終,AlphaFold2數據庫會不會成為一個科技泡沫?

      張陽:“科技泡沫”是個值得注意的現象,很多科學熱點開始被人們寄予厚望,最終發現是一場泡沫,這樣的例子很多很多。

      回答這個問題之前,我先介紹一下AlphaFold2數據庫。

      上個月,Deepmind接連在Nature上發表了兩篇論文:第一篇論文,關于AlphaFold2的算法,這是很重要的一篇論文;

      第二篇論文,把AlphaFold2程序應用到人體基因組,把人體基因組表達的所有蛋白質結構,都用AlphaFold2預測出來。

      DeepMind接下來計劃把這項工作推廣到其它20種關鍵生物體中,把目前已知的1億多條蛋白質結構都預測出來,構建成一個數據庫,和全球科學家免費共享。

      他們設想有了這個數據庫之后,生物學家只要有新蛋白質就可以立馬找到,并利用AlphaFold2預測結構。

      這個成績對于外行來說,可能特別激動人心,甚至DeepMindCEO也表示,這將是他科研生涯最重要的一項成就。

      但我認為第二篇Nature論文,以及結構數據庫概念,對生物醫學的影響會遠遠小于第一篇AlphaFold2算法論文。

      第一,基因組結構預測數據庫想法并不新穎。AlphaFold2之前,就有很多人做基因組蛋白質結構預測數據庫。

      其中最知名的就是Andrej Sali教授的ModBase結構數據庫,他們對UniProt里600萬序列都作了結構預測,包含3000萬個結構模型;其次還有Torsten Schwede教授的Swiss-Model數據庫,里面包含200多萬結構模型。

      此外,Jeffrey Skolnick教授和我在15年前,也建立了一個人體基因所有G蛋白受體(GPCR)的結構模型數據庫。

      以上這些數據庫現在大家還都在引用,但他們的影響力遠不及后來組建的在線服務器。

      所以我認為,與傳統結構數據庫相比,AlphaFold2數據庫的實際亮點應該是精度,特別是對非同源序列的精度,是目前為止最為精確的結構模型數據庫。

      此外,AlphaFold2數據庫也有幾個重要的局限:

      第一,提供的只是預測結果,這些模型有效性,最終還需要實驗驗證和支持;

      第二,很多蛋白質都會發生變異,而且因為翻譯、修飾原因,給定一個未知蛋白,很少能在現有數據庫,找到一模一樣的序列。

      因此,很多生物學家可能還會依賴在線服務器,來提供高精度蛋白質結構預測。

      第三,AlphaFold2數據庫不能提供功能性注解,雖然能提供三維結構預測,但它不能告訴蛋白質在細胞里做什么,而對蛋白質進行功能性注解,其實是結構生物學家解析蛋白質結構的最主要價值。

      接下來,再談談20年前的知名項目——Structural Genomics,這個項目和現在AlphaFold2數據庫有一些共同之處。

      大家當時做蛋白質結構預測主要通過同源建模:對于未知蛋白質,如果和它同源的蛋白質結構被實驗解出來,那就可以用同源建模方法,構建非常精確的模型。

      但這種方法,當時面臨一個問題,很多蛋白質沒有并同源實驗結構。

      所以Structural Genomics項目,就是把計算機同源模建和結構生物學實驗技術結合,把所有基因數據庫結構確定下來。

      為了解決這個問題,人們已經把自然界發現的蛋白質序列,按照進化關系分成很多同源家族。對于一個家族,只要一個成員結構已知,該家族其他成員結構也都可以通過同源建模確定。

      所以這個項目計劃:第一,找出哪些家族未知;第二,每個家族挑出一個成員,用結構生物學實驗將它結構解析出來。

      如果這個想法實現,那今后10年或20年內,所有人體包括自然界蛋白質結構,都可以用同源建模方法預測出來,這在當時是個很激動人心的想法,最早提出是上個世紀末,開始實現是2000年。

      當時NIGMS(美國國家衛生院的基礎醫學研究所)在資金比較緊缺情況下,第一個五年計劃就投資了2.7億美元建Protein Structure Initiative(PSI)。2005年,又追加了3.25億美元,總投資7.6億美元左右。

      但最終結果并不理想。許多蛋白質雖然把結構解出來,但沒有功能性研究,相關論文也沒辦法發表,一般結構生物學論文,雖然都解結構,但更重要是從結構里學生物知識。

      所以2010年以后,這個項目就失去了意義,到2015年正式項目終止。

      新一代學生甚至有很多都不知道Structure Genomics這個項目的存在,很大程度上來看,2000年的一個美好愿景,最后變成了一場泡沫。

      盡管現在媒體大量宣傳AlphaFold2結構數據庫,最終會對這個領域產生多大影響,我個人還是持謹慎態度。

      許東:我補充一點,泡沫可能有兩個層面。

      第一,投資得不到回報,前期政府投了很多錢,最終產出遠不盡人意,這是一種泡沫,但這個問題目前還不存在。

      因為除了DeepMind,還沒有其他小公司去投入大量精力,做這個模型,而且也沒有人表示,要去PK DeepMind。

      第二種泡沫,未來的預期遠高于結果。大家仔細讀讀DeepMind的文章,他們把哪些預測準,或不準都已經寫出來了。

      但現在很多人的預期有一些超前了,認為AlphaFold2對所有蛋白、所有情況都預測很準,這可能還需要交流,但我覺得這不會導致資源大量浪費的那種泡沫。

      許錦波:我補充一點,結構基因組學不是完全浪費,它給我們提供了大量訓練數據,不然就沒有這些機器學習模型。

      首先,要感謝產生結構數據的實驗生物學家,還有做大規模基因測序的學者,他們產生了大量數據,加快了研發速度。

      結構預測現在宣傳有一些過頭,其實還有很多問題都沒有解決。一些生物學家,仔細分析了現在的結構預測結果也都很失望,因為有些結構預測結果還是一團亂麻,達不到生物學的要求。

      黃昆(主持人):如果想實現復現訓練,Alpha fold2的35萬高質性回爐準樣序列,以及MSA和template準備訓練集,千萬元量級算力,會不會是一個很高的門檻?

      許東:這肯定是一個大工程問題。

      把模型訓練到極致需要一個很強大的團隊,DeepMind這篇文章,第一作者就將近20人。他們的人力并非小實驗室,或一般學術實驗室能夠比擬。

      而且他們在算力和數據等各方面,也要比一般學術實驗室強很多。不僅是Alpha fold2,各種大工程問題都需要大研究所或大公司。

      所以我覺得,Alphafold2的問題現在已經做到一定量級,小實驗室不應該想著如何在數據打敗他們,更應該尋找新創新點。

      而且并非Alphafold2后,就沒有事情可做,也并非大家都要和Alpha fold在算力和大數據方面死磕。

      張陽:我再列舉一個具體案例。我們許多人都已經知道AlphFold2的算法,拿到了源代碼,但大家如果真復現它的成績,往往會面臨很嚴重算力問題。

      Alphafold2用了128個頂級GPU,并行訓練了7天,才達到這個模擬精度,但大多數實驗室都沒有這樣的算力,甚至很多實驗室一個GPU都沒有。

      如果全部在一個GPU訓練Alpha fold2就需要1000天,而且還是在已知答案前提下,不包括很多試錯、調參、測試時間。

      模型開發真正耗費算力就是反復試錯和不斷探索過程,這個過程往往需要單個訓練幾百到上千倍的時間,相當于在黑暗當中探索。

      所以對Alphafold2這樣成績的復現,將是一個巨大的算力考驗。任何一家學術實驗室都很難完成這樣的大規模數據訓練、測試,所以在硬件要求上門檻很高。

      黃昆(主持人):AlphaFold2用來預測Loop區域有多大的可信度?

      張陽:單獨來講,Loop區域本身并沒有很穩定的結構,它的構型依賴于與周邊結構的相互作用。

      所以,Loop結構預測精度很大程度依賴于,其它有規則二級機構區域模型的精度,其中就包括Loop兩端距離是否適合等因素。

      目前,AlphaFold2的loop精度應該比其它算法精度高一些,但這是因為它們在有規則二級機構的核心區域預測精度比較高。當把中心骨架結構都預測好之后,再把Loop搭起來,精度就會比較好一些。

      黃昆(主持人):請問各位專家團隊后續有什么樣的計劃?是否會繼續提升現有模型的蛋白質預測精度?還是會借助AlphaFold2在其他方向做突破?

      許東:我過去做了十幾年蛋白質結構核心開發,從2012年開始,我就集中在深度學習在生物信息學中應用。

      我們后續的計劃主要有三方面:

      第一,蛋白相互作用,例如蛋白對接,怎么利用深度學習選擇更好的對接結構,相關文章目前已經出來,后面還要用更好的方式把蛋白相互作用預測出來。

      第二,免疫和疫苗設計,這些方面有很大意義,我們在做單細胞數據的時候,能看到抗原決定部位上不同氨基酸,也能看到抗原上不同多肽序列在結構上怎么去發揮作用。怎么設計更好的疫苗,將是我們接下來的工作。

      第三,用醫學方法來提取動力學信息,更好表示出分子動力學的不同模式。

      除了蛋白結構相關,我們還會做機器學習在單細胞數據應用,例如,受體與配體相互作用,在單細胞層面或空間層面,通過結構方式理解單細胞數據。

      張陽:我們目前主要是想做和蛋白質結構相關的兩件事:

      第一,把深度學習推廣到蛋白-蛋白復合體結構預測,這個問題比單鏈蛋白質結構預測更復雜,從功能注解來講也更重要。

      第二,把深度學習和結構生物學技術相結合,建立一種大標度利用低精度實驗數據,快速確定高精度蛋白結構的計算方法。

      傳統的NMR和X-ray,以及現在的cryo-EM,對實驗精度有很多限制,很多實驗數據雖然已經產生,但三維結構并沒有解析出來。有些實驗數據輔助的結構預測,往往比單純基于序列結構預測要精確很多,而且又可以幫助傳統結構生物學實驗快速確定結構。目前,這個問題并沒有引起足夠重視,是一個很重要的研究方向。

      卜東波:剛才談到的AlphaFold2是三合一。我們目前獨立做的ProFOLD就是把前兩個結合到一起,后面從距離構建結構還是獨立的,現在我們逐漸開始把后面補齊。此外,我們也在嘗試復現AlphaFold2的過程。

      關于將來的方向,我覺得有三點:

      第一,單序列預測,我非常贊同錦波教授的意見,在生物體內部,蛋白從轉錄到翻譯都不參考MSA,折疊過程是非常重要的理論性問題。

      AlphaFold2論文中也明確說MSA條數少于30條時預測不是特別準,所以我覺得可以嘗試做單序列預測。

      第二,糖蛋白預測,剛才許東老師談過很多蛋白都有糖基化,尤其是新冠病毒的S蛋白上有22個N糖的糖基化位點。

      目前,我們已經和生物物理所合作開展了一些濕實驗,這些糖非常大,有顯著的空間位阻效應,有些位點長糖之后,就會導致蛋白質結構和ACE2結合位點變化特別大;而且SPR實驗顯示,他們的結合能變化也非常大。

      還有很關鍵一點,用冷凍電鏡測結構時,事先要把糖弄掉,因為糖會導致信號非常不穩定,做糖蛋白結構很重要,我們和生物物理所實驗也會做結構預測。

      第三,蛋白質設計,例如張海倉教授和寒武紀公司合作的ProDESIGN項目。

      黃昆(主持人):謝謝各位,我自己不是做蛋白結構領域的,但我現在非常期待怎樣把新結果應用在其中。例如直接做突變功能預測,突變對結構影響預測都比較感興趣,雖然不一定100%都準確,但比現有一些結構數據或預測數據庫要準確很多。

      接下來,怎么樣利用數據和其它數據結合在一起,例如和其他基因表達、蛋白表達數據結合在一起做系統生物學模型,尤其對疾病進行預測都是我們很關注的重點。今天非常感謝4位嘉賓做的精彩點評,同時也謝謝各位聽眾。雷鋒網雷鋒網

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      分享:
      相關文章

      編輯

      專注AI醫療的新勢力和投融資丨微信ID:Daniel-six
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 久久99精品国产麻豆婷婷 | 亚洲色av性色在线观无码| 成人精品18| 性生交片免费无码看人| 无码h黄动漫在线播放网站| 精品一区二区成人精品| 日韩精品一区二区三区视频| 五月天福利导航| 亚洲精品aa| 久久精品蜜芽亚洲国产AV| 欧美bbwhd老太大| 美女网站免费福利视频| 免费a级毛片18以上观看精品| 免费人成年激情视频在线观看| 亚洲五月婷婷| 无码国产69精品久久久孕妇| 中字无码av电影在线观看网站| 无码人妻视频一区二区三区| 亚洲欧洲日产国码久在线| 迅雷AV| 无套内谢少妇毛片在线| 美女黄网站视频免费视频| 老头边吃奶边弄进去呻吟| 青青青青青手机视频在线观看视频| 亚洲第一香蕉视频啪啪爽| 3p小视频| 中文无码伦av中文字幕在线| 4hu四虎永久在线影院| 玖玖资源站亚洲最大成人网站| 极品少妇被猛得白浆直流草莓视频| 亚洲欧美另类久久久精品| 久久内射| 男人的天堂av一二三区| 亚洲av熟女一区二区| 狠狠躁夜夜躁人人爽蜜桃| 中文字幕第55页一区| 亚洲AV乱码毛片在线播放| 甘泉县| 中文字幕色av一区二区三区| 好男人中文资源在线观看| 精品无码国产一区二区三区av |