久久久免费观看视频,亚洲欧美日韩国产一区,国产中文字幕欧美,成人在线观看国产,天天艹天天干天天,一级黄色片中国,久久久成人免费视频

人工智能揭秘DNA中的“暗物質(zhì)”

來源:中國網(wǎng)

點擊:1711

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞:AI DNA 生物學(xué)


    2003年,科學(xué)家首次對人類基因組進(jìn)行測序,揭示了構(gòu)成我們生命“藍(lán)圖”的全部DNA序列。盡管98%的基因組不直接編碼蛋白質(zhì),它們?nèi)陨羁逃绊懼虻恼{(diào)控和細(xì)胞功能。這些非編碼區(qū)域曾被視為“垃圾DNA”,但如今被認(rèn)為可能蘊(yùn)藏著重要的生物學(xué)秘密,就像是基因界的“暗物質(zhì)”。


    今年6月25日,“深度思維”公司宣布,他們開發(fā)出一款名為AlphaGenome(阿爾法基因組)的人工智能(AI)模型,有望在破譯這一“暗物質(zhì)”上取得突破?!蹲匀弧冯s志報道稱,這一“從序列到功能”的模型能預(yù)測DNA中微小變化會對一系列分子過程產(chǎn)生的影響,為解碼人類基因調(diào)控機(jī)制提供了新路徑。


    解釋DNA序列的“一體化”工具

    深度思維公司在2020年推出的“阿爾法折疊2”(AlphaFold 2),成功破解了一個困擾科學(xué)界數(shù)十年的難題:如何根據(jù)蛋白質(zhì)的氨基酸序列,準(zhǔn)確預(yù)測其三維結(jié)構(gòu)。這一突破不僅改變了結(jié)構(gòu)生物學(xué)研究方式,也推動了新藥研發(fā)的進(jìn)程。


    相比之下,要理解DNA序列的功能則更加復(fù)雜,因為它不像蛋白質(zhì)那樣擁有一個確定的“正確答案”。這些功能主要體現(xiàn)在DNA對基因表達(dá)的調(diào)控上,比如決定基因什么時候開啟或關(guān)閉,在哪些細(xì)胞中發(fā)揮作用,以及以何種強(qiáng)度表達(dá)。


    如果說蛋白質(zhì)結(jié)構(gòu)預(yù)測是在拼出“零件”的立體模型,那么DNA功能預(yù)測就是要理解說明書中每一個符號、注釋、開關(guān)命令甚至“暗物質(zhì)”區(qū)域的真正含義。其中涉及的信息層級更復(fù)雜、關(guān)聯(lián)更廣泛,且同一個DNA片段可能在不同時間、不同細(xì)胞類型中扮演不同角色,因此建模難度遠(yuǎn)高于蛋白質(zhì)。


    幾十年來,生物學(xué)家嘗試用各種計算工具來揭示DNA復(fù)雜而隱秘的調(diào)控機(jī)制,但這些模型往往聚焦于單一功能??茖W(xué)家們渴望一種用于解釋DNA序列的“一體化”工具,于是,“阿爾法基因組”應(yīng)運(yùn)而生。


    據(jù)美國趣味工程網(wǎng)站報道稱,與以往需在“序列長度”與“預(yù)測精度”之間取舍的模型不同,“阿爾法基因組”實現(xiàn)了二者兼得。它既能捕捉長程基因組上下文信息,又能提供堿基層面的精準(zhǔn)預(yù)測,拓展了疾病生物學(xué)、罕見變異研究、合成DNA設(shè)計等領(lǐng)域的研究視野。


    一次可處理百萬個堿基對

    據(jù)深度思維官網(wǎng)介紹,該模型一次可處理多達(dá)100萬個堿基對,并預(yù)測數(shù)千種分子屬性,包括基因表達(dá)、剪接模式、蛋白質(zhì)結(jié)合位點和染色質(zhì)可及性,覆蓋多種不同類型的細(xì)胞。這是首次有AI系統(tǒng)能聯(lián)合建模如此廣泛的調(diào)控特征。


    “阿爾法基因組”訓(xùn)練所用的數(shù)據(jù)集來自多個公開的超大規(guī)模數(shù)據(jù)資源。令人驚訝的是,訓(xùn)練一個完整模型僅需4小時,且所需計算資源僅為前代模型的一半。在26項基準(zhǔn)測試中,其有24項表現(xiàn)優(yōu)于或持平于專用模型。


    新模型的一大亮點是其變異評分系統(tǒng),能高效對比突變前后的DNA序列,并跨多種生物通路評估其影響。


    “阿爾法基因組”還具備剪接位點建模功能,這是首次有模型能夠預(yù)測與囊性纖維化、脊髓性肌萎縮等疾病相關(guān)的RNA剪接異常。


    在合成生物學(xué)領(lǐng)域,“阿爾法基因組”可用于設(shè)計特定的調(diào)控序列,例如僅在神經(jīng)細(xì)胞中激活某些基因,而在肌肉細(xì)胞中保持沉默。同時,它也有望用于研究生物效應(yīng)強(qiáng)烈的罕見遺傳變異,如導(dǎo)致孟德爾遺傳病的突變。


    在一項驗證中,研究人員將“阿爾法基因組”應(yīng)用于先前研究中識別出的某種白血病相關(guān)突變。結(jié)果,該模型準(zhǔn)確預(yù)測出,某些非編碼區(qū)變異會間接激活附近的TAL1致癌基因,這一機(jī)制正是T細(xì)胞急性淋巴細(xì)胞白血病中已知的致病過程。


    模型尚不適用于個體診斷

    盡管“阿爾法基因組”的表現(xiàn)令人矚目,但深度思維團(tuán)隊表示,該系統(tǒng)目前仍存在很多限制。它并未設(shè)計用于個體基因組解讀,也無法像23andMe或臨床基因檢測那樣預(yù)測疾病風(fēng)險或祖源信息。也就是說,該模型不適用于個體診斷或醫(yī)療決策。


    “阿爾法基因組”目前的訓(xùn)練數(shù)據(jù)僅限于人類和小鼠,尚未覆蓋其他物種,其跨物種適應(yīng)性尚待驗證。同時,它在識別調(diào)控元件與遠(yuǎn)距離靶基因(距離超過10萬個堿基)之間關(guān)系方面的能力仍較弱,也無法完全建模細(xì)胞在不同狀態(tài)、不同組織中的動態(tài)調(diào)控機(jī)制。


    美國冷泉港實驗室計算生物學(xué)家彼得·庫指出:“這些模型往往是在一個固定條件下訓(xùn)練的,但現(xiàn)實中的細(xì)胞是動態(tài)的,蛋白質(zhì)水平、DNA化學(xué)修飾、轉(zhuǎn)錄狀態(tài)等都會隨時間和環(huán)境變化,這些變化會顯著影響同一段DNA序列的行為。”因此,未來模型需要引入更多“多模態(tài)”“多時間尺度”因素,才能更真實地模擬生物過程。

    (審核編輯: 朝言)

    聲明:除特別說明之外,新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán),請聯(lián)系我們刪除。