<p class="ql-block">2003年,人類基因組計(jì)劃成功繪制了人類DNA的全部約30億堿基對(duì)圖譜,圖譜包括編碼區(qū)和非編碼區(qū),這就是人類生命活動(dòng)的《天書》。</p> <p class="ql-block">人體靠這本《天書》里面的“產(chǎn)品設(shè)計(jì)圖”在細(xì)胞“工廠”制造合成蛋白質(zhì),工廠管理要保證高效和有序,涉及到生產(chǎn)計(jì)劃(特定信號(hào)觸發(fā)基因表達(dá))、下單(DNA→mRNA的轉(zhuǎn)錄)、調(diào)度(起始因子、延伸因子等)、排班(基因表達(dá)的時(shí)空調(diào)控)、原材料(20種氨基酸)、車間流水線(核糖體)、核心部件(rRNA)、技術(shù)工人(RNA聚合酶)、搬運(yùn)工(tRNA)、能源供應(yīng)(ATP和GTP)、包裝(內(nèi)質(zhì)網(wǎng)和高爾基體對(duì)多肽鏈進(jìn)行折疊、修飾)等資源,而科學(xué)家只讀懂《天書》的“產(chǎn)品設(shè)計(jì)圖”(編碼區(qū)),至于細(xì)胞工廠是怎么運(yùn)行、怎么配置生產(chǎn)資源、是誰在下指令統(tǒng)籌全局、最終包裝后的產(chǎn)品是什么樣的……可以說知之甚少。</p> <p class="ql-block">最近幾年,AI技術(shù)迅猛發(fā)展,同時(shí)也為解決生命科學(xué)的核心難題帶來重大突破,我們先講蛋白質(zhì)研究領(lǐng)域。蛋白質(zhì)是生命特征的核心,三維結(jié)構(gòu)形狀決定其功能,但科學(xué)家原來僅知氨基酸(零件清單)以及其序列(加工順序),無法理解其全部工作原理。按照傳統(tǒng)的解析方法,如X射線或冷凍電鏡,解析一個(gè)蛋白質(zhì)結(jié)構(gòu)需數(shù)月甚至數(shù)年,還不一定準(zhǔn)確。僅僅搞清楚血紅蛋白的結(jié)構(gòu),科學(xué)家就花費(fèi)了20年時(shí)間。</p> <p class="ql-block">2020年,DeepMind的AlphaFold用深度學(xué)習(xí)算法,對(duì)DNA編碼區(qū),用幾秒時(shí)間就高精度預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu),效率提升1000萬倍。現(xiàn)在AlphaFold的數(shù)據(jù)庫已涵蓋超2億種蛋白質(zhì)結(jié)構(gòu)<span style="font-size:18px;">(人類基因編碼約2萬種基礎(chǔ)蛋白質(zhì))</span>,涉及地球上98%的已知蛋白質(zhì),包括動(dòng)植物、細(xì)菌、其他微生物等100萬個(gè)物種。其中約35%的結(jié)構(gòu)與實(shí)驗(yàn)確定的結(jié)構(gòu)相當(dāng),另外45%的預(yù)測(cè)結(jié)構(gòu)也具有足夠的可信度。</p> <p class="ql-block">2025年5月,AlphaFold3已經(jīng)將預(yù)測(cè)范圍從蛋白質(zhì)結(jié)構(gòu)擴(kuò)展到DNA、RNA等大分子,準(zhǔn)確率比第一代AlphaFold提高一倍;還能通過動(dòng)畫演示模擬3D蛋白質(zhì)的動(dòng)態(tài),模擬藥物分子與蛋白質(zhì)/DNA/RNA的相互作用,藥物研發(fā)周期縮短10倍以上。</p> <p class="ql-block">如果說人類基因組計(jì)劃是讀懂《天書》里的字,則AlphaFold是讀懂《天書》里的文章——“產(chǎn)品設(shè)計(jì)圖”(編碼區(qū)),并繪制產(chǎn)品的3D圖紙(蛋白質(zhì)結(jié)構(gòu))。當(dāng)然,AI對(duì)蛋白質(zhì)結(jié)構(gòu)只是預(yù)測(cè),最終還需通過實(shí)驗(yàn)手段進(jìn)行驗(yàn)證,然后基于此開發(fā)更安全有效的藥物和療法。</p> <p class="ql-block">接下來講非編碼區(qū)的突破。人類基因組這本《天書》中,起碼98%屬于非編碼區(qū),科學(xué)家原來僅能看懂寥寥數(shù)頁,甚至曾誤認(rèn)為是廢紙(“垃圾DNA”)。其實(shí)里面大有玄機(jī),非編碼區(qū)決定了“產(chǎn)品設(shè)計(jì)圖”何時(shí)啟用、如何執(zhí)行、怎么控制。AlphaFold翻譯了《天書》里的“產(chǎn)品設(shè)計(jì)圖”,AlphaGenome則是蛋白質(zhì)合成工廠的“產(chǎn)品生產(chǎn)指南”、“智能指揮系統(tǒng)的破譯員”。</p> <p class="ql-block">AlphaGenome讀懂了蛋白質(zhì)合成工廠精準(zhǔn)運(yùn)行的內(nèi)在邏輯,能解析非編碼區(qū)的指令規(guī)律,識(shí)別出調(diào)控基因何時(shí)、何地、以何種程度表達(dá)信息,找到指揮統(tǒng)籌全局的指令源頭;能一次性處理長(zhǎng)達(dá)百萬級(jí)堿基的DNA片段,同步輸出11類關(guān)鍵的調(diào)控功能信息;能識(shí)別單個(gè)RNA剪接位點(diǎn)的“符號(hào)錯(cuò)配”,精準(zhǔn)找到DNA序列中哪些堿基的變化會(huì)影響基因表達(dá)的開啟或關(guān)閉,以及影響的程度。</p> <p class="ql-block">讓人驚訝的是,它發(fā)現(xiàn)與疾病相關(guān)的遺傳變異,都藏在《天書》非編碼區(qū)這些符號(hào)的細(xì)微變化中,比如它定位到非編碼區(qū)的一個(gè)細(xì)微的突變,這個(gè)突變引起的一個(gè)新的蛋白質(zhì)結(jié)合位點(diǎn)導(dǎo)致本應(yīng)沉默的白血病致癌基因被異常激活。</p> <p class="ql-block">總之,AlphaGenome在精準(zhǔn)定位疾病根源、發(fā)現(xiàn)新治療靶點(diǎn)、加速藥物研發(fā)、實(shí)現(xiàn)個(gè)性化治療、助力罕見病研究等方面的研發(fā)速度已經(jīng)超出我們的期待,我們很快將迎來各種疾病的大部分新藥和治療方法。</p> <p class="ql-block">AI讓我們醒悟到——A、T(U)、C、G四種堿基的排列是數(shù)字信息,蛋白質(zhì)的折疊是信息的物理表達(dá),非編碼區(qū)的調(diào)控是信息的運(yùn)算規(guī)則。生命的本質(zhì)或許是一套精密的信息系統(tǒng),或者一堆數(shù)字,怎么感覺這如同一場(chǎng)《大夢(mèng)》。</p><p class="ql-block">我看到花兒在綻放</p><p class="ql-block">我聽到鳥兒在歌唱</p><p class="ql-block">我看到人們匆匆忙忙</p><p class="ql-block">我看到云朵在天上</p><p class="ql-block">我聽到小河在流淌</p><p class="ql-block">我看到人們漫步在路上</p>