在科技飛速發(fā)展的今天,人工智能(AI)和合成生物學(xué)這兩大前沿領(lǐng)域的融合,正在掀起一場足以改變?nèi)祟愇磥淼目萍几锩W罱?《ACS合成生物學(xué)》(ACS Synthetic Biology)雜志發(fā)布了一期特刊,聚焦"人工智能在合成生物學(xué)中的應(yīng)用",全面展示了這一令人興奮的交叉領(lǐng)域的最新進(jìn)展。
合成生物學(xué):重塑生命的科學(xué)
合成生物學(xué)是一門旨在設(shè)計(jì)和構(gòu)建新型生物系統(tǒng)的學(xué)科。它像是一場宏大的"生命魔法",科學(xué)家們就像魔法師,試圖創(chuàng)造出全新的生命形式或賦予現(xiàn)有生物體新的功能。這個(gè)領(lǐng)域的潛力是巨大的,有望幫助我們解決諸如疾病治療、環(huán)境污染、能源短缺等一系列重大社會(huì)問題。
然而,合成生物學(xué)面臨著一個(gè)巨大的挑戰(zhàn):我們對(duì)生物系統(tǒng)的預(yù)測能力遠(yuǎn)遠(yuǎn)不如對(duì)物理或化學(xué)系統(tǒng)的預(yù)測。這一局限性帶來了兩個(gè)方面的問題:
實(shí)踐層面:我們無法精確地按照特定要求設(shè)計(jì)生物系統(tǒng)。例如,我們還不能輕易地設(shè)計(jì)一種蛋白質(zhì)使其與某個(gè)分子以特定的結(jié)合親和力結(jié)合,或者設(shè)計(jì)一個(gè)細(xì)胞使其以特定的產(chǎn)量、速率和效率生產(chǎn)某種化學(xué)物質(zhì)。
基礎(chǔ)層面:我們對(duì)導(dǎo)致觀察到的生物表型的底層機(jī)制理解不足。
這就像是我們有了一個(gè)神奇的魔法棒,但還不完全知道如何精準(zhǔn)地使用它。
AI:合成生物學(xué)的"魔法助手"
而這時(shí),人工智能和機(jī)器學(xué)習(xí)(ML)技術(shù)的出現(xiàn),就像是為合成生物學(xué)帶來了一個(gè)強(qiáng)大的"魔法助手"。AI/ML技術(shù)展現(xiàn)出了為合成生物學(xué)提供所需預(yù)測能力的巨大潛力,可以應(yīng)用于合成生物學(xué)過程的各個(gè)環(huán)節(jié)(如圖1所示)。

這期特刊集中展示了AI/ML在合成生物學(xué)中的廣泛應(yīng)用,以及目前正在探索的各種最先進(jìn)的AI/ML架構(gòu)。讓我們一起來看看這些激動(dòng)人心的研究進(jìn)展!
蛋白質(zhì)工程:AI驅(qū)動(dòng)的精準(zhǔn)設(shè)計(jì)
蛋白質(zhì)是生命的基石,也是合成生物學(xué)的重要研究對(duì)象。特刊中有多項(xiàng)研究展示了AI在蛋白質(zhì)工程中的強(qiáng)大潛力:
O'Neill等人開發(fā)了一套信號(hào)肽元件工具包,可用于提高中國倉鼠卵巢細(xì)胞中生物制藥蛋白的產(chǎn)量。通過ML輔助的載體設(shè)計(jì),多種產(chǎn)品的產(chǎn)量比標(biāo)準(zhǔn)工業(yè)系統(tǒng)提高了1.8倍以上。
Marchal等人開發(fā)了一種基于高斯過程的ML輔助蛋白質(zhì)工程工作流程,用于改進(jìn)乙酰輔酶A羧化酶。在體外測試的10個(gè)變體中,9個(gè)是活性的,這比之前的隨機(jī)突變成功率有了顯著提高。其中兩個(gè)新變體分別顯示出2倍的羧化速率增加和60%的能量需求減少。
Bricco等人利用遺傳編程開發(fā)了名為POET的蛋白質(zhì)工程工具,展示了其在設(shè)計(jì)具有改進(jìn)MRI對(duì)比度的新型肽方面的實(shí)用性。
Chen等人對(duì)基于黃素單核苷酸的熒光蛋白CreiLOV進(jìn)行了大規(guī)模序列-功能分析和上位性分析,收集了超過90%的單點(diǎn)突變和選定組合變體的數(shù)據(jù)。他們研究了幾種統(tǒng)計(jì)和ML模型,以捕捉特定和全局上位性,并得出結(jié)論認(rèn)為基于ML的模型能夠根據(jù)低階突變(1-3個(gè)突變)訓(xùn)練數(shù)據(jù),在預(yù)測和測量高階突變的適應(yīng)度值之間實(shí)現(xiàn)高度相關(guān)。
Kao等人采用基于深度學(xué)習(xí)的反向蛋白質(zhì)折疊模型ProteinMPNN,設(shè)計(jì)了序列發(fā)散的泛素變體,這些變體對(duì)E3泛素-蛋白連接酶Rsp5外部位點(diǎn)的HECT結(jié)構(gòu)域具有高親和力,產(chǎn)生了幾個(gè)成功的設(shè)計(jì),具有更高的蛋白質(zhì)產(chǎn)量、保持高熱穩(wěn)定性和增強(qiáng)的結(jié)合親和力。
這些研究充分展示了AI在蛋白質(zhì)工程中的巨大潛力,從提高產(chǎn)量到改進(jìn)功能,AI正在幫助科學(xué)家們以前所未有的精度和效率設(shè)計(jì)蛋白質(zhì)。
代謝工程:AI優(yōu)化的生物工廠
除了蛋白質(zhì)工程,AI在代謝工程領(lǐng)域也展現(xiàn)出了強(qiáng)大的應(yīng)用前景:
Khamwachirapithak等人應(yīng)用ML來優(yōu)化釀酒酵母在環(huán)境溫度和升高溫度下的生物乙醇生產(chǎn)。在初始實(shí)驗(yàn)中,他們?cè)?0°C下實(shí)現(xiàn)了63%的乙醇產(chǎn)量提升,隨后通過ML輔助的工作流程,在40°C下又實(shí)現(xiàn)了額外7%的提升。
Merzbacher等人利用貝葉斯優(yōu)化方法,有效地設(shè)計(jì)和優(yōu)化了生物回路。他們以大腸桿菌中生產(chǎn)葡糖酸、脂肪酸和對(duì)氨基苯乙烯的幾種代謝途徑為例,展示了如何加速篩選最佳設(shè)計(jì),包括考慮不確定的酶動(dòng)力學(xué)參數(shù)、使用結(jié)合代謝和遺傳控制的分層架構(gòu),以及復(fù)雜模型的多參數(shù)優(yōu)化。
這些研究表明,AI不僅可以幫助我們?cè)O(shè)計(jì)單個(gè)蛋白質(zhì),還可以優(yōu)化整個(gè)代謝途徑,甚至是復(fù)雜的生物回路系統(tǒng)。這為創(chuàng)建高效的"生物工廠"開辟了新的可能性。
基因組挖掘:AI助力發(fā)現(xiàn)新型天然產(chǎn)物
特刊中還包括一篇綜述文章,由Yuan等人撰寫,討論了開發(fā)和應(yīng)用ML工具探索潛在天然產(chǎn)物的最新進(jìn)展,特別是ML輔助的天然產(chǎn)物基因組挖掘和預(yù)測其生物活性。這項(xiàng)研究顯示了AI在發(fā)現(xiàn)新型生物活性分子方面的巨大潛力,這對(duì)于新藥開發(fā)和其他生物技術(shù)應(yīng)用具有重要意義。
高級(jí)ML架構(gòu):為生物學(xué)定制的AI
特刊還介紹了幾種專為生物學(xué)問題設(shè)計(jì)的先進(jìn)ML架構(gòu):
Nisonoff等人設(shè)計(jì)了一種原則性的概率方法,將生物物理學(xué)知識(shí)整合到貝葉斯神經(jīng)網(wǎng)絡(luò)中,使模型更多地依賴于生物物理學(xué)先驗(yàn)信息。他們?cè)贕FP熒光和GB1結(jié)合預(yù)測等幾個(gè)例子上展示了這種方法的有效性。
He等人提出了一種新的可解釋模型架構(gòu)Nucleic Transformer,基于自注意力機(jī)制和卷積,展示了它在大腸桿菌啟動(dòng)子分類、病毒基因組識(shí)別、增強(qiáng)子分類和染色質(zhì)輪廓預(yù)測等多個(gè)模型任務(wù)中的實(shí)用性。
Praljak等人提出了ProtWave-VAE,這是一種深度生成模型,結(jié)合了基于多序列比對(duì)和自回歸學(xué)習(xí)范式的優(yōu)點(diǎn),用于推斷有意義的功能和系統(tǒng)發(fā)育嵌入,并解決無需比對(duì)的同源蛋白家族內(nèi)的下游蛋白質(zhì)適應(yīng)度預(yù)測任務(wù)。
這些研究表明,科學(xué)家們正在努力開發(fā)更適合生物學(xué)特點(diǎn)的AI模型,這將進(jìn)一步提高AI在合成生物學(xué)中的應(yīng)用效果。
文獻(xiàn)挖掘:AI助力知識(shí)提取
特刊中還有兩項(xiàng)有趣的研究聚焦于利用AI進(jìn)行合成生物學(xué)文獻(xiàn)挖掘:
Xiao等人開發(fā)了一個(gè)工作流程,并提出了自然語言處理工具GPT-4的提示工程,從170多篇關(guān)于兩種油脂酵母的出版物中提取知識(shí)。挖掘的數(shù)據(jù)使基于ML的模型能夠預(yù)測發(fā)酵產(chǎn)量,展示了生成式AI在從研究文章中提取數(shù)據(jù)以促進(jìn)生物制造發(fā)展方面的潛力。
Meier等人使用主題建模創(chuàng)建了合成生物學(xué)內(nèi)研究主題的綜合地圖,并使用合著網(wǎng)絡(luò)來獲得該學(xué)科的系統(tǒng)視圖。
這些研究展示了AI在科學(xué)文獻(xiàn)分析和知識(shí)提取方面的巨大潛力,這將大大加速科學(xué)發(fā)現(xiàn)的過程。
挑戰(zhàn)與展望
盡管AI在合成生物學(xué)中展現(xiàn)出了巨大的潛力,但仍然存在一些挑戰(zhàn):
- 缺乏集成和標(biāo)準(zhǔn)化的數(shù)據(jù)庫
- 缺乏針對(duì)小型和有偏數(shù)據(jù)集的穩(wěn)健ML算法
然而,這些挑戰(zhàn)也為未來的研究指明了方向。隨著更多AI工具的開發(fā)和應(yīng)用,我們有理由相信,這些挑戰(zhàn)終將被克服。
結(jié)語:AI與合成生物學(xué)的美好未來
這期特刊充分展示了AI工具在合成生物學(xué)中的廣泛應(yīng)用,以及AI在簡化各種合成生物學(xué)應(yīng)用的工作流程和過程方面所展現(xiàn)的巨大前景。我們相信,未來將會(huì)有更多的AI工具被開發(fā)和應(yīng)用,以解決合成生物學(xué)領(lǐng)域中的各種挑戰(zhàn)性問題。
AI與合成生物學(xué)的結(jié)合,就像是為生命科學(xué)注入了一股強(qiáng)大的魔力。它不僅加速了我們對(duì)生命奧秘的探索,還為我們創(chuàng)造全新的生命形式和功能開辟了無限可能。這場科技革命正在改變我們理解和操縱生命的方式,未來,我們或許能夠像設(shè)計(jì)機(jī)器一樣精確地設(shè)計(jì)生命,為人類面臨的各種挑戰(zhàn)提供創(chuàng)新解決方案。
Garci?a Marti?n H, Mazurenko S, Zhao H. Special Issue on Artificial Intelligence for Synthetic Biology[J]. ACS synthetic biology, 2024, 13(2): 408-410.