作者 | 劉冰一 編輯 | 青暮
德國(guó)科學(xué)家Roman Schulte-Sasse等人借助一款深度學(xué)習(xí)軟件,對(duì)數(shù)萬個(gè)醫(yī)療數(shù)據(jù)集展開分析后,鑒別出了165個(gè)可能導(dǎo)致癌癥的新基因。這項(xiàng)發(fā)表在Nature Machine Intelligence上的最新研究為個(gè)性化藥物靶向治療以及生物標(biāo)志物開發(fā)開辟了新前景。
論文鏈接:https://www.nature.com/articles/s42256-021-00325-y
癌癥導(dǎo)致細(xì)胞失控,癌細(xì)胞不斷繁殖并進(jìn)入組織器官,從而損害人體重要的生命功能。這些細(xì)胞通常是由癌癥基因中控制細(xì)胞發(fā)育突變的DNA引起的,但是已知的致癌突變基因非常少,這意味著目前表現(xiàn)溫和的其他基因也會(huì)導(dǎo)致癌癥,只是暫未被發(fā)現(xiàn)。
可用的高通量分子數(shù)據(jù)的增加為癌癥基因的鑒定帶來了計(jì)算上的挑戰(zhàn)。遺傳和非遺傳原因均會(huì)導(dǎo)致癌癥或腫瘤發(fā)生,因此有必要開發(fā)預(yù)測(cè)模型以有效整合不同的數(shù)據(jù)模式。
柏林馬克斯·普朗克分子遺傳學(xué)研究所(MPIMG)和亥姆霍茲Zentrum慕尼黑計(jì)算生物學(xué)研究所的一組研究人員使用機(jī)器學(xué)習(xí)技術(shù)開發(fā)了一種新算法,用于識(shí)別165個(gè)以前未知的癌癥基因。
導(dǎo)致癌癥的突變基因的數(shù)量非常少?;虼虬?又稱“基因敲除”,指對(duì)一個(gè)結(jié)構(gòu)已知但功能未知的基因,從分子水平上設(shè)計(jì)實(shí)驗(yàn)將該基因去除,或用其他相近基因取代,從而觀察推測(cè)相應(yīng)基因的功能)會(huì)產(chǎn)生突變和拷貝數(shù)變化,還有些基因通過遺傳機(jī)制(例如啟動(dòng)子DNA甲基化或非啟動(dòng)子),或者調(diào)節(jié)編碼突變,間接激活或沉默其他基因等不同的途徑將細(xì)胞轉(zhuǎn)化為癌細(xì)胞。此外,許多基因具有上下文相關(guān)的功能,在某些癌癥中可被反復(fù)突變,而在另一些癌癥中被表觀遺傳改變。
顯然,基因失調(diào)已可導(dǎo)致癌癥。所有新近鑒定的基因都與有名的癌癥基因緊密相互作用,并已在細(xì)胞培養(yǎng)實(shí)驗(yàn)中顯示出對(duì)腫瘤細(xì)胞生存至關(guān)重要。
1
個(gè)性化癌癥治療的基礎(chǔ)
該算法被稱為“ EMOGI”,這是一種基于圖卷積網(wǎng)絡(luò)的可解釋的機(jī)器學(xué)習(xí)方法,該算法可以解釋“基因演變?yōu)榘┌Y基因過程中細(xì)胞機(jī)制之間的關(guān)系”,預(yù)測(cè)癌癥及因網(wǎng)絡(luò)。在不同的PPI網(wǎng)絡(luò)和數(shù)據(jù)集中,EMOGI平均表現(xiàn)比其他方法更準(zhǔn)確。
正如安娜麗莎·馬西科(Annalisa Marsico)領(lǐng)導(dǎo)的研究團(tuán)隊(duì)在《Nature Machine Intelligence》期刊上所描述的那樣,該研究集成了從患者樣本中生成的數(shù)萬個(gè)數(shù)據(jù)集。這些信息除了包含突變的序列數(shù)據(jù)外,還包含有關(guān)DNA甲基化,單個(gè)基因的活性以及細(xì)胞途徑中蛋白質(zhì)相互作用的信息。在這些數(shù)據(jù)中,深度學(xué)習(xí)算法可檢測(cè)導(dǎo)致癌癥發(fā)展的模式和分子原理。
圖注:映射框架的原理圖-數(shù)據(jù)收集和串聯(lián)。
理想情況下,我們可以在某個(gè)時(shí)刻獲得所有癌癥基因的完整圖片,這可能對(duì)不同患者的癌癥進(jìn)展產(chǎn)生不同的影響,”MPIMG研究小組負(fù)責(zé)人Marsico說道,“這是個(gè)性化癌癥治療的基礎(chǔ)?!?/FONT>
與傳統(tǒng)的癌癥治療方法(例如化學(xué)療法)不同,個(gè)性化治療方法可根據(jù)腫瘤類型精確調(diào)整藥物治療?!澳繕?biāo)是為每位患者選擇最佳療法,即副作用最少的最有效療法。此外,我們將能夠根據(jù)癌癥的分子特征來識(shí)別已經(jīng)處于早期階段的癌癥?!?/FONT>
研究中說,只有知道了疾病的原因,我們才能夠有效地抵消或糾正它們,這就是為什么確定盡可能多的誘發(fā)癌癥的機(jī)制如此重要的原因。
2
用AI算法才能找到它們
“直到現(xiàn)在,大多數(shù)研究都集中在基因序列的致病性變化上,即細(xì)胞的藍(lán)圖,” Marsico團(tuán)隊(duì)的博士生,該出版物的第一作者Roman Schulte-Sasse說?!芭c此同時(shí),近年來已經(jīng)變得很明顯,表觀遺傳擾動(dòng)或基因活性失調(diào)也可能導(dǎo)致癌癥。”
這就是為什么研究人員將反映藍(lán)圖故障的序列數(shù)據(jù)與代表細(xì)胞內(nèi)部事件的信息合并在一起的原因。最初,科學(xué)家們證實(shí)突變或基因組片段的倍增確實(shí)是癌癥的主要驅(qū)動(dòng)力。然后,在第二步中,他們找出與實(shí)際癌癥驅(qū)動(dòng)基因不太直接相關(guān)的基因候選物。
Schulte-Sasse說:“例如,我們發(fā)現(xiàn)了在癌癥中序列基本不變的基因,但是由于它們調(diào)節(jié)能量供應(yīng),因此對(duì)于其他功能是必不可少的。” 這些基因通過其他方式失控,例如DNA上的化學(xué)變化--甲基化。這些修飾使序列信息完整無缺,但支配著基因的活性。這些基因是有前途的藥物靶標(biāo),但由于它們?cè)诤笈_(tái)運(yùn)行,因此我們只能使用復(fù)雜的算法才能找到它們。”
圖注:雙聚類的基因和特征貢獻(xiàn)圖,揭示了癌癥基因具有獨(dú)特的功能特征。
3
發(fā)現(xiàn)新的火車連接
研究人員的新程序在可疑的癌癥基因列表中添加了大量新條目,近年來,這一數(shù)目已增長(zhǎng)到700至1,000。只有結(jié)合了生物信息學(xué)分析和最新的人工智能(AI)方法,研究人員才能夠找到隱藏的基因。
Schulte-Sasse說:“蛋白質(zhì)和基因的相互作用可以映射為一個(gè)數(shù)學(xué)網(wǎng)絡(luò),稱為圖?!?“你可以把它想象成試圖猜測(cè)一個(gè)鐵路網(wǎng);每個(gè)車站對(duì)應(yīng)一個(gè)蛋白質(zhì)或基因,它們之間的每個(gè)相互作用都是火車連接?!?/FONT>
借助深度學(xué)習(xí),研究人員甚至能夠發(fā)現(xiàn)那些以前未被注意的火車連接。舒爾特-薩斯(Schulte-Sasse)的計(jì)算機(jī)分析了16種不同癌癥類型的成千上萬種不同的網(wǎng)絡(luò)圖,每個(gè)網(wǎng)絡(luò)圖包含12,000至19,000個(gè)數(shù)據(jù)點(diǎn)。
圖示:Emogi提取對(duì)應(yīng)于對(duì)癌癥基因分類重要的子網(wǎng)的PPI網(wǎng)絡(luò)組分。紅色基因名稱表明該基因預(yù)測(cè)通過eMogi是癌癥基因,節(jié)點(diǎn)的形狀表明該基因是否已經(jīng)在癌癥基因的數(shù)據(jù)庫中注釋。
4
不僅限于癌癥
數(shù)據(jù)中隱藏了許多有趣的細(xì)節(jié)。我們看到的模式取決于特定的癌癥和組織, Marsico說,“我們認(rèn)為這是腫瘤由不同器官中不同分子機(jī)制觸發(fā)的證據(jù)。”
研究人員強(qiáng)調(diào),EMOGI計(jì)劃不僅限于癌癥。從理論上講,它可以用來整合各種生物數(shù)據(jù)集并在那里找到模式。Marsico解釋說,“將我們的算法應(yīng)用于收集了多方面數(shù)據(jù)并且基因起著重要作用的類似復(fù)雜疾病可能是有用的,例如乳腺癌、甲狀腺癌,還有糖尿病等疾病?!?/FONT>
“我們提出了165個(gè)新的癌癥基因,這些基因不一定在反復(fù)變化,但可以與已知的癌癥基因相互作用,技術(shù)顯示這些發(fā)生作用的癌癥細(xì)胞與功能喪失篩選中的必需基因相對(duì)應(yīng)。我們相信,人工智能方法可以為精密腫瘤學(xué)開辟新的研究途徑,并成為用于預(yù)測(cè)其他復(fù)雜疾病的生物標(biāo)志物?!?/FONT>
參考鏈接:https://www.nature.com/articles/s42256-021-00325-y
https://www.sciencedaily.com/releases/2021/04/210412142730.htm
(轉(zhuǎn)載)