新研究,利用FUN-PROSE預(yù)測(cè)真菌基因的反應(yīng)利用FUN-PROSE預(yù)測(cè)真菌基因的反應(yīng) 二維碼
發(fā)表時(shí)間:2023-11-22 16:53 來(lái)自環(huán)境的信號(hào)引發(fā)一系列變化,以不同的方式影響不同的基因。因此,傳統(tǒng)上很難研究這些信號(hào)如何影響生物體。在一項(xiàng)新的研究中,研究人員開(kāi)發(fā)了一種名為FUN-PROSE的機(jī)器學(xué)習(xí)方法來(lái)預(yù)測(cè)基因?qū)Σ煌h(huán)境條件的反應(yīng)。 不管生物體是什么,細(xì)胞都會(huì)利用mRNA對(duì)周圍環(huán)境進(jìn)行微調(diào)。首先,他們使用一種叫做轉(zhuǎn)錄因子的蛋白質(zhì)來(lái)感知變化,然后將其與基因前面的DNA序列(稱為啟動(dòng)子)結(jié)合。這種附著既可以阻止基因形成mRNA,也可以增加mRNA的數(shù)量。然后mRNA作為模板在細(xì)胞中產(chǎn)生負(fù)責(zé)各種功能的蛋白質(zhì)。這種機(jī)制允許細(xì)胞快速重新分配資源,以維持生存。 研究啟動(dòng)子如何被控制是基因組學(xué)中最古老的挑戰(zhàn)之一,但研究人員仍在繼續(xù)努力解決這個(gè)問(wèn)題。**的問(wèn)題是不同的轉(zhuǎn)錄因子可以結(jié)合到相同的啟動(dòng)子序列,并且在不同的環(huán)境條件下以不同的排列方式結(jié)合。此外,雖然有一些證據(jù)表明轉(zhuǎn)錄因子傾向于與啟動(dòng)子中的特定序列基序結(jié)合,但并非所有這些都得到了廣泛的研究。近年來(lái),研究人員轉(zhuǎn)向人工智能來(lái)幫助他們解決這些挑戰(zhàn)。 生物工程和物理學(xué)教授Sergei Maslov (CAIM的***/CABBI)說(shuō):“基因有平均的表達(dá)水平,以前的機(jī)器學(xué)習(xí)模型無(wú)法測(cè)量在不同條件下這些水平是如何變化的。”“我們感興趣的是了解特定基因?qū)?/span>pH值、溫度和營(yíng)養(yǎng)變化的反應(yīng)。” 研究人員開(kāi)發(fā)了一種名為“條件特異性表達(dá)真菌啟動(dòng)子”(FUN-PROSE)的模型,用于預(yù)測(cè)面包酵母(釀酒酵母)和研究較少的真菌粗神經(jīng)孢子菌和Issatchenkia orientalis對(duì)環(huán)境變化的反應(yīng)。 為了建立這個(gè)模型,研究人員首先必須確定這三個(gè)物種的啟動(dòng)子序列和轉(zhuǎn)錄因子。然后,他們訓(xùn)練模型來(lái)了解哪些啟動(dòng)子基序在不同條件下被轉(zhuǎn)錄因子識(shí)別。 馬斯洛夫研究小組的研究生阿南森·納姆比亞(Ananthan Nambiar)說(shuō):“草棘球菌和東方棘球菌的轉(zhuǎn)錄因子不像葡萄球菌那樣廣為人知,所以我們必須推斷出哪些基因可以通過(guò)這些物種的轉(zhuǎn)錄因子來(lái)識(shí)別。”維羅妮卡·杜賓金娜(Veronika Dubinkina)是馬斯洛夫小組的前研究生,現(xiàn)在是格萊斯頓研究所的博士后研究員,她說(shuō),這個(gè)過(guò)程涉及到一種常用的方法,即掃描已知與DNA結(jié)合的蛋白質(zhì)區(qū)域。 最后,該模型學(xué)會(huì)了如何整合所有信息,以計(jì)算在特定條件下與mRNA的平均水平相比產(chǎn)生了多少mRNA。然后,研究人員將FUN-PROSE獲得的結(jié)果與RNA-seq數(shù)據(jù)進(jìn)行了比較,RNA-seq數(shù)據(jù)測(cè)量了所有三種真菌的mRNA水平波動(dòng)。每個(gè)生物體都有超過(guò)4000個(gè)基因和180個(gè)轉(zhuǎn)錄因子,這些轉(zhuǎn)錄因子在12-295個(gè)條件下被測(cè)量,這取決于對(duì)它的研究程度。 “預(yù)測(cè)在一系列條件下哪些基因是重要的一直是一個(gè)難題。然而,我們發(fā)現(xiàn)我們的模型非常接近于預(yù)測(cè)這些生物體實(shí)際發(fā)生的情況,”Nambiar說(shuō)。 除了評(píng)估其性能外,研究人員還闡明了該模型如何進(jìn)行預(yù)測(cè)。馬斯洛夫研究小組的前本科生西蒙·劉(Simon Liu)說(shuō):“即使它有黑箱的性質(zhì),我們也能夠理解我們的模型是如何看待啟動(dòng)子的,并發(fā)現(xiàn)它已經(jīng)學(xué)會(huì)了搜索已知的序列。”“能夠解釋經(jīng)過(guò)訓(xùn)練的模型對(duì)于驗(yàn)證其邏輯以及使用它來(lái)發(fā)現(xiàn)新的監(jiān)管知識(shí)至關(guān)重要。” 然而,這種模式確實(shí)在與以前從未遇到過(guò)的推廣者作斗爭(zhēng)。Nambiar說(shuō):“這個(gè)模型在新的條件下很好,但是如果你給它一個(gè)新的基因或啟動(dòng)子序列,它就會(huì)出錯(cuò)。” 根據(jù)馬斯洛夫的說(shuō)法,這些錯(cuò)誤是由于可用的數(shù)據(jù)有限。“機(jī)器學(xué)習(xí)是一個(gè)黑匣子,你需要好好訓(xùn)練它,這樣你才能學(xué)習(xí)生物學(xué),”他說(shuō)。“如果我們能獲得更多的數(shù)據(jù),這個(gè)模型將有更多的模式可供學(xué)習(xí),并將做出更準(zhǔn)確的預(yù)測(cè)。” 研究人員現(xiàn)在有興趣在其他生物體上測(cè)試他們的模型。“原則上,我們的技術(shù)沒(méi)有任何限制——它應(yīng)該適用于任何生物體。然而,以動(dòng)物為例,基因以更復(fù)雜的方式控制,這將需要模型結(jié)構(gòu)的重大改變和更多的訓(xùn)練數(shù)據(jù)。”Maslov說(shuō)。“不過(guò),看看這種模式能有多好,還是很有趣的。”
本網(wǎng)站所有轉(zhuǎn)載文章系出于傳遞更多信息之目的,轉(zhuǎn)載內(nèi)容不代表本站立場(chǎng)。不希望被轉(zhuǎn)載的媒體或個(gè)人可與我們聯(lián)系,我們將立即進(jìn)行刪除處理。 |
|