解碼利用AI高效發現靶點的策略,英矽智能發表綜述論文 二維碼
發表時間:2023-08-07 16:58 全球領先的由生成式人工智能驅動的生物醫藥科技公司英矽智能在 Cell Press 旗下藥理學權威期刊 Trends in Pharmacological Sciences 發布觀點文章,闡述靶點發現從傳統實驗方法到引入多組學分析、機器學習輔助,最終發展到人工智能驅動的范式轉變,并分享靶點評估相關見解。文章探討多種創新靶點發現策略,包括深度學習模型發現靶點、通過實驗驗證人工智能識別的靶點、以及使用生成式人工智能合成數據輔助靶點發現。除成藥性和毒理外,新穎性也是靶點評估的關鍵因素。靶點的可信度和新穎性之間需要權衡。 英矽智能持續關注前沿AI科技進展,并在其自研Pharma.AI藥物發現平臺下建設了靶點發現引擎PandaOmics,由超過20種預測模型和生成生物學模型搭建而成,集成***組學數據樣本、***分子信息和數十萬級分子相互作用機制等數據。該平臺可支持專業的靶點篩選、排序和分析,兼具針對生命科學信息自然語言問答系統和將疾病、基因及藥物聯系起來的知識圖譜功能。 靶點識別概述 人們普遍認為藥物研發過程耗時長、成本高、風險大,將一種新藥推向市場通常需要10年左右的時間和20億美元。到2022年,已經得到驗證的成功藥物靶點不到500個。相對于人類估計的可成藥靶點總數,這只是很小的一個部分。盡管許多候選藥物在臨床前階段經過了大量的優化,2009-2018年間臨床試驗的平均失敗率高達84.6%,造成大量的時間和金錢浪費。 候選藥物折戟臨床試驗階段的主要原因在于未表現出良好臨床藥效,而適宜的藥物靶點是提升成功率的關鍵因素。 為達到治療效果,藥物分子應當對特定的生物分子或細胞通路進行調節,確認這些“調節目標”的過程就是“靶點識別”,在現代藥物發現流程中越發受到重視。盡管過去的幾十年見證了實驗和組學技術的持續突破創新,但確定可操作的治療靶點仍然充滿挑戰。當前,將多組學數據與人工智能算法結合的靶點識別方法正獲得關注,被認為具有廣闊的應用前景。 本文中,我們討論常規的靶點識別方法,并著重闡述工智能算法在靶點識別中的應用,旨在展望即將到來的AI驅動藥物發現時代,并鼓勵將人工智能整合到藥物研發的嘗試。 1、實驗方法 自 20 世紀 60 年代以來,實驗方法在靶點識別方面做出了突出貢獻,包括基于親和力的生化方法、比較分析方法和化學遺傳篩選方法。其中,采用小分子親和探針在配體與蛋白質相互作用時對蛋白質進行無痕標記,是最為直接的一種方法。探針的選擇在很大程度上取決于起始分子的特性。 細胞培養條件下穩定同位素標記技術(Stable isotope labeling by amino acids in cell culture,SILAC)則是比較分析的一個例子。這是一種較為常用的定量蛋白質組學工具,利用穩定同位素標記的氨基酸來準確區分細胞蛋白質組。在肝細胞癌(HCC)、多發性骨髓瘤、子宮內膜癌和結腸直腸癌等多種癌癥類型中進行的研究清楚地證明了SILAC確定疾病發病關鍵機制的作用。 以RNA干擾和CRISPR-Cas9基因編輯為輔助的化學遺傳篩選方法長期受到關注。利用針對性的CRISPR干擾篩選,生物學家成功定位到SARS-CoV-2的重要調節因子BRD2。盡管 CRISPR技術問世已有10年之久,但它仍在不斷發展,以進一步提高其靈活性、簡便性和高效性,不僅可用于靶點識別,還可作為基因治療和診斷工具。2、多組學方法 多組學數據為研究人員提供了來自不同方面的相互關聯的分子信息,包括靜態基因組數據、時空動態表達水平、代謝數據。 作為建立最早、發展最成熟的組學學科,基因組學主要研究 DNA 序列中的遺傳變異,是靶點識別中不可缺少的因素,但針對導致特定疾病的致病基因變異的區分仍有困難,有望從多種組學數據的整合中獲益。 除基因組學外,轉錄組學和蛋白質組學數據可用于確定調控基因和蛋白質水平的致病基因位點,并有助于發現疾病致病基因和途徑;表觀基因組學和代謝組學數據也可作為GWAS確定變異的功能證據,支持其與疾病的關聯和臨床應用。 3、計算輔助方法 由于典型的基于實驗的靶點識別既費力又耗費資源,計算方法已成為實現高效篩選的替代方法,具有廣闊的應用前景。根據蛋白質結構和相關化合物化學結構的可用性,藥效篩選、反向對接和結構相似性評估已被用于預測小分子的新型生物靶標。此外,機器學習(包括有監督和無監督)的發展正不斷賦能靶點識別流程。
AI驅動的靶點識別 近年來,業界見證了生物醫學數據的爆炸式增長,覆蓋從基礎研究到臨床試驗的多個階段。大量的數據為分析工作帶來了挑戰,也為人工智能搭建了舞臺,讓AI在生物標記物識別、適應癥優先排序、類藥分子設計、藥代動力學性質預測、藥物靶點相互作用、臨床試驗結果預測等方面做出顯著貢獻。 目前,多款人工智能賦能的藥物已經進入臨床階段,如治療非酒精性脂肪性肝炎的GS-0976、治療實體瘤的EXS-21546,以及治療特發性肺纖維化的 ISM001-055——這也是有史以來**款進入臨床驗證階段的AI賦能新藥,靶向AI發現的創新靶點,擁有AI設計的新穎結構,現已在I期臨床試驗中取得積極初步結果并開啟II期臨床試驗。
1、深度學習應用于靶點識別 深度學習又稱深度神經網絡,由多個隱藏節點層組成,通過這些節點層層遞進,進行數據處理和特征提取。近年來,深度學習等基于機器學習的算法引起廣泛關注。與傳統的機器學習方法相比,基于深度學習的最新架構,如生成式對抗網絡(GANs)、遞歸網絡(recurrent network)等,已經在制藥領域取得了**的成果。 舉例而言,英矽智能于2022年7月宣布,公司與Answer ALS項目合作開展的肌萎縮側索硬化癥(ALS)靶點識別項目,成功發現28個經過驗證的潛在靶點,其中18個(64%)在果蠅實驗中被驗證有效,涵蓋8個未經報告過的基因。此次研究中,團隊利用英矽智能自研人工智能平臺PandaOmics分析了來自公共數據集的中樞神經系統(CNS)樣本表達譜和由誘導性多功能干細胞分化成的運動神經元(diMN)表達譜,研究結果發表于同行評議期刊 Frontiers in Aging Neuroscience。 此外,大型語言模型還有助于通過快速生物醫學文本挖掘發現治療目標。基于大型語言模型的聊天功能,如微軟 BioGPT和英矽智能ChatPandaGPT,可以在從數以百萬計的出版物中提取的大量文本數據上進行預訓練,進而將疾病、基因和生物過程聯系起來,快速識別疾病發生發展的生物機制,和潛在藥物靶點、生物標志物。然而,大型語言模型通常是在人類生成的文本上進行訓練的,不一定具有判斷數據準確性的能力,故存在無意中延續人類偏見的可能。 2、AI生成數據集輔助靶點識別 通過利用人工智能算法,研究人員模擬各種生物場景生成數據集,有望賦能罕見病研究等實驗數據稀缺的治療領域。然而,模型無法模擬其不理解的復雜數據,生成數據在不同種人群中的偏差,以及數據的質量控制和驗證,是這一領域將面臨的主要挑戰。
3、靶點選擇:新穎性和可信度的平衡 關于靶點選擇標準,主要考慮的是與疾病的關聯、成藥性、毒性,以及新穎性。除實驗方法外,研究人員常采用基于網絡的分析法捕捉不同基因、蛋白質、藥物和其他分子實體之間的關系,根據靶點在網絡中的位置和連接狀況判斷靶點與疾病的關聯。
成藥性即候選分子調節特定靶點的能力,受到給藥方式、蛋白質定位、類別、結構可用性等因素的影響。此外,研究人員還必須通過評估相關的細胞過程、基因本質和組織特異性來考慮靶點毒性。 Santos等人的研究(Santos, R. et al. (2017) A comprehensive map of molecular drug targets. Nat. Rev. Drug Discov. 16, 19–34)表明,獲批藥物中的大多數都靶向高度可信的靶點,新穎靶點占比很小。在人工智能輔助的靶點選擇過程中,這一現狀有望得到改變。 基于涉及科學出版物、基金和臨床試驗的海量數據,人工智能提取支持性和關聯性證據,將潛在靶點與適應癥聯系起來,在促進新穎靶點發現的同時推動藥物重定向(即“老藥新用”),實現降本增效。
總結與展望 在廣袤的化學空間和海量的“可成藥靶點”中,人類已經完成探索的部分少之又少,產學研界迫切需要更高效的靶點識別策略。 隨著越來越多AI發現的靶點在臨床前乃至臨床試驗中得到驗證,人工智能有望賦能機制復雜的疾病研究,如癌癥、神經退行性疾病和自身免疫性疾病等。此外,面對突發性傳染病的爆發,人工智能有望通過快速確定潛在藥物靶點,為抗病毒療法開發提供啟迪。該文章也得到了英矽智能聯合首席執行官任峰博士和聯合創始人兼中東團隊負責人Alex Aliper博士的指導,以及香港團隊Xi Long博士和Bonnie Hei Man Liu博士對圖表說明和文獻綜述的貢獻。 本網站所有轉載文章系出于傳遞更多信息之目的,轉載內容不代表本站立場。不希望被轉載的媒體或個人可與我們聯系,我們將立即進行刪除處理。 |
|