Summary:
台北2024年6月25日 /美通社/ -- 繼今年 6 月份於台北舉辦的COMPUTEX 2024引起AI浪潮後,全球基因定序儀器龍頭企業 Illumina 的副總裁及特聘科學家樊鎧豪(Kyle Kai-How Farh)博士於 6 月 21 日到台南出席醫學研討會和發表專題演講,以「人工智慧在精準醫學和藥物開發的應用(AI for Precision Medicine and Drug Discovery)」為題,暢談如何借助深度學習(Deep learning)技術探索臨床基因變異,並以此促進新藥物的開發。此外,他也分享了 AI 在臨床試驗的應用以及對精準醫學發展的貢獻。
跨越資訊遺傳學醫學 3 大領域,目前執掌 Illumina AI 實驗室
樊博士於 2015 年 5 月加入 Illumina,目前是這家生技大廠的副總裁兼基因組解讀 AI 實驗室負責人與首席研究員,領導一個由超過 50 名跨國專家學者組成的跨領域團隊,團隊成員涵蓋深度學習、統計遺傳學和分子生物學等不同領域,致力探索人類遺傳變異帶來的臨床影響,從而提升疾病診斷率,並應用於新藥的開發。
事實上,樊博士本身也是一位跨領域專家,他在 2001 年於美國萊斯大學(Rice University)畢業,取得資訊科學學士學位後,先後於麻省理工學院和哈佛醫學院完成分子生物學博士學位及醫學士哲學博士(MD–PhD)雙學位。此後他曾分別於布洛德研究所(Broad Institute of MIT and Harvard)從事群體遺傳學和神經生物學的博士後研究,以及在波士頓兒童醫院(Boston Children's Hospital)臨床遺傳學部門擔任住院醫師,其跨學科實力由此可見一斑。
解讀變異尚在起步階段,PrimateAI-3D 助破解意義不明變異
在演講的一開始,樊博士指出科學界現今對人類遺傳變異仍然所知甚少,針對這些變異的臨床影響的研究還是處於起步階段。在 7,000 萬個涉及蛋白質編碼的變異(Protein-coding variants)之中,只有約 0.1% 是已知道其功能或影響的,其餘 99.9% 仍是屬於「意義不明的變異(Variants of unknown significance,VUS)」。有鑒於此,他與團隊定下 5 年計畫,期望能早日破解人類基因組中所有變異會帶來的臨床影響。
為了在這個領域尋求突破,樊博士的團隊近年開發出一套名為 PrimateAI-3D 的深度學習演算法。顧名思義,研究人員採用了來自 233 種靈長類動物(Primates)、超過 800 隻個體(平均每個物種 3.5 個)共 450 萬個常見遺傳變異來訓練這個 AI 演算法,訓練數據及規模甚至是現有權威資料庫 ClinVar 的 70 倍。考慮到靈長類動物的蛋白質編碼序列跟人類的吻合程度高達 99.6%,結合序列的進化保守性(Evolutionary conservation)和蛋白質 3D 結構,經過訓練的演算法可用作預測人類基因變異的致病性。
樊博士提到,靈長類動物持續平行演化(Parallel evolution),因生活在相似環境而發展出相似的適應特徵,這導致部分疾病的基因已經透過自然選擇而被淘汰。而在靈長類動物中常見的變異對人類而言普遍是良性的,這亦是建立 PrimateAI-3D 演算法的核心理念,由此,研究人員將大約 440 萬個原本被定義為 VUS 的人類基因變異重新歸類為「可能良性(likely benign)」,為解讀基因組變異帶來重大突破。演算法的研究成果於 2023 年 6 月在頂尖期刊《科學》(Science)中發表,團隊發現 PrimateAI-3D 在經過訓練後,其區分良性和致病性變異的能力顯著優於另外 15 種已發布的機器學習演算法。
接下來樊博士以 CACNA1A 基因為例,進一步介紹研究團隊如何使用深度學習解讀基因變異。醫學界目前已知 CACNA1A 的致病性變異會導致癲癇和自閉症等一系列神經病變和發育障礙,他表示基於自然選擇演化的數據可以幫助訓練模型,找出 CACNA1A 基因與癲癇的關聯。這些模型能夠識別致病變異,並應用於藥物的開發過程。此外,在 CACNA1A 基因變異的分析中,樊博士博士展示結合 gnomAD、靈長類變異、ClinVar 資料庫和 PrimateAI-3D 數據的優勢,通過多項數據源的交叉分析比對,可以更準確地理解基因變異的臨床意義。
Illumina 的副總裁及特聘科學家樊鎧豪博士到台南發表專題演講,暢談如何借助 AI 探索人類基因變異,從而加速新藥開發。
以 AI 辨識人類致病變異,提升藥物發現及臨床試驗成功機率
除了準確分辨人類基因體的變異,樊博士表示 PrimateAl-3D 演算法也有助於突破標靶藥物開發的關鍵瓶頸,從而大幅提高藥物開發和臨床試驗的成功率。以 LDLR 和 CDSK9 這兩個基因為例,它們所編碼的蛋白是與高膽固醇血症和心血管疾病密切相關的生物標記物,透過利用此 AI 演算法推估變異的致病性評分(PrimateAI-3D score),研究人員發現人體內低密度膽固醇(Low-density lipoprotein cholesterol,LDL,即民眾俗稱的「壞膽固醇」)的水平與 LDLR 和 PCSK9 的變異相關。例如當前者的變異得出的 PrimateAI-3D 分數較高,個體血液中的 LDL 膽固醇水平會比低分者為高。至於後者,演算法結果顯示帶有罕見且 PrimateAI-3D 分數較高的變異的個體,其 LDL 膽固醇水平會相對較低。
這些發現將有助科學家更有效找出藥物標靶,繼而開發模仿自然遺傳變異的藥物。事實上,借助 AI 搭配遺傳學分析,團隊已經找出造成 LDL 異常累積的路徑,讓藥廠能夠針對當中的關鍵變異及生物標記物研發標靶療法,估計相關藥物(例如 PCSK9、ANGPTL3/4 或 NPC1L1 的抑制劑)的市場規模達數十億美元計。此外,團隊另一個於 2023 年在《科學》中發表的研究顯示,同樣針對英國生物樣本庫(UK Biobank)中逾 45 萬個個體,PrimateAI-3D 在發現新的藥物標靶方面的表現顯著優於美國某藥廠於 2021 年進行的研究。展望未來,團隊將會與不同的大藥廠以及國家級基因定序計畫合作,期望將演算法的應用範圍從高膽固醇這類比較普遍的健康問題拓展至罕見多發性硬化症、帕金森氏症等相較罕見的疾病。
另一方面,樊博士在演講中也提到「多基因風險評分(Polygenic Risk Score,PRS)」帶來的挑戰。簡單而言,PRS 就是根據個體中多個基因的變異狀況,以統計學方法計算出一個人罹患某種疾病的風險。在罕見變異多基因風險評分(PRS)方面,顯示罕見變異 PRS 能夠有效識別疾病風險最高的個體,特別是膽固醇異常和 2 型糖尿病風險。在跨族群通用性方面,罕見變異 PRS 在非歐洲族群中的表現良好,呈現出比常見變異 PRS 更高的相關性。
AI 基因組學技術長足進步,加速精準醫學時代來臨
隨著機器學習、人工智慧和基因組學技術長足進步,樊博士及其團隊還進一步開發以深度神經網路為基礎的 SpliceAI,可利用 RNA 定序(RNA-seq),針對個別組織或疾病,預測相關的選擇性剪接(Alternative splicing)模式、以及會擾亂基因剪接的非編碼變異(Non-coding variants),並識別病人細胞中異常的剪接問題。現時 SpliceAI 的準確度可達 95%,遠超過現有功能類似的 AI 演算法。以自閉症為例,硏究團隊在 28 名未確診的自閉症患者中,預測了 75% 患者中基因體發生異常剪接的位點。
另一方面,團隊也持續開發新的應用,包括一款名為 perturb-seq 的基因編輯技術。其原理是將每顆細胞視為一個實驗,研究人員將不同基因變異插入單個細胞,讓每顆細胞都帶有一個變異,接下來再以單細胞 RNA 定序分析這些變異如何影響細胞功能,並運用機器學習演算法評估每個變異的致病性。目前團隊已借助此技術成功破解涉及 TP53、CDKN2A 和 SOD1 基因合共逾 5,000 個變異,當中前兩者是常見的腫瘤抑制基因。樊博士認為,這項技術未來可加速罕見疾病的診斷。最後他也表示,隨著精準醫學時代來臨,如何推動群體基因體定序,最終還是有賴人工智慧的技術協助。而 Illumina 亦致力在相關領域提供領先業界的服務和解決方案,協助各大藥廠加速藥物開發。
樊鎧豪博士講解如何以深度神經網絡技術預測基因剪接模式。
參考資料:
- https://www.linkedin.com/in/kyle-kai-how-farh-md-phd-8002bba7/
- https://sapac.illumina.com/science/genomics-research/articles/primateai-3d.html
- https://www.primad.basespace.illumina.com
- https://www.ncbi.nlm.nih.gov/clinvar/
- https://www.science.org/doi/10.1126/science.abn8197
- https://www.chop.edu/conditions-diseases/cacna1a-related-disorders
- https://www.genome.gov/Health/Genomics-and-Medicine/Polygenic-risk-scores
- https://www.science.org/doi/10.1126/science.abo1131
- https://www.nature.com/articles/s41586-021-04103-z