醫(yī)藥投資:解碼癌癥,人工智能如何超越醫(yī)生?

“我還能活多久?”這是每個癌癥患者腦海中浮現(xiàn)的問題。然而,治療他們的醫(yī)生卻無法給出一個明確的答案。


目前,醫(yī)生們能做的是將患有類似癌癥的患者分為幾大類,然后假設(shè)他們會對療法有相同的反應(yīng),并且具有類似的預(yù)后。然而,將患者分類的手段還十分粗糙,很多時候是基于醫(yī)生的雙眼。


病理學(xué)家們通?;趯M織切片的評估來預(yù)測患者的預(yù)后情況。他們會根據(jù)腫瘤的大小和特征來判斷腫瘤的級別,然而病理學(xué)家們有時會出現(xiàn)分歧,而且腫瘤的級別并不是總能準(zhǔn)確地預(yù)測患者的生存期。


1558581389(1).jpg

圖片來源:123RF


當(dāng)病理學(xué)家分析病理學(xué)圖像時,只有60%的時候他們會達(dá)成一致?!彼固垢4髮W(xué)(Stanford University)基因組學(xué)和個體化醫(yī)藥中心主任Michael Snyder博士說。在2013年,他的研究團(tuán)隊開始探索人工智能(AI)能否讓對癌癥預(yù)后的預(yù)測更為準(zhǔn)確


Snyder博士的研究生將組織學(xué)圖像和病理學(xué)家作出的診斷輸入到機(jī)器學(xué)習(xí)算法中,訓(xùn)練它將肺癌和正常組織區(qū)分開來,將兩種不同的肺癌區(qū)分開來。然后,他將與這些圖像相關(guān)的患者生存數(shù)據(jù)輸入到系統(tǒng)中,訓(xùn)練AI找出生存數(shù)據(jù)與圖像之間的關(guān)系。最后,他讓機(jī)器學(xué)習(xí)算法分析從來沒有見過的病理圖像,然后向人工智能(AI)提出了“我還能活多久?”這個對癌癥患者來說至關(guān)重要的問題。


他們的研究發(fā)現(xiàn),AI能夠通過分析圖像,判斷出特定患者的生存時間會比肺癌患者的平均值長還是短。病理學(xué)家們?nèi)匀浑y以作出這個看似簡單的判斷。這項研究發(fā)表在Nature Communications雜志上。


1558581438(1).jpg


受到這一結(jié)果的鼓舞,Snyder博士的團(tuán)隊將腫瘤的轉(zhuǎn)錄組(transcriptome)信息也輸入到機(jī)器學(xué)習(xí)系統(tǒng)中,將轉(zhuǎn)錄組信息與圖像信息結(jié)合,AI能夠更精確地預(yù)測患者的生存期,達(dá)到了超過80%的準(zhǔn)確率。


和Snyder博士一樣,很多其它研究團(tuán)隊也認(rèn)識到了AI在分析與癌癥相關(guān)的醫(yī)學(xué)圖像和組學(xué)數(shù)據(jù)方面的潛力。雖然這些工具還未能進(jìn)入診所,但是基于AI的分析手段不但能夠更快地作出更準(zhǔn)確的診斷,而且能夠找出最適合特定患者的抗癌療法,甚至預(yù)測他們的生存時間。


1558581475(1).jpg


機(jī)器學(xué)習(xí)對腫瘤研究和治療的影響(圖片來源:參考資料[1])


輸入:圖像,輸出:診斷


盡早診斷癌癥和開始治療是提高患者生存的關(guān)鍵。以宮頸癌為例,早期診斷能夠?qū)⒒颊叩?年生存率提高到90%以上。醫(yī)生可以通過不同手段將癌前病變清除,然而一旦癌癥發(fā)生轉(zhuǎn)移,5年生存期率會下降到56%以下。


在發(fā)達(dá)國家,婦女通常定期接受巴氏涂片(Pap smears)篩查來發(fā)現(xiàn)異常宮頸細(xì)胞的存在。而在發(fā)展中國家,這類篩查仍然非常罕見。另一種更為簡易的檢測使用醋酸沖洗宮頸表面,然后觀察宮頸中的白色區(qū)域,這可能是癌癥的先兆。然而,“這種檢測非常不準(zhǔn)確?!泵绹鴩野┌Y研究所(National Cancer Institute, NCI)的流行病學(xué)家Mark Schiffman博士說。這導(dǎo)致有的健康婦女會接受不必要的治療,而且其它攜帶癌前病變的婦女卻沒有接受治療。


1558581506(1).jpg


▲Mark Schiffman博士(圖片來源:NCI官網(wǎng))


Schiffman博士和其它研究團(tuán)隊一直在尋找一種讓醋酸篩查更為精確的方法。他的研究團(tuán)隊積累了成千上萬張宮頸照片,然而,對圖片的分析卻不能產(chǎn)生一種精確可靠的診斷方法。


在他瀕臨放棄的時候,比爾及梅琳達(dá)蓋茨基金會(Bill & Melinda Gates Foundation)旗下的非營利機(jī)構(gòu)向他伸出了援助之手。這家機(jī)構(gòu)想使用機(jī)器學(xué)習(xí)來處理Schiffman博士收集的圖像,看看計算機(jī)能否做出醫(yī)生無法作出的診斷。


于是Schiffman博士和他們合作,使用一種稱為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network)的機(jī)器學(xué)習(xí)手段來分析宮頸照片。這一算法的目的是發(fā)現(xiàn)圖像中幫助作出正確診斷的特征。


研究團(tuán)隊輸入機(jī)器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)庫包括從9000名婦女中獲得的宮頸圖像,以及這些婦女接受更精準(zhǔn)篩查檢測的結(jié)果,和長達(dá)18年與癌前病變和癌癥診斷相關(guān)的隨訪信息。他們用數(shù)據(jù)庫中70%的信息來訓(xùn)練機(jī)器學(xué)習(xí)模型,然后使用剩下30%數(shù)據(jù)中的圖像來檢測AI的表現(xiàn)。


1558581530(1).jpg


▲自動評估宮頸照片的AI算法構(gòu)架(圖片來源:參考資料[4])


Schiffman博士不敢相信實驗的結(jié)果!機(jī)器學(xué)習(xí)能夠以91%的準(zhǔn)確率將健康組織、癌前病變和癌癥區(qū)分開來,而醫(yī)生診斷的準(zhǔn)確率只有69%。


基于這項研究,Schiffman博士希望能夠開發(fā)出一種經(jīng)濟(jì)簡便的篩查方法,使用智能手機(jī)的照相機(jī),與基于機(jī)器學(xué)習(xí)的圖像分析結(jié)合,早期篩查宮頸癌。


斯坦福大學(xué)的研究團(tuán)隊也在利用智能手機(jī)的照相機(jī)來診斷皮膚病變。他們構(gòu)建了由13萬張皮膚病變圖像構(gòu)成的數(shù)據(jù)庫,然后訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)來區(qū)分良性腫塊和3種不同的惡性皮膚病變。機(jī)器學(xué)習(xí)系統(tǒng)達(dá)到了91%的準(zhǔn)確率,它的表現(xiàn)超過了大多數(shù)檢查同樣圖片的皮膚科醫(yī)生。


輸入:圖像和組學(xué)數(shù)據(jù),輸出:生存預(yù)測


Snyder博士團(tuán)隊的研究已經(jīng)表明,使用組學(xué)數(shù)據(jù)和圖像數(shù)據(jù)相結(jié)合,能夠進(jìn)一步提高對肺癌患者生存期的判斷。在他們進(jìn)行的研究中,AI對轉(zhuǎn)錄組和蛋白質(zhì)組學(xué)數(shù)據(jù)的分析發(fā)現(xiàn)了15個基因的表達(dá)水平能夠以80%的準(zhǔn)確性預(yù)測腫瘤的級別。這些基因在DNA復(fù)制,細(xì)胞周期調(diào)控,p53信號通路等和癌癥生物學(xué)相關(guān)的生理過程中起到重要作用。


1558581568.jpg


▲AI整合組學(xué)數(shù)據(jù)和圖片信息,預(yù)測癌癥患者生存期(圖片來源:參考資料[3])


受到Snyder博士團(tuán)隊研究的啟發(fā),紐約大學(xué)醫(yī)學(xué)院的研究團(tuán)隊探索了肺癌圖像和肺癌基因特征之間的關(guān)系。在經(jīng)過1634張健康或肺癌組織切片的訓(xùn)練后,機(jī)器學(xué)習(xí)系統(tǒng)能夠以97%的準(zhǔn)確率將腺癌和鱗狀細(xì)胞癌區(qū)別開。然后,研究團(tuán)隊將肺腺癌中10種最常見的基因突變數(shù)據(jù)輸入到算法系統(tǒng)中。經(jīng)過訓(xùn)練,計算機(jī)系統(tǒng)能夠以73%-86%的準(zhǔn)確率,通過分析病理學(xué)圖像來預(yù)測6種基因突變的存在。


這項研究表明,AI不但能夠幫助進(jìn)行癌癥的診斷,而且能夠幫助醫(yī)生們發(fā)現(xiàn)癌癥的特定遺傳特征,從而指導(dǎo)對患者的治療選擇


輸入:組學(xué)數(shù)據(jù),輸出:癌癥進(jìn)化


即使沒有圖像,組學(xué)數(shù)據(jù)本身也能夠為癌癥治療提供洞見。例如,英國癌癥研究所(Institute of Cancer Research, ICR)的研究人員在利用機(jī)器學(xué)習(xí)分析基因組學(xué)數(shù)據(jù),理解癌癥的進(jìn)化過程。一個腫瘤通常包括從原始癌細(xì)胞中產(chǎn)生的多個細(xì)胞譜系。想要有效治療癌癥,很重要的一點是理解腫瘤的異質(zhì)性和腫瘤進(jìn)化的方式。如果療法只對腫瘤的一部分有效,那么癌癥會復(fù)發(fā)。


通過對腫瘤的不同部位采樣,研究人員能夠推斷出癌癥的進(jìn)化路徑。而不同患者的腫瘤,通常具有差別很大的進(jìn)化樹,即便他們患上同樣一種癌癥。ICR的研究人員認(rèn)為,如果他們能夠發(fā)現(xiàn)癌癥進(jìn)化的共同路徑,腫瘤學(xué)家就可以使用這些信息將患者分組,他們可能會有類似的疾病進(jìn)展,或者對藥物的反應(yīng)相同。


研究人員使用了一種稱為遷移學(xué)習(xí)(transfer learning)的機(jī)器學(xué)習(xí)系統(tǒng)來尋找不同患者腫瘤的共同進(jìn)化樹。這種算法同時對所有患者基因組的進(jìn)化樹進(jìn)行分析,分享從不同進(jìn)化樹中獲得的信息,然后找出一種與整個患者群體相符的解決方案。


1558581601(1).jpg


▲AI找尋不同患者腫瘤的共同進(jìn)化途徑(圖片來源:參考資料[5])


作為第一步檢測,研究人員設(shè)計了一個人工構(gòu)建的“假”進(jìn)化樹,然后把相關(guān)的基因組信息輸入到機(jī)器學(xué)習(xí)系統(tǒng)中,不出所料,AI輸出了與研究人員構(gòu)建的進(jìn)化樹一樣的癌癥進(jìn)化信息。


然后,研究人員用一個常見的癌癥進(jìn)化樹來檢驗AI的表現(xiàn)。在結(jié)直腸癌中,良性腺瘤以特定的順序積累癌癥驅(qū)動基因的突變,例如:先是APC基因出現(xiàn)突變,然后是KRAS,然后是PIK3CA。研究人員將9個良性腺瘤和10個惡性腫瘤的基因組信息輸入給AI,它也能夠描繪出從良性腺瘤向惡性腫瘤轉(zhuǎn)變的正確進(jìn)化樹。


最后,研究人員讓AI分析進(jìn)化路徑尚不明確的腫瘤樣本。實驗結(jié)果表明,AI根據(jù)99名非小細(xì)胞肺癌患者的基因組信息,將他們分為10個小組,其中有的小組患者生存期小于150天,而其它小組的患者生存期顯著延長。這意味著這些分組具有預(yù)測預(yù)后結(jié)果的價值。這一算法同時還將50名乳腺癌患者分為不同小組,每個小組的患者生存期不一?!拔覀儧]有預(yù)計會出現(xiàn)分組,”這項研究的負(fù)責(zé)人,ICR進(jìn)化和癌癥中心的Andrea Sottoriva博士說:“這些結(jié)果表明,癌癥的進(jìn)化途徑是可以預(yù)測的?!盜CR最近啟動了一項藥物研發(fā)項目,專門針對癌癥進(jìn)化開發(fā)抗癌療法。


藥物開發(fā)依靠的是可以預(yù)測的規(guī)律,AI是一種幫助發(fā)現(xiàn)具有臨床意義的規(guī)律的有力工具。目前,AI在癌癥研究中的應(yīng)用還剛剛開始,可以預(yù)見,將來的AI不只會整合組學(xué)數(shù)據(jù)和圖像信息,還將整合其它類型的數(shù)據(jù),包括治療結(jié)果、疾病進(jìn)展?fàn)顩r,和其它科學(xué)家們能夠獲取的信息。


“癌癥是一種復(fù)雜的疾病,”Snyder博士說:“我們需要綜合所有的信息來打敗它!”


參考資料:

[1] AI Uses Images and Omics to Decode Cancer. Retrieved May 22, 2019, from https://www.the-scientist.com/features/ai-uses-images-and-omics-to-decode-cancer-65732

[2] Yu et al, (2017). Association of Omics Features with Histopathology Patterns in Lung Adenocarcinoma. Cell System, https://doi.org/10.1016/j.cels.2017.10.014

[3] Yu et al, (2016). Predicting non-small cell lung cancer prognosis by fully automated microscopic pathology image features. Nature Communications, https://doi.org/10.1038/ncomms12474

[4] Hu et al, (2019). An Observational Study of Deep Learning and Automated Evaluation of Cervical Images for Cancer Screening. JNCI: Journal of the National Cancer Institute, https://doi.org/10.1093/jnci/djy225

[5] Caravagna et al, (2018). Detecting repeated cancer evolution from multiregion tumor sequencing data. Nature Methods, https://doi.org/10.1038/s41592-018-0108-x