(圖片來源:pixabay)
本文編譯自長期關(guān)注醫(yī)學領(lǐng)域的知名博客lukeoakdenrayner,作者盧克·奧克登-雷納(LukeOakden-Rayner)在引言里說道,自己在推特上就相關(guān)話題和網(wǎng)友做了大量的討論,早就想列這樣一個清單了,同時盧克也表示這十個觀點一定會引起反駁,和已有的主流觀點也會有出入和沖突。作為該領(lǐng)域極為出色的作者,盧克究竟對哪些主流看法提出了挑戰(zhàn)呢?
1.開放數(shù)據(jù)并不一定是好事 第一條就是重炮!花費大量真金白銀才拿到的獨家數(shù)據(jù)是公司將新產(chǎn)品推向市場參與競爭時的重要籌碼。沒了這個籌碼,那么公司的投資回報率就沒那么有保障了。為什么要花費巨資研發(fā)一款日后誰都可以坐享其成參與生產(chǎn)的新產(chǎn)品呢?從這個角度說,開放數(shù)據(jù)反而阻礙了行業(yè)的進步。雖然數(shù)據(jù)共享有助于產(chǎn)出更多的研究論文,但卻不會有新產(chǎn)品的誕生。開放數(shù)據(jù)對于差異化也是巨大的災(zāi)難,大家會拼命向著公開數(shù)據(jù)中最好的那部分做過擬合(過擬合,或稱過度擬合,是指在擬合一個統(tǒng)計模型時使用過多參數(shù)。即使是一個荒謬的模型,只要足夠復(fù)雜,參數(shù)足夠多,都可以做到完美匹配數(shù)據(jù),譯者注。) 2.對于訓練模型來說,正常和反常數(shù)據(jù)交織在一起是巨大的挑戰(zhàn) 反常數(shù)據(jù),或者俗話說的黑天鵝是無處不在的,以至于你收集的數(shù)據(jù)永遠不可能覆蓋所有情況,而且你發(fā)現(xiàn)異常數(shù)據(jù)的嗅覺通常不會那么靈敏(更何況你根本拿不到異常數(shù)據(jù))。我猜想,要是一款“正常胸片檢測器”上市,那么就會有大量的骨骼腫瘤被漏診。 3."人工智能"是一個偉大的概念 我們都明白“人工智能”這個詞意味著什么,它為這個行業(yè)帶來了諸多利好和資金,而且坦率來說我們所做的事情就如同魔法一樣(就像那句著名的“科技發(fā)達到一定程度就是魔法”所說的),你要是認為“AI沒什么神奇的”,那你就需要一點孩子般求知欲了:我們可是用數(shù)學把聲音轉(zhuǎn)化成了意義、把圖像轉(zhuǎn)化成了決策的。所以就讓我放手去干吧。 4.深度學習對于電子健康檔案(Electronic Health Record, EHR)是相當無能為力的 這么說不僅僅是因為深度學習對于EHR非結(jié)構(gòu)化的數(shù)據(jù)不太靈光(有一件事我很困擾:就因為它們排成了幾行幾列,就常常被說成是“結(jié)構(gòu)性數(shù)據(jù)”。其實它們并沒有什么可以利用的內(nèi)部結(jié)構(gòu)?。?,而且我看不到任何技術(shù)突破的跡象。深度學習在圖像、文本、聲音等等領(lǐng)域大展拳腳,是因為所面對的是特征子集非常有限(也就是說存在空間關(guān)系)。EHR 數(shù)據(jù)就不一樣了,毫無內(nèi)在結(jié)構(gòu)可言(唯一的例外是EHRs的時間序列數(shù)據(jù),它們確實有時間結(jié)構(gòu),或許可以為深度學習所利用)。所以深度學習并不比更簡單的機器學習模型效果更好。 5.用戶的數(shù)據(jù)可解釋性(數(shù)據(jù)解釋性是一個專業(yè)名詞,這里可以理解為對數(shù)據(jù)解釋工具的需求)被高估 (圖片來源:123RF) 如果你的模型有效,大多數(shù)醫(yī)生會樂于將所有的相關(guān)決策交給人工智能來做,而不需要配套的數(shù)據(jù)解釋工具。可解釋性方法充其量給臨床醫(yī)生提供了虛幻的安全感(在我看來,可解釋性方法其實非常重要,但不是對技術(shù)員來說。這些方法大可以成為工具,讓我們這些做品質(zhì)保證的書呆子用來監(jiān)控和檢修AI,以保證系統(tǒng)持續(xù)安全)。盡管如此,對于視安全性高于一切的首席信息官(CIO,通常是公司內(nèi)信息系統(tǒng)的最高負責人)來說,人為的數(shù)據(jù)解釋工作才更有吸引力。因此,目前普遍以熱點圖的方式做注釋的做法多少有些諷刺意味。 6.如果一支團隊只會為任務(wù)建立花哨的新模型,它在醫(yī)學上就取得不了任何進展 如果有人自制了一個模型,而不是利用現(xiàn)有的密集網(wǎng)絡(luò)/殘差網(wǎng)絡(luò)/卷積網(wǎng)絡(luò)/初始網(wǎng)絡(luò)等等,那么他從事的就是機器學習研究,而非醫(yī)學研究。建立并調(diào)試你自己的模型,這個過程意味著你十有八九會對特定的數(shù)據(jù)做過度擬合,這對良好的醫(yī)療系統(tǒng)是一道詛咒。對于使用新穎架構(gòu)在醫(yī)學數(shù)據(jù)中得出的結(jié)果,我是相當懷疑的。 7.發(fā)布公共代碼對醫(yī)學人工智能研究沒有多大意義 它并不能提升高性能系統(tǒng)的重現(xiàn)性,因為若沒有一個同樣優(yōu)秀(但內(nèi)容不同)的數(shù)據(jù)集,我們就無法驗證結(jié)果。就算有了共享的數(shù)據(jù),在同樣的數(shù)據(jù)上運行同樣的代碼,也只能證明結(jié)果不是編造出來。 8.視覺識別已經(jīng)相當完善 計算機視覺模型在性能上已經(jīng)不會再有大的改進。我們會看到數(shù)據(jù)利用率和半監(jiān)督學習方面的緩慢進步,但是只要投入足夠的努力和數(shù)據(jù),AI就能在幾乎任何一項數(shù)據(jù)任務(wù)上達到人類水平,甚至超越人類。我們已經(jīng)達到了最小誤差。 9.無監(jiān)督學習沒有臨床意義 (圖片來源:pixabay) 目前來看,所有可能為臨床增添價值的AI都是受到監(jiān)督的,因為以現(xiàn)在的輸入而言,人類的表現(xiàn)已經(jīng)接近最佳。無監(jiān)督學習的表現(xiàn)越來越好,但它遲早會出差錯,而且那肯定比人類的差錯嚴重。當然,在有些情況下,無監(jiān)督學習能對監(jiān)督學習起到補充作用,但是要用巨量未標記的數(shù)據(jù)來解決醫(yī)學問題,現(xiàn)在還為時過早?! ?/span> 10.任何AUC(Area under the Curve of ROC,一種模型評價指標)指標低于0.8的系統(tǒng)都不要信任 因為這個數(shù)值大致代表了醫(yī)療AI系統(tǒng)對非病理性影像特征過度擬合時的表現(xiàn),這些特征包括X光掃描儀采用了什么模型,或者是哪個技術(shù)員拍攝的影像(這些在影像中多少都可以辨認出來)。這些系統(tǒng)多半會成為失敗的臨床AI系統(tǒng),因為它們沒有概括能力。顯然,把這條線劃在0.8是把問題過度簡化了,但是對于許多普通的醫(yī)療任務(wù),這還是一條好用的經(jīng)驗法則。