發(fā)布日期:2017-03-13
醫(yī)生說:“我這個計算機說你的肺有問題,你知道它在說啥嗎?”
病人說:“???我也不知道呀!嗯~~我的智能手機應(yīng)該會知道吧(?)。”
一、引言
去年(2016)畫這個漫畫之意,一方面想說醫(yī)生可能會越來越依賴、甚至落后于人工智能(Artificial Intelligence orAI);另一方面,智能手機或者智能穿戴設(shè)備天天跟蹤監(jiān)測我們的身體狀況,對我們的生活和健康的影響也應(yīng)該會越來越大。
但是畫中的醫(yī)生或者病人都不是人工智能的“驚喜的快樂用戶”:有些醫(yī)生擔心人工智能工作得太好了,會搶走自己的飯碗;如果工作得不好呢,又可能會象一個黑箱一樣,給出一些莫名其妙的、不可理喻的建議,讓人無所適從。從病人的角度來看,大數(shù)據(jù)、大信息已經(jīng)要將我們淹沒,而人工智能則像一個外星人一樣,給人帶來一種莫名的距離感甚至恐懼感。
那么,如果有一個橫軸代表欣喜、縱軸代表擔憂的“情緒空間”(mood map), 你是在空間里哪一點上呢?作為一個業(yè)中人,我欣喜多于擔憂;而投資界看上去比我還要樂觀得多。
工業(yè)界的熱情加上投資界的追捧對人工智能的發(fā)展確實有很大的推進作用。不少人認為我們已進入了一個人工智能和深度學(xué)習(xí)的 “夏天”??刹皇菃幔烤瓦B谷歌的搜索引擎都會做“深度學(xué)習(xí)”的夢:當你在谷歌的搜索引擎里輸入“Japanese cucumber farmer”(最后要輸入一個空格), 你會發(fā)現(xiàn)谷歌會自動填加“deep learning”!
這到底是怎么回事?!日本的菜農(nóng)跟深度學(xué)習(xí)能沾上什么邊?谷歌搜索是熱昏了頭嗎?點進去一看,才發(fā)現(xiàn)還真有一個日本的菜農(nóng)下載谷歌的tensor flow來對九種黃瓜進行基于視頻的自動分類,以實現(xiàn)其家庭農(nóng)場的自動化!
天啦!如果農(nóng)民都能夠玩轉(zhuǎn)深度學(xué)習(xí),那還要我們這群科學(xué)家干什么?!只好回家賣紅薯去了.
Now, I am very worried!
二、算法和技術(shù)的進展和突破
讓我們先把我們的(自私的)擔憂暫時放在一邊,一起來看看人工智能這幾年的突破性進展吧!
如果說近年來大數(shù)據(jù)、云計算、計算硬件和物聯(lián)網(wǎng)等等架起了許多的柴火堆,那么深度學(xué)習(xí)正像是一桶油,澆在了這些火堆上, 讓它們燒得更大、更猛、更熱鬧。
深度學(xué)習(xí)的算法已存在近二十年, 但只是最近幾年才開始被廣泛采用。尤其在圖像識別領(lǐng)域取得了突破性進展。例如,谷歌相冊在我的照片集中自動地找出了一百多種不同的事物,進行自動歸類和標識。這種強大的模式識別能力確實是前所未有的。
2.1 人工智能正紅火(AI is on fire)
在醫(yī)療領(lǐng)域,AI的火已經(jīng)燃燒了有一些年頭了。深度學(xué)習(xí)使這個火焰達到前所未有的高度和規(guī)模?;蛘?,從另一個角度看,最近幾年的激情和繁榮(exuberance)反映了對AI的期望的一個巨大的飛躍: 現(xiàn)在許多人正在急切地等待AI來(至少部分地)替換醫(yī)生 -- 例如,診斷某些疾病; 或做出人類本來就做不來的一些高智能或大計算的任務(wù)-- 例如,基于大數(shù)據(jù)來選擇最佳治療或預(yù)測結(jié)果。
換句話說,業(yè)界有兩種對近期前景的預(yù)測或期望:一個觀點是“加速型進化”(accelerated evolution),另一個觀點是“破壞性革命”(disruptive revolution)。
“加速型進化”早已悄然啟動, 正在順利前行。僅在醫(yī)學(xué)成像領(lǐng)域,深度學(xué)習(xí)正在提升所有模式識別的能力,從解剖結(jié)構(gòu)到疾病,以前所未有的速度提高工作流程和效率。
盡管AI已經(jīng)給我們展示了精彩的表現(xiàn)和令人興奮的成就,全面掌握了圍棋和復(fù)雜的撲克游戲,醫(yī)療領(lǐng)域是否真的在面臨著一個“破壞性的革命”的問題仍然讓人有點琢磨不透, 難以預(yù)測,叫人有點無所適從。醫(yī)生做的大多數(shù)工作是模糊的和不確定的,沒有明確的規(guī)則,并缺乏可靠的訓(xùn)練數(shù)據(jù)。但是,這些困難好像并沒有讓那些“革命派”們膽怯或者退縮,他們在多條戰(zhàn)線上贊助或推進雄心勃勃的“登月計劃”(“moonshot”),吸引著大量的來自小型創(chuàng)業(yè)公司和大型集團的熱心人士,以及來自世界各地的大學(xué)、研究機構(gòu)和政府。
以前在AI領(lǐng)域工作的人,例如計算機視覺、模式識別、或者醫(yī)學(xué)圖像處理之類的領(lǐng)域,似乎更多地傾向于“加速型進化”的觀點和說法,而新來的人則更傾向于預(yù)測一個“破壞性革命”。每一邊都有自己的偏見,目前好像都不能輕易地說服另一邊。
2.2 反觀歷史
既然未來難以預(yù)測,我們就反觀一下歷史吧,看看在過去的十幾二十年來AI在醫(yī)療領(lǐng)域都有哪些成就,特別是在醫(yī)學(xué)成像領(lǐng)域的成就。
我喜歡把我們在過去15年里的工作戲稱為“成像智能”(imaging intelligence),因為我們做了一對i(“eye”眼睛), 把它們做到了醫(yī)療成像儀器上去,如CT和MRI,也放進了放射科和心臟科的后處理工作站上。在“成像智能”的兩只眼睛中,一只專注于看疾病,這也就是傳統(tǒng)的CAD(computer aided detection 計算機輔助檢測)領(lǐng)域;另一只眼睛將專注于看解剖結(jié)構(gòu),例如我們早在2006年做得產(chǎn)品ALPHA (automatic landmarking and parsing of human anatomy) 人體解剖學(xué)的自動標識和解析。
CAD這個領(lǐng)域在2005年到2015年之間經(jīng)歷了一些艱難的時期,皆因過度承諾overpromise最終導(dǎo)致負面新聞(說來話長,按下不表)。而ALPHA從一開始就走上了快速增長的道路。 兩者都隨著今天的AI浪潮水漲船高,如果將兩個合并,預(yù)計增長勢頭會更猛更快。
在過去十幾年里,基于機器學(xué)習(xí)的對人體解剖結(jié)構(gòu)的自動檢測在醫(yī)學(xué)成像領(lǐng)域得到了廣泛的應(yīng)用。CT和MRI機器能夠從預(yù)掃圖中自動找到各種解剖結(jié)構(gòu), 然后非常精準的對目標結(jié)構(gòu)(比如說大腦)進行成像,同時減少對相鄰敏感器官(比如說眼角膜)的不必要的傷害(見下圖a-e)。
我們最初以為檢測解剖結(jié)構(gòu)應(yīng)該比檢測疾病要容易得多,后來才發(fā)現(xiàn)并非如此。 在醫(yī)學(xué)成像領(lǐng)域里, Anomaly is the norm (非常乃正常), 疾病(比如說肺部積水)經(jīng)常影響解剖結(jié)構(gòu) (比如說心臟,見下圖)。而恰恰是在這些情況下,算法必須正常工作才能有足夠的商業(yè)價值。
解剖結(jié)構(gòu)檢測的問題非常多樣化, 機器可以標識解剖結(jié)構(gòu),分割器官邊界, 跟蹤器官運動, 以及提供各類測量。一個突出的例子是對脊椎骨和肋骨的魯棒檢測, 逐個標識和虛擬拉直 (見下圖)。
這一類的工具可以幫助技術(shù)員們大大提高成像的質(zhì)量、速度、一致性(consistency)和重現(xiàn)性(reproducibility)。一致性(consistency)指的是不同的技術(shù)人員掃描同一病人出來的圖像應(yīng)該是一樣的。重現(xiàn)性的一個例子是,比如說六個月以后所照的膝蓋磁共振圖片應(yīng)該與六個月之前的圖片正好切在同一個解剖平面上,這樣才能看清楚六個月的治療的真實效果, 并幫助放射醫(yī)生更快更好地處理分析圖像和撰寫報告。
解剖結(jié)構(gòu)檢測這個領(lǐng)域仍然是前途無量的。人類光骨頭就有206根(正常情況下), 還有無數(shù)的血管、神經(jīng)、淋巴以及非常復(fù)雜的器官和結(jié)構(gòu)。如果再考慮到所有那些不同的成像模式 -- 超聲、X射線、CT、MRI、正電子發(fā)射斷層掃描(PET)等等, 組合起來的領(lǐng)域分支就更多了。
而深度學(xué)習(xí)則進一步拓展了我們的視野,并且大大提升了我們的期望值: 以前難以想象的任務(wù),例如,從大數(shù)據(jù)中同時學(xué)習(xí)多種解剖結(jié)構(gòu)和多種疾病,現(xiàn)在是不是都可以輕松實現(xiàn)了呢?
當然,深度學(xué)習(xí)也被用于重寫許多先前的用于罕見事件(rare event)或上下文事件(contextual event) 的檢測算法。但是,人們不應(yīng)該簡單地認為深度學(xué)習(xí)在所有情況下都會更好更強大;或者我們需要用深度學(xué)習(xí)去重新嘗試一些已經(jīng)解決得很好的問題。我們在2000年初開發(fā)的用于檢測和跟蹤心臟運動并估計射血分數(shù)(Ejection Fraction)的算法,這些年以來在現(xiàn)實應(yīng)用當中工作得很好;還有我們的肺結(jié)節(jié)檢測算法也經(jīng)受住了時間的考驗:發(fā)表在2016年10月刊的Radiology雜志上的一篇獨立研究[1]發(fā)現(xiàn)我們十年前的算法現(xiàn)在仍然是行業(yè)領(lǐng)先。
我們確實也試過用深度學(xué)習(xí)來解決這些經(jīng)典的問題,但我們發(fā)現(xiàn)簡單和直接的去用它好像通常不會產(chǎn)生神奇的結(jié)果,而是需要增加一些額外的語義建模層(semantic modeling layers)來提高精準度。我在下一章中會對這類問題進行更詳細的論述。
三、商業(yè)化的路障和挑戰(zhàn)
李開復(fù)老師最近說:“如果在座有孩子想去讀醫(yī)學(xué)影像的識別,就是幫助你看片子的那些醫(yī)生,千萬不要,五年以后沒有人會做這個行業(yè)了,全部被機器取代”。伊隆·馬斯克(Elon Musk) 做過一個大膽的預(yù)測,稱全自動駕駛即將在幾年內(nèi)實現(xiàn)。正是這一類的宣言和信念在推動風(fēng)險資本對AI領(lǐng)域的高度期望和投資,并已經(jīng)達到了史無前例的程度。
因此,一個關(guān)鍵問題是:機器會很快(比如說, 5年內(nèi)) 在一些關(guān)鍵任務(wù)上替代人類嗎? 比如全自主駕駛, 或全面替換放射科醫(yī)生?如果答案是否定的,或者時間框架是在十年或者二十年之外,而不是五年,那么許多風(fēng)險投資人將會大大失望,有些甚至可能會馬上撤資。即使在這10-20年內(nèi),AI帶來驚人的技術(shù)進步,幫助人類完成許多高難度的任務(wù),并為投資者帶來大量的利潤,所有這些可能都不足以匹配當前投資界對AI的既高又廣的期望。
那么,今天的主要障礙或挑戰(zhàn)到底是什么,會阻止計算機算法在5年內(nèi)實現(xiàn)全自動化駕駛和自動閱讀所有CAT(計算軸向斷層掃描)圖像的宏偉夢想?
3.1 小貓(cat)還沒搞定,就想挑戰(zhàn)“大貓”(CAT: computed axial tomography計算軸向斷層掃描)?
學(xué)會在照片中找到貓是深度學(xué)習(xí)的一個標志性的成功故事。該算法確實比人類快,但是它明顯比人類好嗎?這種算法是真的能夠找到“所有的貓,而且只有貓”(“all the cats, nothing but the cats”)嗎?谷歌相冊,通過深度學(xué)習(xí),把我妻子的一張照片放到了“貓”的文件夾中(見下圖)。所以,要么是我不小心娶了貓女,要么就是今天的深度學(xué)習(xí)算法仍然會犯愚蠢的錯誤。事實上類似的錯誤還很多,不管是找貓還是找其他的東西。
如果小貓(cat)都還沒有搞定,我們真的可以把所有的“大貓”(CAT: computed axial tomography 計算機軸向斷層掃描) 圖像都完全托付給AI嗎?再次強調(diào)一下,我們在此討論的是“所有CAT圖像”和“5年之內(nèi)”。我可以設(shè)想“小貓算法”在5年內(nèi)會有大幅度的提高,達到接近完美的敏感性和特異性。我也可以設(shè)想,在5年內(nèi),會快速的出現(xiàn)一批醫(yī)學(xué)圖像分析的任務(wù)是由機器來完成, 而且不需要放射科醫(yī)生來監(jiān)督。但是,絕對不會是所有的任務(wù)。
同時我也認為這只是一個“進化”而不是“革命”,因為多年來,計算機已經(jīng)可以完全自動地閱讀心電圖,半自動地閱讀宮頸刮片圖,和獨立承擔許多實驗診斷學(xué)的測試項目。
3.2 AI從第L2級到第L3級的飛躍尚未實現(xiàn)
雖然我們有雄心勃勃的愿景,還有商業(yè)界強力的推動,第L3級的自動駕駛今天還沒有真正實現(xiàn)。第L3級的自動駕駛是允許司機不用再看著前方的道路的,可以寫寫電子郵件, 讀讀書,或者甚至打個盹(你必須要考慮到很多人一讀書就可能打瞌睡)。我覺得這很有可能在5年內(nèi)實現(xiàn),但是只會在一些特定的駕駛條件下才會工作,比如說高速公路,并且沒有特別惡劣的天氣。不管怎么樣,光保險公司就可能需要五年才能琢磨出來怎么樣量化各種各樣的風(fēng)險:AI犯錯的機會必須要足夠小,以至于從汽車制造商或車主那里收集來的保險費可以足夠彌補?;蛘?,也可以想象一些新的商業(yè)化方法,例如使用人來遠程監(jiān)視100輛汽車,萬一某個打瞌睡的客戶沒有及時被AI的“請立即接管駕駛?cè)蝿?wù)!(please take over now!)” 的請求鬧醒, 監(jiān)視中心的人可以隨時遠程接管駕駛?cè)蝿?wù),讓汽車安全地脫離危險。這個商業(yè)模式有點像今天的一些家庭安全公司的做法,或者可以看成為一種 “實時的道路救援服務(wù)”(real-time road side assistance service)。
Mobileye的Amnon Shashua博士預(yù)測第L3級自動駕駛的到來會在2018 - 2020年左右,而BMW則好像是把第L3級預(yù)計在2020年以后上市,第L4/L5級 則被推到了2025年之后。任何在工業(yè)界或金融領(lǐng)域工作的人都知道,長期預(yù)測通常帶有很大的誤差,且常常是偏于樂觀的。
回到放射學(xué)領(lǐng)域,現(xiàn)有的CAD(計算機輔助檢測)算法已經(jīng)商業(yè)化很久了,但還停留在對應(yīng)于自動駕駛的第L1/L2級上,只是擔當“第二讀者”(second reader):醫(yī)生需要對圖像的采集和分析負全部的法律責(zé)任,算法僅僅是提供幫助/輔助。
第L3級的AI意味著算法需要開始負起責(zé)任來,成為“第一讀者”(first reader), 而且經(jīng)常會是“唯一讀者”。再次強調(diào)前述觀點:這算不上是一場 “革命”,因為它在諸如心電圖監(jiān)測,宮頸涂片和一些病理圖像自動分析的任務(wù)中已經(jīng)被用了很長時間了。利用深度學(xué)習(xí)的力量,我可以想象在未來5年中會涌現(xiàn)出一大批新的“第一讀者”產(chǎn)品。肺結(jié)節(jié)或結(jié)腸息肉檢測算法將首先全面地分析所有的圖像,而放射科醫(yī)生只需要審核一下那些算法找到的可疑的病變區(qū)域。計算機將分析所有的胸部X射線圖像,并且直接向臨床醫(yī)生指出哪一些人可能有病變,而把那些看上去正常的健康的人直接送回家。
與第L3級的自動駕駛的情況類似,商業(yè)化成功的關(guān)鍵在于對算法出錯風(fēng)險的量化和控制:每一個錯過的結(jié)節(jié)或息肉的成本是多少?或者錯誤地把一個病人當做健康人送回了家的風(fēng)險成本又是多少?錯誤率不需要為零,但必須足夠低 -- 至少得低到保險單能夠支付得起的地步?;蛘?,我們可以給那些由計算機送回家的“健康患者”們提供一個“專家確認”的服務(wù):如果他們真的想要更確定的話,他們可以付額外的費用請人類專家再看一遍。但是這種額外收費的方法,盡管經(jīng)濟上是合理的,可能會面臨“政治正確”的挑戰(zhàn):“你是說富人可以得到人類專家的悉心呵護,而窮人就可以死在機器人的冰涼冷酷的手里嗎?!” 如果所有圖片都要人類專家過目一遍的話,那我們就又退回到第L2級去了。
多年來,我們一直在尋找計算機視覺和模式識別的“殺手級應(yīng)用程序(Killer Application)”。現(xiàn)在我們至少有兩個:自動駕駛和放射學(xué)。這兩個都是真正的 “殺手(Killer)”級應(yīng)用程序:如果機器犯個嚴重的錯誤(例如,將白色卡車誤認為白云,或?qū)⒎伟┱`認為是肝臟的一部分),它可能真的會 “殺人”。
如果你經(jīng)常開車的話,我建議你選一天,一路上不斷地,有意識地問自己,“這一段路能讓AI開嗎?” 一天下來,你可能就會覺得AI五年之內(nèi)不可能完全自己開車。同樣的道理,如果你跟蹤一個臨床醫(yī)生或者一個放射科醫(yī)生一整天的話,你同樣可能意識到他們的很多任務(wù)都是不可能被AI在五年內(nèi)代替的,二十年都不可能。
一個非常有趣的民意調(diào)查顯示,人們往往相信其他人的工作可能會被AI替代,但不包括他們自己的工作!這可以解釋“每個工作都將被AI替代, 每個工作都不會被AI替代”的“AI預(yù)測悖論”:你會聽到許多預(yù)言家講許多工作將被AI替代,所有這些預(yù)言的總和就是 “所有工作都會被AI替代”;但是當你去逐一分析每個工作的時候 --如果你可以相信那些做這個工作的、熟悉該工作的人 -- 同樣的預(yù)言家會告訴你這個工作將不會被AI替代,至少不會在5年之內(nèi), 或者甚至不會在二十年之內(nèi)。
無論事實如何,有一點是肯定的:如果你不了解一個工作的細節(jié),不要輕易預(yù)測“它將在5年內(nèi)被AI取代”。
3.3 “只要有足夠的數(shù)據(jù),任何問題都會迎刃而解!” 這是真的嗎?“Give me data, I can do anything!”Really?
因為它強大的“端到端(end-to-end)”的學(xué)習(xí)功能,深度學(xué)習(xí)正帶來一場革命。“只要收集到足夠的數(shù)據(jù),并告訴它你想要什么結(jié)果,深度學(xué)習(xí)都能學(xué)到”已成為很多人的期望。這個說法在很多情況下是成立的,但不是所有的情況 -- 讓人擔憂的是有一些極其簡單的問題都會難倒它。
下面這個例子就是這個情況:
這個例子我們稍微仔細看一下就會發(fā)現(xiàn)其中的邏輯其實很簡單:第一類是“不同形狀的組合”,而第二類是“單一形狀的組合”。所以答案應(yīng)該是“第一類”。
有意思的是,如果直接應(yīng)用深層神經(jīng)網(wǎng)絡(luò),以端到端的方式來解決這個問題,不管你用多少訓(xùn)練數(shù)據(jù)都訓(xùn)練不出來。那么人是怎么解決這個問題的呢? 我們是先看到形狀,識別了各個形狀,然后再做邏輯推理。所以算法上只要加一兩個簡單的算法模塊,首先做圖像分割和形狀識別,接下來這個問題就迎刃而解了。
人類一些疾病也有類似的復(fù)雜邏輯在里面:某些CT圖像的一些形態(tài)(例如,肺中的 “蜂窩”病灶)可能預(yù)示某一種疾病A(例如,UIP普通間質(zhì)性肺炎),然而,另一些圖像形態(tài)(例如GGO或磨玻璃樣病灶)的共存可能排除疾病A,并大大提升另一疾病B的可能性(例如,NSIP或非特異性間質(zhì)性肺炎)。
在我們最近的針對間質(zhì)性肺病的CAD工作中,端到端訓(xùn)練完全不能解決問題。而添加了一些分步邏輯模塊之后,例如肺部分割和對局部疾灶模式的學(xué)習(xí),我們開始找到解決問題的眉目了。我們做了一個算法的原型,可以達到一個剛?cè)腴T的放射科醫(yī)生的水平,并且可以幫助他們檢測到更多的疾病病例。我預(yù)計,在5年內(nèi),這個算法應(yīng)該能夠達到或超過專家級的放射科醫(yī)生的水平,并且許多類似的算法和工具也將陸續(xù)上市。
但是這種手工定制邏輯模塊的做法, 不容易實現(xiàn)有工業(yè)規(guī)模的快速成長(industrialized scale-up)。如果我們再考慮到人類疾病的總數(shù)是如此之大(約30,000),我們就會意識到“人工智能在五年內(nèi)會全面替換放射科醫(yī)生”的說法確實是太過于樂觀了 -- 我認為二十年都不太可能。因為我們都知道啃不動的硬骨頭都會留到最后,所以最后百分之五的工作往往會花掉我們百分之五十的總預(yù)算,甚至更多!
3.4 AI 的軟肋: 威諾格拉德模式挑戰(zhàn)(Winograd Schema Challenge)
威諾格拉德教授(谷歌創(chuàng)始人拉里·佩奇的博導(dǎo))早在七十年代就提出了一個挑戰(zhàn)AI的簡單方法,比圖靈測試更加有效也更加難。一個經(jīng)典的問題是這樣的:
鎮(zhèn)議員拒絕給示威者許可證,因為他們害怕[或倡導(dǎo)]暴力。誰害怕[或倡導(dǎo)]暴力?
答0:鎮(zhèn)議員
答1:示威者
正確的答案當然是0 [或1]。也就是說鎮(zhèn)議員害怕暴力,而示威者倡導(dǎo)暴力。
但這種類型的問題對計算機來說是非常難的。去年(2016年),最好的計算機程序只有58%的成功率。這是非常低的, 簡直令人沮喪,因為隨便丟丟硬幣就可以達到50%。這說明一個問題,就是計算機還不能很好的掌握人類的常識和進行基本的邏輯推理。
在放射科里的一個類似問題是
患者的心臟有一個植入的二尖瓣閥,它有運動減退(hypokinetic)[或逆流]。什么有運動減退[或逆流],是心臟還是閥?
這個問題所有的放射科醫(yī)生都知道答案。
放射科醫(yī)生在看圖像的時候通常都會把病人以前的歷史報告拿來讀一下作為比較。如果連病史報告都看不懂,AI怎么代替醫(yī)生呢?
讓我們一起來關(guān)注一下下次的威諾格拉德模式挑戰(zhàn)賽吧??纯碅I能夠達到什么樣的水平,然后再討論AI獨立自主做疾病診斷(CAD - computer aided diagnosis)以及代替放射科大夫的事吧.
綜上所述, 我們可以對最開始提出來的幾個問題有如下答案:
Q: 搞機器學(xué)習(xí)的科學(xué)家是否應(yīng)該擔心她/他的工作(例如,因為開源)?
A: 不用擔心!我們面臨足夠的問題和挑戰(zhàn),很多工作要做,不需要去賣紅薯或黃瓜。
Q: 醫(yī)生或放射科醫(yī)生是否應(yīng)該因為AI而擔心她/他的工作?
A: 不用。至少20年內(nèi)不用.
Q: 患者是否應(yīng)該擔心醫(yī)療質(zhì)量(由于AI可能犯錯誤)?
A: 統(tǒng)計上講: 不用。(從長期看,AI統(tǒng)計上應(yīng)該比人類更準確。)
Q:具體情況?
A:建議多了解多問。(AI的錯誤會和人的錯誤不一樣。)
四、機遇
在前幾章中,我主張用“進化”這個詞而不用“革命”這個詞,只是為了強調(diào)我們不應(yīng)該對AI作過激的預(yù)言,特別是“短期內(nèi)AI完全取代人”的預(yù)言。
然而,如果考慮到AI在醫(yī)療行業(yè)會有的這么巨大的機會,以及可能造成的深遠的影響,那么,AI將帶來的變化不管從哪個角度看都確實會像一次重大的革命!
下面我想討論一下與這場革命相關(guān)的五個主要機遇:
4.1 技術(shù)的增長速度快于其應(yīng)用速度;許多成熟低掛的果實(low-hanging fruits)等待被采摘。
這是一個“機械的革命”和“機械師的革命”的時代: 機器自動地從數(shù)據(jù)中學(xué)習(xí),機器自動地相互學(xué)習(xí),機器自動地組建其他機器!技術(shù)在以前所未有的速度向前進步,每天我們都能聽到AI在嶄新的領(lǐng)域的應(yīng)用和突破。
另一方面,有三萬種人類疾病等著我們?nèi)ヌ剿?。即使只?%的疾病能夠受益于人工智能,如果我們先瞄準最常見的或最致命的那些疾病,肺癌、乳腺癌、前列腺癌、心血管病、腦血管病、老年癡呆等等,那么AI對人類健康的影響將是巨大的,前所未有的。
此外,還有許多AI自動化的機會,可以幫助醫(yī)療服務(wù)部門既提高效率和質(zhì)量,又降低成本。例如,我們最近開發(fā)了一種算法, 能自動地區(qū)分磁共振的不同的圖像序列。對于深度學(xué)習(xí)來說,這個問題好像正是一個“低掛的果子”:我們通過深度學(xué)習(xí)直接獲得了99.96%的成功率,而上一代的基于支持向量機(SVM) 的算法的成功率只有85%。正是這一類的算法進步可以使磁共振的成像過程更快更好。
像這樣的“低垂的果實”還很多,只要相對簡單地把深度學(xué)習(xí)的算法應(yīng)用上去,就可以得到前所未有的好結(jié)果。最近報道的一些二維圖像上的識別問題就是很好的例子:基于相片的皮膚癌的識別,以及基于視網(wǎng)膜眼底照片的糖尿病視網(wǎng)膜病變的檢測。
有一點是肯定的:要抓住當前的這個機遇,我們必須要學(xué)會做一個好的“機械師”(machinist)。
4.2 許多醫(yī)生熱愛AI,與他們合作你會另創(chuàng)新高!
還有一些問題比較復(fù)雜,直接套用深度學(xué)習(xí)不一定會解決問題。但是,有經(jīng)驗的臨床醫(yī)生可以給我們很多的指點和啟示: 有些先驗知識可以極大地減小算法的搜索空間 -- 比如說有些肺病只會發(fā)生在肺的邊緣和底部;而另外一些先驗知識則可以幫助我們把一個很復(fù)雜不可解的的問題分解成幾個可解的子問題來各個擊破 -- 比如說要直接學(xué)習(xí)癌癥分期(cancer staging) 是很困難的,但是有經(jīng)驗的放射科醫(yī)生會告訴我們癌細胞可能會沿著哪一條淋巴系統(tǒng)擴散,以及骨骼中的癌擴散是在磁共振的哪個圖像序列中更加明顯,可以看得到。如果每個子問題都能夠用深度學(xué)習(xí)來順利解決的話,那么原來那個本來看起來無從下手的復(fù)雜問題也就迎刃而解了。
一個取勝的秘密配方往往需要四個成分: 積極的醫(yī)生、能干的的科學(xué)家、好的問題(比如高影響的疾病) 和大量的標注好的數(shù)據(jù)。
越來越多的醫(yī)生理解了這個配方,并且渴望加入這次人工智能的革命 -- All we need to do is ask (別不好意思問!)。
4.3 各種自動化程度,充足的商機! Ample business opportunities at various automation levels
即使AI算法不比人類專家更好,也并不一定就意味著沒有商業(yè)化的途徑。除了用做“第二讀者”(second reader)來協(xié)助醫(yī)生之外,我們還可以提供一些建議性的和“非關(guān)鍵”(non-critical)的功能,比如說“相似案例檢索”。“非關(guān)鍵”的意思是說算法的錯誤不會導(dǎo)致災(zāi)難性的后果,但一旦成功則可以給用戶帶來意外的驚喜和收益:如果我們能夠給醫(yī)生提供一些類似的病人的病例,這些病例都有不同的治療方案和最終結(jié)果。那么,醫(yī)生就可以用這些信息來指導(dǎo)他對當前病人的最佳治療方案的選擇。
如果我們可以調(diào)整算法,使得其靈敏度(sensitivity)或特異性(specificity)[2]接近100%的話,就會有一些新的商業(yè)機會。例如,如果一個算法可以在檢測某種疾病時達到非常高的特異性,即使它不是很敏感,那么我們?nèi)匀豢梢园堰@個算法用來做一個分診(triage)或者警報(alert)的產(chǎn)品。這恰好類似于今天的有些汽車中的自動剎車功能:它僅在需要制動的一部分情況下自動剎車,而不是所有的情況 -- 畢竟司機在大部分情況下該踩剎車都會踩剎車,自動剎車只是提供一個錦上添花的雙保險。但它必須盡量減少在不該剎車的情況下啟動自動剎車的可能性,因為汽車錯誤地亂剎車對司機來說是非常惱火的事,也是非常危險的。
我們需要時刻提醒自己,AI并不需要全知全能,醫(yī)生在很多方面和很多時候都可以用得上AI的支持和幫助。
想要有商業(yè)成功的話,我們不僅需要好的科學(xué)家,更需要好的產(chǎn)品經(jīng)理。
4.4 急速增長的大量的公共數(shù)據(jù)集,為AI點火, 助AI起飛!
在醫(yī)療的AI研究領(lǐng)域,長期以來的一個困難是缺乏干凈的有標注的數(shù)據(jù)。然而,這個情況今天正在改變。政府機構(gòu)如美國的食品和藥物管理局(FDA)、國家健康研究所(NIH)、大的醫(yī)院、非營利組織、醫(yī)療IT和技術(shù)公司都開始將重點放在高質(zhì)量的數(shù)據(jù)采集和標注上,這些數(shù)據(jù)會大大地促進AI在醫(yī)療保健領(lǐng)域的全面應(yīng)用。
對于一些最普遍的疾病如肺癌、乳腺癌和心臟病等,開放式競爭正在大量興起,給所有愿意參賽的團隊們提供免費的足夠的訓(xùn)練數(shù)據(jù)。這對小公司甚至自學(xué)成才的AI愛好者們特別有利,給了他們一個前所未有的一展身手、公平競爭的機會,否則他們是很難獲得如此大規(guī)模的醫(yī)療數(shù)據(jù)的。
當然,從商業(yè)的角度來看,這也是一把雙刃劍:開放數(shù)據(jù)加上開源算法給商業(yè)公司們留下了很少的發(fā)展空間來提供獨特的且具有競爭力的商業(yè)產(chǎn)品,因為進入壁壘(entry barrier) 變得越來越低,甚至完全消失。
幸運的是,醫(yī)療保健領(lǐng)域如此廣泛,而且有如此多的低效環(huán)節(jié),一個有眼光的和專注的商人肯定會找到一個利基市場(niche market) 來提供有特色的產(chǎn)品,產(chǎn)生足夠的影響,并獲取豐厚的利潤。
4.5 商業(yè)化帶動多樣化,多樣化帶來持續(xù)創(chuàng)新(continuous innovation)
正像“有不止一種的方式來飛上天”,應(yīng)該用很多方法來做AI。
有些人可能認為YannLeCun是一個理想主義者或夢想家,因為他堅持在端到端的學(xué)習(xí)機上苦苦耕耘了幾十年。當很多人一窩蜂地去研究支持向量機(SVM),然后自適應(yīng)增強(AdaBoost),然后圖論(graph theory),然后稀疏模型(sparsity) 的時候, 他二十年來對神經(jīng)網(wǎng)絡(luò)未改初衷。我倒是認為他更像一個實干家(pragmatist),因為他的發(fā)明(卷積神經(jīng)網(wǎng)絡(luò)CNN)是工業(yè)化應(yīng)用中最具有擴展性的算法,并成為最新這一輪的AI革命的導(dǎo)火索。
從Yann LeCun那里,我們應(yīng)該學(xué)到什么呢?不僅僅是卷積神經(jīng)網(wǎng)絡(luò),更應(yīng)該是他的堅持心。關(guān)鍵在于,當一個學(xué)派的思想得到所有的聚光燈時,我們不應(yīng)該輕易放棄其他的方法和學(xué)派。Yann LeCun多年留守連接主義 (connectionist) 的陣營,堅持不懈把它再次推上巔峰。也許現(xiàn)在正是我們當中的一部分人留守在神經(jīng)網(wǎng)絡(luò)的框架之外的時候,繼續(xù)研究進化算法(“啥? 這玩意兒也太恐龍了吧?”你可能會說。2000年左右,聽Yann LeCun驕傲地講解卷積神經(jīng)網(wǎng)絡(luò)的時候,我也是這么想的),或貝葉斯算法,或內(nèi)核機(kernel machines),或甚至重新拾起符號主義(symbolism)的火炬 -- 在我看來,要想擊敗威諾格拉德(Winograd)挑戰(zhàn),恐怕還真少不了要用到符號主義的方法呢。
說到底,如果我們不能維持一個豐富的的創(chuàng)新流水線,那么那些“開始誤解,然后失望”的投資人們很可能會把我們?nèi)客线M一個AI的冬天里去。
要繼續(xù)這場AI的革命, AI必須要不斷地再生和更新自己(reinvent & rejuvenate itself)!
五、結(jié)語
很奇怪,多年來,我都沒有意識到AI正是“愛”字的拼音。就讓我用下面這兩個簡單的句子來結(jié)束這篇文章吧:
AI is Love, Love AI。 AI會給世界帶來更多的愛, 讓我們愛AI。
[正文完]
醫(yī)生:“嘿!我正在手提電腦上看史密斯太太的心臟圖片,它突然就黑了!可能沒電了。你幫我把這個案例給做完吧,我想與家人一起吃個飯!”
機器人:“好??!溫洛格那德醫(yī)生!這正是我該做的 -- 讓您找回生活的樂趣!你也知道我的超級大腦是經(jīng)過了50億個心臟病例訓(xùn)練過的。我是說‘億’哈,你不要聽少了!這可是象你這樣的人類醫(yī)生的一百萬倍哦!呵呵!”
醫(yī)生:“行了行了!不要每次都說這個好不好?(酸酸地)還得感謝您老,我可以早早退休賣紅薯去啰!不過我還是很欣慰,史密斯太太的案例有個好著落。”
機器人:“當然啦!您就快回家吧!好好地頤養(yǎng)天年去吧!不過,需要問您一下:我沒聽懂您剛才說史密斯太太的心‘突然變黑了’這個是什么意思?是她突然變成一個壞人啦?!”
醫(yī)生:“你說啥??”
[1] Mingzhu Liang, et al. (2016, Oct) “Low-Dose CT Screening for Lung Cancer: Computer-aided Detection of Missed Lung Cancers”,Radiology, vol 281, Issue 1.
[2] 關(guān)于靈敏度(sensitivity)或特異性(specificity),維基百科定義如下:
“靈敏度和特異度是統(tǒng)計學(xué)中用來表征二項分類測試特征的數(shù)據(jù)。
靈敏度(Sensitivity,也稱為真陽性率)是指實際為陽性的樣本中,判斷為陽性的比例(例如真正有生病的人中,被醫(yī)院判斷為有生病者的比例),計算方式是 真陽性 / (真陽性+偽陰性)的比值。偽陰性是指實際為陽性,但判斷為陰性。
特異度(Specificity,也稱為真陰性率)是指實際為陰性的樣本中,判斷為陰性的比例(例如真正未生病的人中,被醫(yī)院判斷為未生病者的比例),計算方式是 真陰性 /(真陰性+偽陽性)的比值。偽陽性是指實際為陰性,但判斷為陽性。
靈敏度可以作為避免偽陰性的量化指標,而特異度可以作為避免偽陽性的量化指標。對于任何測試而言,都需要在靈敏度及特異度之間進行取舍。”
作者簡介:周翔,清華雙學(xué)士和經(jīng)濟學(xué)博士生,伊大香檳分校計算機視覺博士?,F(xiàn)在西門子醫(yī)療負責(zé)計算機輔助檢測和診斷。https://www.linkedin.com/in/seanzhou。
來源:視覺求索