發(fā)布時間:2017-08-21
騰訊于近期發(fā)布的醫(yī)學(xué)AI產(chǎn)品騰訊覓影,包含了6個人工智能系統(tǒng),涉及的疾病有食管癌、肺癌、糖網(wǎng)病、宮頸癌和乳腺癌。
騰訊優(yōu)圖高級研究員孫星以肺癌識別和糖尿病視網(wǎng)膜病變的篩查技術(shù)為例,講述了優(yōu)圖實驗室在這兩大領(lǐng)域的研究狀況。
肺癌識別
孫星首先談到,對比中、美、英三國的肺癌發(fā)生率和死亡率就會發(fā)現(xiàn),國內(nèi)肺癌發(fā)生率其實低于英、美,但死亡率卻已超過英美,反映出中國肺癌致死率很高。一個重要原因是,當診斷出患者有肺癌后,70%已到中晚期,錯過了最佳診斷和治療時間。
因此肺癌早篩在國內(nèi)是一件刻不容緩、繼續(xù)解決的任務(wù)。
早篩是減少肺癌死亡率的重要手段,癌癥早起多表現(xiàn)為肺部結(jié)節(jié)。
這些肺部結(jié)節(jié)的尺寸往往非常小、對比度很低、抑制化特別高,因此篩查工作都是由影像科專家去完成。但每個病人肺部CT的掃描圖片數(shù)目經(jīng)常會超過200層,因此當遇到大量病者,人工閱片越來越耗時、耗力。
另一方面,微小肺部結(jié)節(jié)在影像學(xué)的表現(xiàn)可能與其他組織或部位產(chǎn)生混淆,比如和一些毛細血管、結(jié)核、假瘤混淆,也會影響到醫(yī)生的判斷。
騰訊優(yōu)圖實驗室希望幫助醫(yī)生能夠盡快、盡早去檢測出肺結(jié)節(jié)的區(qū)域,同時協(xié)助醫(yī)生做更準確的判斷。
騰訊優(yōu)圖的解決方法
騰訊優(yōu)圖在肺癌識別的核心算法首先進行預(yù)處理。
孫星談到,當?shù)玫揭恍┟撁舴尾緾T影像后,會提取其中的一個胸腔區(qū)域。在3D上分割出這塊胸腔區(qū)域,然后利用圖像識別傳遞出肺部的3D數(shù)據(jù),經(jīng)過圖像增強算法,增強肺部區(qū)域中肺結(jié)節(jié)位置的對比度,從而更好地幫助做肺癌早期的篩查工作。
這種方法的主要優(yōu)勢在于,通過三維分割和重建,處理不同成像設(shè)備產(chǎn)生的不同成像圖片。
AI影像團隊不可避免這種情況:有些醫(yī)院的CT設(shè)備比較先進,它拍一次CT可產(chǎn)生200層甚至更多切片,精度很高。但在很多設(shè)備比較落后的基層醫(yī)院,拍一次CT,往往可能只有40-50層。
因此,對于不同的設(shè)備,優(yōu)圖的算法也有著較強的適應(yīng)性。
另外,優(yōu)圖團隊的核心算法不同于傳統(tǒng)醫(yī)學(xué)圖像處理方法,我們通過端到端一體化肺癌分類算法,輸入已經(jīng)處理好的3D肺部圖像,預(yù)估肺結(jié)節(jié)的大致位置。通過提取這些肺結(jié)節(jié)位置,再考慮整個病人肺部的全局信息,從而更好地判斷病人患有肺癌的風(fēng)險。
多尺度、多任務(wù)的3D卷積神經(jīng)網(wǎng)絡(luò)是幫助實現(xiàn)早期微小肺結(jié)節(jié)檢測的核心技術(shù),這項技術(shù)既可協(xié)助我們關(guān)注到微小結(jié)節(jié)局部區(qū)域的特征信息,同時又可結(jié)合患者在整個肺部的全局信息,做出更好的預(yù)測。
除了核心技術(shù)外,更重要的就是數(shù)據(jù)。
數(shù)據(jù)收集與訓(xùn)練
孫星繼續(xù)談到,優(yōu)圖從各個數(shù)據(jù)集中精心收集了兩個非常重要的數(shù)據(jù)集。
一個是擁有肺結(jié)節(jié)檢測標簽的數(shù)據(jù)集,利用有超過4000例患者的數(shù)據(jù),超過30萬張CT影像,而且均有醫(yī)生在肺結(jié)節(jié)區(qū)域的標注,這些大量標注信息可幫助我們更好識別出肺結(jié)節(jié)的位置。
但光有這些標注過的肺結(jié)節(jié)數(shù)據(jù)還不夠,因為我們知道再好的醫(yī)生都會存在誤判的情況,而且這批數(shù)據(jù)大部分由普通醫(yī)生標注。
為此,我們增加了一個新的肺癌診斷數(shù)據(jù)庫,有超過1300例病人樣本,每個樣本都有病人的病理診斷結(jié)果或隨訪結(jié)果,以保證這是一個精標準的數(shù)據(jù)。
優(yōu)圖團隊通過把自己的算法、大量人工標注數(shù)據(jù)和少量高精度標準數(shù)據(jù)相結(jié)合,最終做出超過普通醫(yī)生水平的標準。
在肺結(jié)節(jié)檢測的數(shù)據(jù)庫方面,騰訊優(yōu)圖團隊大部分數(shù)據(jù)均為35毫米以下的小結(jié)節(jié),與早篩目的相符合。在這些數(shù)據(jù)里,10毫米以下的小結(jié)節(jié)占75%,使得訓(xùn)練的模型可更具針對性地去解決那些微小結(jié)節(jié)產(chǎn)生的問題。
同時,除了剛剛收集的一些數(shù)據(jù)庫外,騰訊還進行多中心合作,得到國內(nèi)不少臨床實驗數(shù)據(jù),更加了解中國人的肺,做好肺癌的早期篩查工作。
三個不同的數(shù)據(jù)集都有一個良惡性的細分標簽,比如良性里面會有炎性假瘤、肺結(jié)核等。
惡性也會有一些鱗癌、腺癌、小細胞癌,這些細分的標簽幫助算法需要有更強的泛化能力,同時也可更到位地解決一些疑難雜癥中的問題。比如在一些基層醫(yī)院,之前都沒碰到過的一些疑難雜癥,在我們的算法里已經(jīng)被很好地訓(xùn)練過。
成果
在具體的成果上,優(yōu)圖團隊在早期肺癌上的準確率可達80%,在良性結(jié)核的準確率也可達84%。在部分疑難雜癥、比較難判斷的情況下,已經(jīng)超過普通醫(yī)生的平均水平。
后續(xù)優(yōu)圖的醫(yī)療AI也將在本月和多家三甲醫(yī)院合作落地,如廣東省人民醫(yī)院、廣東省第二人民醫(yī)院。
糖尿病視網(wǎng)膜篩查
除了肺癌篩查,孫星也簡單介紹了他們團隊在糖尿病視網(wǎng)膜篩查的工作。
孫星介紹到,2015年國際糖尿病聯(lián)盟發(fā)現(xiàn)有4億多的成人患有糖尿病。預(yù)計2040年,將會高達6.4億,其中高達30%-50的糖尿病患者都會患有糖尿病視網(wǎng)膜病變,其中患有糖尿病視網(wǎng)膜病變中有一成的患者將會面臨失明的風(fēng)險,人群數(shù)很有可能高達2500萬人。
從上述的數(shù)據(jù)顯示,糖網(wǎng)是一個非常嚴重的問題,對于成年人來說,糖網(wǎng)也是第一大致盲因素,接近四分之三的10年糖尿病患者都會患有糖網(wǎng)。
雖然問題嚴峻,但是值得慶幸的是,如果糖網(wǎng)在早期能夠被檢測出來,也有95%的希望去阻止失明的發(fā)生。所以對于糖尿病視網(wǎng)膜病變來說,早篩工作非常重要。
優(yōu)圖實驗室現(xiàn)在主要給糖網(wǎng)分為5期,第一是沒有病變,然后是輕度病變、中度病變、重度病變、增殖性病變、目前沒有細分的病變。
但是如果真正做到早篩,對于醫(yī)生來說具有一定的難度。
為此,優(yōu)圖專門找了一些開源數(shù)據(jù)集,收集3萬張有標簽的眼底數(shù)據(jù),隨機分割,把它分為80%的訓(xùn)練集和20%的驗證集,通過一體化視網(wǎng)膜病變的網(wǎng)絡(luò),在訓(xùn)練集和驗證集都得到了超過95%的準確率。
這里存在兩個情況,一個是我們會認真判斷正常和患病的情況,它的橫坐標代表的是一個患病樣本的誤檢率,縱坐標是一個正常樣本的召回率。
現(xiàn)在在1%誤檢率的情況下,可達到90%正常樣本的召回率。而對于非增殖和增殖眼底的大樣本情況,也可以達到很高的準確率。同樣,優(yōu)圖實驗室也收集了一批臨床實驗的數(shù)據(jù)去驗證算法,患病的召回率可達到近96%的水平,對于非增殖的和增殖的算法準確度也達73%。
高準確率的背后還有一段路要走
騰訊優(yōu)圖作為AI基礎(chǔ)研究團隊,從跨界的角度講,在這兩大醫(yī)學(xué)領(lǐng)域無疑取得了較好的成績,但后面的路仍道阻且長。
雷鋒網(wǎng)也發(fā)現(xiàn),市場上絕大多數(shù)初創(chuàng)影像公司都在做肺結(jié)節(jié)和眼底方向的研究。
科大訊飛智慧醫(yī)療事業(yè)部總經(jīng)理陶曉東曾向雷鋒網(wǎng)透露,在肺結(jié)節(jié)這塊雖然大家都在說自己有著百分之九十幾的準確率,但首先要問個問題,為什么大家都在做肺結(jié)節(jié)?這實際上可以反映出一個現(xiàn)狀:大家的創(chuàng)新能力還不夠,而且大家能夠得到的資源都很相似,因為肺部CT公開的數(shù)據(jù)最多。
除此之外,智能影像診斷到臨床還有非常長的路要走。
廣東省人民醫(yī)院放射科劉再毅教授談到,要真正應(yīng)用在臨床,需要解決它的精度、實用范圍和政策等問題,如果要政策批準,必須經(jīng)過臨床試驗驗證,耗資會很巨大。
很多研究員和影像科醫(yī)生也針對這個問題發(fā)表了自己的看法:即便技術(shù)能達到99.99%,那萬一不幸的是,某個病人正好是那0.01%,最后是醫(yī)生來負責(zé),還是AI來負責(zé),這也是一個很重要的課題。
來源:雷鋒網(wǎng)