利用深度學習以診斷及用藥歷史預測罹癌風險

2024-11-16

文章推薦指數： 80 %

投票人數：10人

論文名稱: 利用深度學習以診斷及用藥歷史預測罹癌風險-以肝癌為例. 論文名稱(外文):, Use Deep Learning to Accurately Predict Cancer Risk - A Case Study on ... 資料載入處理中... 跳到主要內容臺灣博碩士論文加值系統 ::: 網站導覽| 首頁| 關於本站| 聯絡我們| 國圖首頁| 常見問題| 操作說明 English |FB專頁 |Mobile 免費會員登入| 註冊功能切換導覽列 (165.22.51.111)您好！臺灣時間：2022/07/2317:49 字體大小： ::: 詳目顯示 recordfocus 第1筆/ 共1筆 /1頁論文基本資料摘要外文摘要目次參考文獻電子全文紙本論文 QRCode 本論文永久網址: 複製永久網址Twitter研究生:梁家維研究生(外文):Chia-WeiLiang論文名稱:利用深度學習以診斷及用藥歷史預測罹癌風險-以肝癌為例論文名稱(外文):UseDeepLearningtoAccuratelyPredictCancerRisk-ACaseStudyonHepatocellularCarcinoma指導教授:李友專指導教授(外文):Yu-ChuanJackLi學位類別:碩士校院名稱:臺北醫學大學系所名稱:醫學資訊研究所學門:醫藥衛生學門學類:醫學技術及檢驗學類論文種類:學術論文論文出版年:2018畢業學年度:106語文別:中文論文頁數:47中文關鍵詞:癌症、預測、肝癌、深度學習、機器學習、罹癌、風險、歷史、診斷外文關鍵詞:Cancer、predict、liver、HCC、deeplearning、CNN、machinelearning、diagnosishistory相關次數: 被引用:1點閱:632評分:下載:112書目收藏:0 背景：在台灣，由於中央健保的覆蓋率高，以及每人每年的就診次數名列世界前茅，所以我們的健康狀況與我們的就診記錄息息相關。

而健保資料庫又提供豐富的資料，我們得以據此而研究個人被診斷過的疾病及開立的藥物與肝癌的關聯。

方法：使用1999~2013年健保資料庫的門診及住院申報檔，從中找出肝癌病患(結果10506人)，並取樣非肝癌案例40000人。

以ICD-9-CM碼代表疾病診斷結果以及慢性病藥品的使用這兩種資訊當做特徵，以觀察三年資料為例，當觀察期間某天被診斷為某疾病時或被開立某慢性病藥物時，就把個人的特徵-日期二維表上當天設為1分，將每7天或3年期間分數加總，再與所有人在同樣期間及同樣疾病的分數做標準化至0~1後，一方面使用卷積法(CNN)或多層次法(MLP)的類神經網路訓練及驗證肝癌預測準確性；另一方面則以逐步抽取變數觀察準確性損失法，及隨機森林法，和風險係數，去得知各變數的重要性。

若要預測提早一年的結果，則需要癌症被標示前一年起算的往前三年資料做訓練。

結果：以觀察3年而提早0.5年到3年的肝癌預測，在三年加總法的AUROC為0.883~0.880；每7天加總並使用CNN則為0.917~0.906。

對於疾病做重要因子分析，使用逐步抽取法及隨機森林法的結果類似，重要性高到低前五名為:1.慢性肝病；2.年齡；3.肝炎；4.性別；5.惡性腫瘤掃描。

其中惡性腫瘤掃描為負相關，原因為肝癌病人掃描一次後即停止計算，而非肝癌病人可以被掃描多次且被算入。

結論：本研究不只使用了疾病與藥物有或無的資訊，而且也利用了時間資訊，相當於考慮了它們遠近及嚴重程度。

它也可視為使用隱藏在個人就醫記錄裡的共病進行癌症預測。

由於使用的是大量數據，故不需要專家的知識即可得到預測模型及重要因子。

因為使用的資訊是存在資料庫裡現成的資料，所以可以實現低價且快速的初步檢驗。

台灣的中央健保提供個人過去三年的就醫診斷結果，保險人可以使用本研究的結果以進行肝癌預測。

Background:TheNationalHealthInsurance(NHI)agencycoversover99%ofthepeopleinTaiwan,whichmakesitsResearchDatabase(NHIRD)arichdatasourceforpredictinghepatocellularcarcinoma(HCC)riskanddiscoveringadditionalriskfactorsforHCC.Methods:Usingclinicaldatacollectedbetween1999and2013from2millionrandomlysampledpeopleinTaiwan,wefound10,506HCCpatientsandrandomlysampled40,000non-HCCpatientstoactasthecontrolgroup.Patients’ICD-9-CMdiagnosticcodeandmedicationhistory(long-termdrug)wereusedtorepresenttheirclinicalstate.WeusedonehotencodingtoindicatethepresenceorabsenceofanICD-9codeormedicationcodepriortobeingdiagnosedwithHCC.Asanexample,ifapatienthadthreeyears’worthofclinicaldatapriortobeingdiagnosedwithHCC(the“indexdate”),oncehewasdiagnosedwithacertainICD-9codewithinthosethreeyears,a1wouldberecordedintheFeatures-Daymatrix.Aftersummingupthescoresinaperiodof7days,wenormalizedthemwithallthepatientsinthesameperiodandusedConvolutionNeuralNetwork(CNN)topredicttheriskofHCC.TopredictNyearsaheadoftime,observationdatawhichisNyearsbeforetheindexdateisrequired.Weused3methodstodiscovertheimportantfeatures,includingOddsRatio,RandomForest,andObservationofAUROClossbystepwiseselection.Results:Byobserving3years’worthofdatausingvaryingleadtimesof0.5,1,2,and3yearsbeforetheHCCindexdate,theAUROCofHCCpredictionwere0.917~0.906.ThemostimportantdiseasesofHCCrevealedbyRandomForestandStepwiseANNweresimilar.Thetopfivewere:1.Chronicliverdisease2.Age3.Screeningformalignantneoplasms4.Gender5.Viralhepatitis.Amongthese,"Screeningformalignantneoplasms”wasnegativelycorrelatedwithHCCbecauseHCCpatientsstoppedbeingcountedafterHCCwasdiagnosed,whilenon-HCCpatientsmighthavecontinuedtobescreened.Conclusion:Thevalueofthisstudyliesinthefindingthatdeeplearningmethods,especiallyCNNsthatincorporatetimeseriesinformation,havethepotentialtoincreaseourabilitytomoreaccuratelypredictHCCusingstandardizedandwidelyavailableclinicaldataacrossabroadrangeofpatients.Inaddition,thestudyalsoidentifiedsomeimportantriskfactorsthatarehighlycorrelatedwithHCC.SinceNHIprovidesthelatest3yearclinicalclaimsdatatointerestedparties,thisstudycanberepurposedtopredicttheirHCCriskforclinicalapplicationswithminimaldifficulty. 標題i審定書ii電子暨紙本學位論文書目同意公開申請書iii學位考試保密同意書暨簽到表iv誌謝v目錄vi中文摘要xAbstractxii第一章緒論11.1研究動機11.2背景11.3研究架構3第二章文獻探討42.1肝細胞癌(HepatocellularCarcinoma,HCC,Livercancer)42.2類神經網路(ArtificialNeuralNetwork,ANN)52.3國際疾病分類ICD-9-CM82.4其他癌症預測系統92.4.1QCancer92.4.2健康存摺肝癌風險102.5其他利用深度學習探勘健康照護資料的研究112.5.1以CNN預測疾病112.5.2以LSTM預測醫療事件13第三章研究方法153.1資料來源及內容分佈153.2資料處理193.3類神經網路預測模型223.4類神經網路參數253.5重要因子探討27第四章分析與成果284.1肝癌風險預測結果284.1.1各種模型使用疾病的預測結果284.1.2各種模型使用疾病加上藥物的預測結果294.1.3不同預測時間長度的預測表現304.2重要因子萃取結果314.2.1重要疾病314.2.2長期用藥藥物(Long-TermDrug)的勝算比34第五章討論355.1各種模型的預測能力355.2重要因子375.3其他討論385.4肝癌檢測應用程式39第六章結論與建議426.1結論426.2研究限制426.3未來發展43參考資料44中文文獻44英文文獻44電子資料46表目錄ListofTables表一：ICD-9-CM3碼,4碼,5碼範例8表二:ICD-9-CM分類8表三：QCANCER對11種癌症的預測表現(AUROC)9表四：ALVINRAJKOMAR等預測每一項醫療事件的準確度13表五：提早預測一年，仍擁有三年足夠資料的病患分佈16表六：常開立的長期用藥，三年每人總開立天數平均值17表七：使用疾病ICD(不含藥物)和年齡、性別，在各種模型的表現28表八：疾病加上藥物的各預測模型的表現30表九：不同預測時間長度的預測表現31表十：訓練三年、提早預測一年的資料集，重要疾病因子排名表32表十一：不同的提早預測時間，重要因子排名表32表十二：罹患肝癌的高勝算比疾病與低勝算比疾病33表十三：罹患肝癌的高勝算比藥物與低勝算比藥物34圖目錄圖一：研究架構圖3圖二：左圖為生物神經元，右圖為人工類神經元5圖三：常用的激勵函式6圖四：多層結構的前饋網路7圖五：過濾器做卷積運算[21]7圖六：QCANCER提供的癌症風險計算網頁使用範例10圖七：健康存摺的肝癌風險預測功能11圖八：YUCHENG等以二維表標示醫療事件，及其CNN架構12圖九：非肝癌與肝癌病患隨機各100名的疾病碼與時間的散佈圖18圖十：擷取病患三年診斷資料方法示意圖19圖十一：不同觀察期長度的HCC病患數量，與提早預測一年時的AUROC變化量20圖十二：個人”疾病藥物-時間”二維表之3年加總TOMLP示意圖21圖十三：個人”疾病藥物-時間”二維表之7天加總示意圖21圖十四：正規化示意圖22圖十五：MLP加權法23圖十六：對疾病及藥物的時間做CNN法24圖十七：對疾病及時間做CNN法24圖十八：MLP類神經網路參數掃描圖26圖十九：ROCCURVEOF5-FOLD29圖二十：不同預測時間長度的預測表現30圖二十一：對時間CNN，每個疾病群組2個長FILTER的FILTER視覺化36圖二十二：肝癌預測應用程式使用方式40 中文文獻4.中華民國106年版衛生福利年報,衛生福利部,Editor.2018.23.吳建昌,李.,林桂卉,林淑蓉,洪晨碩,陳嘉新,曾凡慈,湯家碩,黃嬡齡,楊添圍,蔡友月,不正常的人？台灣精神醫學與現代性的治理.2018:聯經出版事業公司.576.30.楊軒佳,系統性探索長期用藥對癌症風險之衝擊,in生物醫學資訊研究所.2017,國立陽明大學.p.93.英文文獻7.Hippisley-Cox,J.andC.Coupland,Developmentandvalidationofriskpredictionalgorithmstoestimatefutureriskofcommoncancersinmenandwomen:prospectivecohortstudy.BMJopen,2015.5(3):p.e007825.8.Yang,H.-I.,etal.,NomogramsforriskofhepatocellularcarcinomainpatientswithchronichepatitisBvirusinfection.JournalofClinicalOncology,2010.28(14):p.2437-2444.9.Ahmed,I.andD.N.Lobo,Malignanttumoursoftheliver.Surgery(Oxford),2009.27(1):p.30-37.11.White,D.L.,F.Kanwal,andH.B.El–Serag,Associationbetweennonalcoholicfattyliverdiseaseandriskforhepatocellularcancer,basedonsystematicreview.Clinicalgastroenterologyandhepatology,2012.10(12):p.1342-1359.e2.12.Heidelbaugh,J.J.andM.Bruderly,Cirrhosisandchronicliverfailure:partI.Diagnosisandevaluation.Americanfamilyphysician,2006.74(5).13.Qu,D.,J.H.Teckman,andD.H.Perlmutter,α1‐Antitrypsindeficiencyassociatedliverdisease.Journalofgastroenterologyandhepatology,1997.12(5):p.404-416.14.Hodgkin,A.L.andA.F.Huxley,Aquantitativedescriptionofmembranecurrentanditsapplicationtoconductionandexcitationinnerve.TheJournalofPhysiology,1952.117(4):p.500-544.15.Zell,A.,Simulationneuronalernetze.1steditioned.Vol.1.1994:Addison-WesleyBonn.17.Rosenblatt,F.,Principlesofneurodynamics.perceptronsandthetheoryofbrainmechanisms.1961,CORNELLAERONAUTICALLABINCBUFFALONY.18.Claesen,M.andB.DeMoor,Hyperparametersearchinmachinelearning.arXivpreprintarXiv:1502.02127,2015.19.Hochreiter,S.,Thevanishinggradientproblemduringlearningrecurrentneuralnetsandproblemsolutions.InternationalJournalofUncertainty,FuzzinessandKnowledge-BasedSystems,1998.6(02):p.107-116.20.Zhang,W.,etal.,Paralleldistributedprocessingmodelwithlocalspace-invariantinterconnectionsanditsopticalarchitecture.Appliedoptics,1990.29(32):p.4790-4797.22.O''malley,K.J.,etal.,Measuringdiagnoses:ICDcodeaccuracy.Healthservicesresearch,2005.40(5p2):p.1620-1639.24.Goldstein,B.A.,etal.,Opportunitiesandchallengesindevelopingriskpredictionmodelswithelectronichealthrecordsdata:asystematicreview.JournaloftheAmericanMedicalInformaticsAssociation,2017.24(1):p.198-208.25.Zhao,D.andC.Weng,CombiningPubMedknowledgeandEHRdatatodevelopaweightedbayesiannetworkforpancreaticcancerprediction.Journalofbiomedicalinformatics,2011.44(5):p.859-868.26.Cheng,Y.,etal.Riskpredictionwithelectronichealthrecords:Adeeplearningapproach.inProceedingsofthe2016SIAMInternationalConferenceonDataMining.2016.SIAM.27.Rajkomar,A.,etal.,Scalableandaccuratedeeplearningwithelectronichealthrecords.npjDigitalMedicine,2018.1(1):p.18.28.Hochreiter,S.andJ.Schmidhuber,Longshort-termmemory.Neuralcomputation,1997.9(8):p.1735-1780.29.Bahdanau,D.,K.Cho,andY.Bengio,Neuralmachinetranslationbyjointlylearningtoalignandtranslate.arXivpreprintarXiv:1409.0473,2014.31.Zeiler,M.D.,ADADELTA:anadaptivelearningratemethod.arXivpreprintarXiv:1212.5701,2012.32.Cutler,A.andL.Breiman,Archetypalanalysis.Technometrics,1994.36(4):p.338-347.33.Cornfield,J.,Amethodofestimatingcomparativeratesfromclinicaldata.Applicationstocancerofthelung,breast,andcervix.JournaloftheNationalCancerInstitute,1951.11(6):p.1269-1275.34.Beloribi-Djefaflia,S.,S.Vasseur,andF.Guillaumond,Lipidmetabolicreprogrammingincancercells.Oncogenesis,2016.5:p.e189.電子資料1.衛生福利部.105年國人死因統計結果.2017/6/19[cited2018July8];Availablefrom:https://www.mohw.gov.tw/cp-16-33598-1.html.2.醫療財團法人辜公亮基金會和信治癌中心醫院.臨床治療成果-肝癌.2017/11/30[cited2018July8];Availablefrom:http://www.kfsyscc.org/research-and-edu/clinical-practice/liver-cancer/.3.Institute,U.S.N.-N.C.CancerStatFacts:LiverandIntrahepaticBileDuctCancer.2018[cited2018July8];Availablefrom:https://seer.cancer.gov/statfacts/html/livibd.html.5.衛生福利部.105年度全民健康保險醫療統計年報西醫門診（不含急診）就診統計.2017[cited2018Jul30];Availablefrom:https://dep.mohw.gov.tw/DOS/cp-3739-39010-113.html.6.中華民國內政部戶政司.民國105年12月戶口統計資料分析.2017[cited2017;Jan4].Availablefrom:https://www.ris.gov.tw/zh_TW/latestmessage/-/asset_publisher/i42D/content/%E6%B0%91%E5%9C%8B105%E5%B9%B412%E6%9C%88%E6%88%B6%E5%8F%A3%E7%B5%B1%E8%A8%88%E8%B3%87%E6%96%99%E5%88%86%E6%9E%90?_101_INSTANCE_i42D_redirect=http%253A%252F%252Fwww.ris.gov.tw%252Fzh_TW%252Flatestmessage%253Bjsessionid%253D25E8FC64970EF1AC2CB271D9A80E221A%253Fp_p_id%253D101_INSTANCE_i42D%2526p_p_lifecycle%253D0%2526p_p_state%253Dnormal%2526p_p_mode%253Dview%2526p_p_col_id%253Dcolumn-2%2526p_p_col_count%253D1.10.Clinic,M.Livercancer.2018March06[cited2018Jun30];Availablefrom:https://www.mayoclinic.org/diseases-conditions/liver-cancer/symptoms-causes/syc-20353659.16.Activationfunction.2018[cited2018Jun30];Availablefrom:https://en.wikipedia.org/wiki/Activation_function.21.Rohrer,B.HowdoConvolutionalNeuralNetworkswork?2016[cited2018Jun30];Availablefrom:https://brohrer.github.io/how_convolutional_neural_networks_work.html. 電子全文國圖紙本論文推文網路書籤推薦評分引用網址轉寄 top 相關論文相關期刊熱門點閱論文 1. 人蔘皂苷Rh2抗癌活性的研究 2. 應用貝氏網路於工業製程之診斷與預測 3. 應用機器學習方法以預測金控獲利－以三家金控公司為例 4. 以資料探勘方法預測台灣地區太陽能發電量之研究 5. 運用機器學習方法建構房價預測視覺化平台 6. 長期低劑量率游離輻射暴露人群癌症風險研究 7. 使用全卷積神經網路應用於肝臟及其病變圖像分割 8. 以技術指標分析股價走勢：以台灣股市為例 9. 應用深度學習于文本多標籤分類之研究 10. 深度學習用於交通標誌辨識 11. 基於深度學習之跌倒偵測系統 12. 基於混合式深度卷積神經網路與稀疏編碼設計智慧型期貨交易策略 13. 在LTE網路中使用機器學習技術預測小細胞基地台佈署之研究 14. 利用循環類神經網路實現公共自行車各站台需求預測之研究 15. 以機器學習技法探討貨幣利差市場投資組合策略及市場風險無相關期刊 1. 運用機器學習演算法對脂肪肝預測研究 2. 整合AESOP(人工智慧藥物安全系統)於電腦醫令系統(CPOE)之敏感度分析和隨機對照臨床試驗 3. 應用機器學習演算法建立65歲以上台灣老人代謝症侯群之高危險群預測模型 4. 系統性探索長期用藥對癌症風險之衝擊 5. 以機器學習技術預測台灣血液透析患者之存活 6. 預測皮膚癌：利用深度學習與非影像之時序性醫學資料 7. 基於具同理心聊天機器人的個人減重管理助手 8. 雲端血壓:轉譯個人化量測的治療方法 9. 應用深度學習預測區域住房平均價格—以台北市實價登錄為例 10. 以機器學習技術改造傳統臨床決策輔具工具—應用隨機森林、支援向量機器與類神經網路於急性闌尾炎診斷與乳癌風險評估 11. 建置預測空中醫療轉診之死亡率 12. 利用巨量資料分析長期藥物曝露與癌症風險之間的關聯性 13. 創新研發預測主要不良心血管事件評分系統予胸痛病人 14. 使用深度學習技術擷取病歷中的心臟疾病危險因子 15. 利用深度學習從蛋白質結構預測蛋白質活性位點簡易查詢 | 進階查詢 | 熱門排行 | 我的研究室