國內數據挖掘研究起步雖然較晚,但是發展特別迅速,特別是醫學研究領域。目前,我國絕大部分醫院信息管理系統只具備簡單數據的查詢與基本統計功能,隱藏在臨床數據背后的潛在關聯與知識并沒有被充分挖掘利用,大量臨床診療活動記錄數據有待挖掘開發。
數據挖掘(Data Mining,DM)是近年來十分活躍的一個研究領域,是隨著數據庫、人工智能、統計分析和模式識別等技術發展而出現的一門新興技術,最早由美國第十一屆人工智能協會(American Association for Artificial Intelligence,AAAI)在 1989 年舉辦的全國人工智能大會(The National Conference on Artificial Intelligence)上提出。
數據挖掘又稱為數據庫知識發現(Knowledge Discovery in Databases,KDD),指從大量不完全、有噪聲、模糊并隨機的業務數據中,提取隱含其中的事先不知道但有潛在利用價值的信息和知識的過程,數據挖掘結果多以概念、規則、規律、模式等形式呈現。
數據挖掘主要任務是描述和預測。描述的目標是概括數據中潛在的關聯模式,關聯模式可以是相關、趨勢、聚類、軌跡和異常分布,主要分析方法包括關聯分析、聚類分析、差異分析等。預測的目標是利用容易觀察的特征變量如體重指數、空腹血糖,預測不容易或不能觀察的特征變量如經皮腎鏡取石術后患者是否發生嚴重感染,主要分析方法包括分類和回歸等。在數據挖掘算法基礎上,一些重要數據挖掘技術還包括關聯規則、鏈分析、決策樹、人工神經網絡、遺傳算法、模糊處理等。
相對于經典統計分析,數據挖掘有獨有的本質特征。數據挖掘是在沒有明確假設的前提下,去挖掘未知信息,進而發現新知識并加以驗證。數據挖掘所得結論或知識,具有先前未知或認知不充分、真實性、實用性三個基本特征。特別需要指出的是,數據挖掘的出現不是為了替代經典統計分析方法,而是經典統計分析方法學的延伸、擴展、整合而成的數據分析流程(Workflows)。
循證醫學研究(Evidence-based Medicine)是求證醫學、實證醫學,即遵循證據的醫學,是慎重、準確和明智地應用當前所能獲得的最好的研究證據,依托醫生個人專業技能和多年臨床經驗,結合患者的價值和愿望,將三者完美結合制定患者適宜的診療方案。隨著生物醫學特別是基因組學、蛋白質組學等生物信息學發展,出現了轉化醫學(Translational Medicine)。轉化醫學促進基礎醫學研究成果向臨床診療實踐轉化,其中最成功的是腫瘤靶向治療(Targeted Therapy)。
2015 年 1 月 20 日,美國總統奧巴馬在國情咨文演講時提出了精準醫學(Precision Medicine)計劃,是繼 2011 年美國基因組學與生物醫學智庫發表《邁向精準醫學 :建立生物醫學與疾病新分類學的知識網絡》后提供的更明確和詳細的路徑規劃。精準醫學是在利用生物組學技術采集數據基礎上,借助數據挖掘實現計算機生物學分析,尋找疾病臨床表型特異標志物和分子網絡。數據挖掘為循證醫學向精準醫學、從對癥醫療模式向個體醫療模式轉換鋪平了道路,實現以個人臨床表型數據為基礎、結合生物組學數據信息,為患者量身設計出最佳治療方案,以達到治療效益最大化和醫療資源配置最優化的醫療模式。
以精準醫學為導向的數據挖掘,仍需要解決如常規思維模式桎梏、大數據管理能力不足、復雜網絡環境下動態數據利用與隱私保護之間的矛盾、平衡大數據共享機制與知識產權保護等問題。
在現代科學研究中,人們主要依賴抽樣數據、局部數據和方便數據,甚至在無法獲得觀察數據的時候,純粹依賴經驗、理論、假設和價值觀去發現醫療領域的未知規律。由于局部數據和方便數據的局限性,使人們的認識世界往往帶著一定的表面、膚淺、簡單、低效等偏倚色彩。
大數據時代的來臨,使人類第一次有機會和條件在更多領域、更深層次獲取利用全局數據、完整數據和系統數據,更深入地探索現實世界規律,獲取過去不可能獲取的數據和知識。大數據不只是用隨機抽樣調查分析,而是主要采用觀察對象的整體特征數據進行分析,這就使臨床數據挖掘研究具有要全體不拒抽樣、要效率不拒精確、要相關不拒因果的特征。
臨床隨機對照試驗能夠提供最高等級的臨床證據,嚴格控制試驗條件下,在可能有效的受控目標人群中進行標準化治療,所需樣本量小,隨訪時間也短。然而,隨機對照試驗并不能解決所有的臨床問題。利用真實世界數據開展挖掘研究,用產生的真實世界證據(Real World Evidence)取代傳統臨床試驗,進行更廣適應證研究。醫療大數據來自真實的臨床診療活動場景,納入以非隨機方式分配治療措施的有多種疾病的患者進行研究,其結果反映實際診療過程和真實條件下的診療情況,是一種非隨機、開放性、無安慰劑研究,因而結論具有很高的外部真實性。
以臨床數據挖掘為導向的真實世界研究,以臨床應用場景為底層邏輯基礎。在臨床診療實踐中,根據患者病情和全身狀況,臨床醫師變化策略采用多種治療措施、確定治療劑量。同時,有更長期限觀察干預措施的遠期效果和不良結局,也觀察更多類型的結局指標,如機體功能指標、患者自主報告結局、成本效益等。
利用真實世界數據開展數據挖掘,需要多角度評價數據質量,嚴格的數據質量管理才能提高臨床數據挖掘研究水平,確保研究結果的外部真實性和臨床實用價值。
臨床醫學地位特殊、診療結果生死攸關,這就賦予了臨床數據挖掘的特殊性和復雜性。且其涉及醫學倫理與法律問題,使得臨床數據挖掘與常規數據挖掘之間存在著較大差異。
第一,臨床數據挖掘研究有更好的人群代表性和外部真實性(External validity),或者普遍性(Generalizability)。研究對象的整體性和真實性,彌補了隨機對照試驗研究對象的局限性和特殊性,為解決臨床問題提供了真實的臨床實踐場景,研究結果和證據更接近,也更有助于臨床實踐。
第二,臨床表型存在著個體差異(Variation)。這賦予了臨床數據挖掘區別于常規數據挖掘的本質特征。從理論上來講,臨床特征相同的患者對治療或藥物反應是相似的,但先天遺傳性因素或后天環境因素的差異,使得少數患者出現或質或量上的差異性個性化反應。如腫瘤患者對新輔助放化療的完全應答、部分應答、不應答及特異性進展等。因此,臨床數據挖掘需針對患者進行個體化判斷或預測,為個體化治療方案提供依據。
第三,因為直接面對臨床數據的復雜結構,故臨床數據挖掘很難有通用方法(General Solution)解決各種臨床科學問題。相較于可以將數據直接代入公式或模型來反映特征變量關系的理化學科,沒有一個普適性模型能夠指導臨床數據挖掘研究,而是需要多模型、多方法、多階段反復迭代地探索研究。計算機信息技術的發展,數據挖掘新技術的出現,雖有助于克服這一難題,但迭代反復仍是臨床數據挖掘的顯著特征。
第四,臨床數據挖掘具有倫理性、法律性和社會性。臨床數據所有權、數據隱私、數據安全、預期收益以及管理成本等都使得臨床數據挖掘與常規數據挖掘存在顯著不同。
人類疾病的復雜性、健康重要性、數據特殊性,個人、團體和人群水平的臨床結局變異性以及數據挖掘技術共同促進了臨床數據挖掘的快速進步。同時,復雜多變的臨床數據也為數據挖掘技術的進步提供了廣闊的舞臺。