点击标题下「蓝色
随着医疗信息化的不断发展,肝病与肝癌医学中心积累了海量的健康医疗数据。数据种类繁多,来源各异,包括人口信息、电子病历系统、检验系统、影像检查系统、随访信息、生物样本库、基因测序、蛋白质组学等。然而,这些数据分散在各个医疗中心的多源异构平台中,如同“数据孤岛”,缺乏一体化数据存储与分析平台[4]。不同医疗中心之间数据标准不同,数据概念存在一词多义、多词一义、同义词、缩略词等情况,还有表达方面的习惯差异和含义模糊等问题,“有数无据”现象导致数据处理困难、难以充分融合[5-6]。因此,大规模的健康医疗数据并不等于健康医疗大数据。如何实现多中心数据的融合共享,完成由量变到质变的跨越,成为真正意义上的健康医疗大数据,是亟待解决的现实瓶颈问题。为促进大数据在健康医疗领域更好地推广应用,笔者以东南肝胆健康大数据研究所在肝病与肝癌大数据平台建设实践中的经验为例,深入全面阐述多中心数据汇聚、治理、共享及应用等一系列关键技术和体系建设策略。
一、大数据联盟统筹建设大数据中心
年,以福州建设国家健康医疗大数据中心为契机,由吴孟超院士发起成立全国肝病和肝癌大数据联盟,旨在汇聚全国肝病和肝癌数据并建设安全、开放、共享的数据平台,形成全世界规模最大的肝病和肝癌大数据中心[7]。在平台建设方面,东南肝胆健康大数据研究所联合清华大学、武汉大学、中国科学院计算技术研究所、福州大学等高校和相关企业,构建产学研用协调创新一体化的科研生态圈和产业生态圈,以临床需求和科学问题为导向,自主研发关键技术,形成一系列初步成果和应用。
二、数据融合,标准先行:完善的大数据标准体系
术语标准是信息表达、交换、共享、协作的重要基础,医学术语标准化对规范临床信息录入、促进多中心数据融合、开展大数据应用至关重要[8]。目前国际上已经形成医学系统化命名-临床术语、医学主题词表、临床药品标准命名术语表、观测指标标识符逻辑命名与编码系统、国际疾病分类与代码等医学术语标准,但我国在医学术语标准化方面起步较晚,在肝病与肝癌领域缺乏系统性的术语标准[9]。
因此,笔者团队在国际肝胆胰协会中国分会的指导下,将肝癌临床与科研相关的全疾病周期概念进行系统收集、规范定义,经各领域专家评审后制订原发性肝癌和慢性乙型病*性肝炎临床标准化术语。其中原发性肝癌标准术语集收集个概念,分为18个子类,慢性乙型病*性肝炎术语集收集个概念,分为16个子类,覆盖全疾病周期信息[10]。基于标准化术语,笔者团队协同多学科专家转化为数据集,并申请福建省地方标准,实现在信息层面统一规范;进一步梳理概念以及概念之间的关系,与国际标准映射;最终用于构建医学知识图谱,实现辅助诊断与治疗,形成由术语集、数据集、本体、知识图谱组成的大数据标准体系。
三、标准化数据治理流程:规范的数据治理技术体系
(一)一人一码,创建病人唯一索引
病人在多个医疗机构住院治疗会产生不同的住院号,医院内门诊与住院编码也不相同。如何将病人门诊与住院信息整合,将多中心就诊信息整合,是数据整合面临的首要问题。笔者团队应用病人姓名、身份证号码、电话号码等信息对病人信息进行核对,根据病人信息完整度判断数据是否整合,并给予统一规则的编号,创建病人唯一索引。未来,随着居民电子健康码系统的普及,一人一码将使数据汇聚、融合更加方便[11]。
(二)数据联网,打破“数据孤岛”
随着医疗技术的发展,新的检查和检验项目不断涌现。新的检查和检验设备通常具有独立的信息储存系统,独立数据调用困难,形成“数据孤岛”。例如在肝癌手术前,临床医师需对肝硬化病人进行吲哚菁绿清除试验、剩余肝脏体积计算等评估,以往这些数据均由检查医师审核后提供纸质报告结果,这种“数据孤岛”现象阻碍了信息系统的一体化、智能化发展[12]。为打破“数据孤岛”,实现数据整合,必须将单独出具报告的数据联网。目前,笔者团队积极推进肝病和肝癌诊断与治疗数据联网,实现医疗信息数字化,为医疗智能化、医院建设助力。
(三)前结构化智能数据采集系统
与血常规、生化检查、肿瘤标志物等结构化数据不同,入院病历、手术记录、影像学检查报告及病理学检查报告等临床诊断与治疗信息属于非结构化数据。非结构化数据体量庞大,数据量是结构化数据的4倍,且数据新增速度是结构化数据的15倍[13]。这部分数据存在医师表述不统一、书写内容不完善等情况,导致数据汇聚及分析时存在判断困难甚至空缺情况。前结构化系统可在数据产生过程中实现数据处理,在源头上保证非结构化数据质量[14]。
笔者团队自主研发结构化、智能化的电子病历、影像学、病理学数据采集系统,方便医护人员高效、便捷地录入临床数据,同时后台自动生成相应医疗文书。这既保障了病案及报告的数据质量,也方便对数据进行提取分析,为大数据时代数据采集提供新模式。
(四)单中心临床科研一体化大数据平台
医院信息系统、电子病历系统、影像学采集与输出系统、实验室检查信息系统、病理学系统的数据库访问权限,构建与源数据库类型相同的数据库系统,创建本地备份表。利用数据库同步技术(OracleGateWay、OracleGoldenGate、ODBC等),将不同类型的数据库进行整合,实现多源异构数据库之间的数据同步与统一查询,服务于大数据应用。
(五)多中心数据标准化处理流程
多中心各类型数据库源文件通过文件传输协议及卫生专网等形式汇聚后,经本地还原操作,再建立标准数据集及源数据库数据字典的映射关系,统一转换为ORACLE关系型数据库,并进行数据清洗,包括对异常值、空值、文本抽取等特殊情况进行处理,形成多中心数据融合库,最终经过人工校验后形成标准化数据库。数据经过标准化处理及人工验证,可保证数据质量。为服务于临床研究,数据库根据研究人员设置的纳入标准和排除标准逐步细化,建立数据提取规则,从数据库中筛选符合入组标准的研究对象。每一步筛选排除均可对规则与病例进行核查,实现数据提取的可核查、可溯源,从而避免数据提取“黑盒子”问题。
经过以上规范化数据处理后形成的肝病与肝癌数据不仅具有体量巨大、生成速度快等特征,而且由于数据定义标准化、维度多样化、过程可证实和安全可保障而成为真正具有高价值特征的大数据资源。这为大数据的深度挖掘与人工智能的研发提供坚实基础和可靠保障。年,该平台为数字中国创新大赛提供例肝癌影像模拟数据和影像人工智能诊断赛题[15]。此外,该平台已为大数据联盟内81名研究人员提供份高质量科研数据,发表临床研究论文10余篇,为临床诊断与治疗提供循证医学证据[16-26]。
四、肝病与肝癌大数据应用关键技术及场景
基于高质量数据资源,笔者团队汇聚多学科团队开展集成式联合攻关,研发孟超肝病AI外脑——一个融合循证医学证据和人工智能技术的临床决策支持系统。它相当于一位非常有经验的权威专家,能和医师一起为病人进行智能诊断与治疗、图像识别、风险预测、慢病管理,实现临床诊断与治疗的规范化和均质化。
(一)大数据科研平台服务临床研究
大数据是进行疾病流行病学调查、治疗效果评价、预后判断等临床研究的基础[27]。目前国际上已经形成类似美国监测、流行病学和结果数据库(SEER)、美国国家癌症数据库(NCDB)等疾病数据中心[28]。我国在肝病与肝癌领域尚无全国性的数据库。
笔者团队汇聚多中心数据,同时将临床诊断与治疗生成的新数据经标准化数据处理流程后存储于大数据科研平台,实现临床科研数据一体化。该平台符合运维安全审计4A规范,包含10余项主流的安全防护技术,保证数据安全。与此同时,平台内包含SPSS、R、Python等常用科研分析软件与软件包,方便临床科研人员开展科学研究,研究结果可导出但源数据不离开平台,形成安全、开放、共享的科研平台。
(二)大数据与临床辅助决策支持系统
笔者团队针对临床需求,以指南、共识、高水平文献等循证医学证据为依据,开发慢性乙型病*性肝炎、肝硬化、肝衰竭、药物性肝炎、自身免疫性肝炎、酒精性肝炎、原发性肝癌等7大病种的临床决策支持系统,能自动提取病人诊断与治疗相关前结构化数据,进行疾病筛查、智能诊断、自动分期、智能治疗方法选择、风险预测和智能评分[29-31]。以原发性肝癌为例,目前系统可自动进行肝癌筛查与诊断,肿瘤分期(包括巴塞罗那临床肝癌分期、中国分期、TNM分期),肝功能评估(Child-Pugh分级、终末期肝病模型评分),治疗方法选择,肝切除术等治疗措施适应证与禁忌证评估等,医师与系统可进行人机交互,生成并审核辅助诊断与治疗结果,避免因个人经验和知识差异造成漏诊、误诊。与传统人工调阅数据、分析数据后进行决策比较,孟超肝病AI外脑可提升医师诊断与决策效率,减轻医师工作负担[32]。此外,该系统与电子病历系统整合,与临床诊断与治疗流程无缝衔接,覆盖疾病诊断与治疗全过程。
(三)大数据与深度学习促进肝癌图像识别
在医疗领域,图像识别已经在肺结节性质判断、新型冠状病*肺炎、结直肠癌、乳腺癌、前列腺癌等一系列医疗诊断与治疗领域取得较好的应用前景[33-36]。但由于深度学习多采用卷积神经网络,存在隐藏层,因而其可解释性弱,存在黑箱效应。此外,在肝脏等腹部器官图像识别领域,因呼吸运动造成的图像配准是提高图像识别准确率的一大难点[37]。目前,笔者团队正开展基于肝脏影像学检查报告及数据系统和自动配准的肝癌影像智能诊断研发,模型准确性高并具有可解释性,达到具有10年经验影像学专科医师的水平。
(四)大数据与机器学习辅助疾病风险评估
目前,机器学习算法已在疾病风险评估、辅助诊断、预后预测及最佳治疗方法选择等方面广泛应用[38]。与传统医学统计学方法比较,机器学习算法通过在海量数据中寻找相似病人,并基于相似病人的病程发展,给出预测结果,实现精准的风险预测。
笔者团队基于机器学习算法对病人从肝炎到肝硬化再到肝癌过程中的全疾病周期关键节点进行个性化预测。其中肝癌术后复发模型可以预测术后复发风险概率和高危时间节点,筛选出复发高危人群,制订抗复发治疗策略[39]。微血管侵犯模型可在术前预测微血管侵犯风险,帮助医师制订手术方案,确定肝切除术范围,提高手术彻底性[40]。同时,基于前结构化数据,微血管侵犯、复发预测等模型可实时提取数据,自动分析风险程度,并通过电子病历系统为医师提供预警信息。
(五)大数据与可穿戴设备助力肝病病人健康管理
通过结合脂肪肝大数据与可穿戴设备,笔者团队打造了集运动跟踪分析、饮食控制等为一体的脂肪肝健康管理平台,为个体制订运动和饮食处方,实时监测病人运动数据与运动风险预警,对治疗情况持续跟踪和治疗方案修正,确保治疗的精准性,实现脂肪肝病人的连续性智能化健康管理。
经过实践检验,孟超肝病AI外脑荣获年国家卫生健康委员会“医疗健康人工智能应用落地30最佳案例”,年智慧医疗创新大赛总决赛一等奖、最佳原创奖、最佳应用实践奖等5项大奖。目前,孟超肝病AI外脑也在多家医疗单位进行试用,受到医师的广泛认可,可以提升医师诊断与治疗水平,实现治疗关口前移,开展早诊早治,推进分级诊断与治疗。
五、展望
大数据和人工智能已成为提高临床诊断与治疗水平和临床服务能力的重要支撑。与NCDB、SEER等综合性数据库比较,肝病和肝癌大数据平台集中于专科领域,涵盖全疾病周期的多维数据,通过建立数据标准、搭建科研平台、开展人工智能研发,在肝病和肝癌智能诊断与治疗、图像识别、风险预测及慢病管理等领域进行深入探索。在人工智能应用方面,孟超肝病AI外脑与传统的专家系统、Waston平台不同,该平台注重人工智能与循证医学相结合,基于肝病和肝癌大数据,以临床决策思路与循证医学为指导,与临床诊断与治疗流程无缝衔接,为临床提供高质量人工智能应用,真正解决临床需求和科研问题。
六、结语
综上,经过3年多的建设与实践,笔者团队建立了肝病和肝癌大数据汇聚、治理与应用的创新技术体系,为健康医疗大数据产业高质量发展提供新模式。笔者相信:未来,大数据体系将进一步应用于胆道和胰腺等专科疾病诊断与治疗领域,共同促进疾病防治事业发展,为建设健康中国贡献力量。
利益冲突所有作者均声明不存在利益冲突
参考文献参考文献略
版权声明本文为《中华消化外科杂志》原创文章,版权归中华医学会所有。其他媒体、网站、