为进一步扩大专科的学科影响力,提升IBD专病诊治水平和科研能力,进行了多中心专病数据库系统建设,建设的医院包括:中山大学附属第一医院、中山大学附属第六医院、浙江大学医学院附属邵逸夫医院、北京协和医院等。计划依靠人工智能、后结构化、大数据、智能随访平台等技术,做好IBD专病数据库的数据标准化、科研表单编辑、随访安排、数据质量控制等,并争取与专业团队合作产出高水平SCI文章、科研项目、专利著作等。
《IBD专病库及多中心共享平台功能说明》
专病库功能描述
从病历、报告中提供医学数据项形成数据项列表,同时依据相应规范,对数据项列表中的数据项逐一分析。以卫生部及国际相关标准规范为基准,对需要采集的数据项进行数据标准化工作,并存入专科疾病临床数据库。
明确数据集各数据来源,如病历文书、医嘱、检验、手术记录或其他临床资料。如数据有多个来源,需要指定判断规则。针对复杂字段,支持对数据进行二次处理和加工,满足智能化专病数据提取需要。
围绕专病数据集标准规范,基于数据匹配规则,整合异构来源数据,采取不同采集策略自动提取相关专病数据。
数据质控将临床科研中所需的专科数据进行质量分析,将数据中存在的质量情况进行实时监控,包括变量完整度、异常值质控、逻辑质控、数据类型质控等。例如数据类型问题、数据中存在特殊字符或者异常值进行标识,且可对各种数据进行溯源,直接回溯到真实的病历中查看实际的数据,方便科研人员在之后的科研中合理有效准确的利用数据。
对专病数据进行数据预处理,包括缺失值填补、变量的二次计算以及中间转换等,最终形成一份高质量的专病数据集。
缺失值填补:结合不同的变量类型和缺失值范围,采用中位数、众数、临近值等多种方式对缺失值进行填补;
变量二次计算:根据患者两个或多个变量综合计算形成新维度的变量,例如BMI指数、手术时长等;
变量离散化:结合课题研究目的将部分连续型的变量转化为离散型的变量,如将患者的年龄按照不同年龄段划分为青年组、中年组和老年组。
权限管理从用户控制权限的两个维度去考虑,即医院组织架构中的权限控制以及数据应用层面中的权限控制。在各维度中实现新用户注册、权限配置、登录追踪等功能,从而保障系统的数据安全和运行安全。
通过对数据集成、变量加工方式和结果的展示,展现高质量的专病科研数据库概况。如累计纳入的患者和病历数、治理变量状况,诊断、检验、检查等“归一”后的医学术语以及基于专病的相关诊断排名分析展示等。
专病库可对建立的研究人群特征利用数据可视化引擎进行多维度分析,包含人群特征、疾病特征以及症状表现等。所有统计图表都可以根据用户需求自定义配置。同时,模块还会借助大数据语义分析和知识图谱等技术,深度挖掘疾病症状之间潜在关联,为用户拓宽研究思路和想法。
Ø 患者分布。描述当前人群的时间分布、年龄分布、性别分布、地域分布、吸烟史分布、饮酒史分布等。
Ø 疾病分布。描述疾病分布特征,包括主要诊断、其他诊断、主要症状、伴随症状、既往疾病、常用药物等。
Ø 疾病词云。通过词云展示该研究人群的疾病分布以及相关频次分布情况,将疾病出现频次进行排名展示,以方便研究者进行疾病分层分析。
基于探索式分析,通过智能推荐图形、图表协同过滤、全维度数据钻取,辅助临床快速定位并发现问题。
专病数据库可对多维数据进行深度挖掘。临床医生可以根据入排条件设定来筛选建立研究人群,并可对已有研究人群的进行实时调整,包括入排条件的编辑、人群的合并、人群的删除等。
围绕专病,以时间为主线,串联所有诊疗事件,包括患者在院内各个环节产生的医疗数据,按照专病发生发展的过程进行梳理和展现,从而辅助改进诊断及治疗方法,为个体化治疗、精准医疗提供重要支持。支持围绕诊疗时间序列,在整个诊疗环节中任意设定中心事件,查看中心事件前后患者各项指标的变化情况。
现有基于科室的随访课题,整合升级到专病数据库,以标准、规范的方式进行数据收集,采用多种质控方式保证数据录入的及时性、准确性、完整性,最终实现临床数据和随访数据的整合利用。
基于高可用专病库进行相关的特征分析,针对不同主题的应用场景进行深度挖掘分析,其中包括影响因素分析、预测分析以及干预分析等。在疾病治疗层面,让临床医生清晰了解患者患病情况以及患病的危险因素,通过预后分析及疾病预测模型,寻找最佳干预节点,为该疾病预防、治疗提供科学参考。在运营层面,提供运营数据的深度挖掘,寻找影响重点运营指标相关因素,让医务管理人员快速定位其影响环节。通过单病种的数据挖掘,形成结果型知识,从而实现治疗的精细化管理。
影响因素分析致力于研究医学问题的相关性,通过研究一个结果变量与一个检验变量或多个检验变量之间的关联关系,并借助单因素方差分析和多元逐步回归分析方法,从影响变量(检验/筛选变量)的不同角度研究对人群的结果变量的影响。例如:研究影响某疾病的住院天数的影响因素,从而通过单因素方差分析探查对住院天数有影响的因素,通过多元逐步回归得出对住院天数的各类因素的影响大小。
影响因素分析除对住院天数、疾病分析、再住院以及再手术四个主题进行研究分析外,还可自定义结果变量和检验变量,通过单因素相关分析和逐步回归分析,得到与结果变量相关的变量因素以及影响大小。
13.1干预分析
针对用药、手术等治疗手段,支持进行关键事件前后重点指标的变化趋势分析,通过统计检验模型分析出重点事件前后的差异是否有统计学意义,从而产出治疗效果对比报告,为医生在临床治疗过程中提供参考。
13.2预测分析
专病库可对重点疾病进行预测分析。主要包括对疾病的住院人次、出院人次、门诊人次、手术人次、再住院人次、再手术人次、治愈人次和死亡人次等相关指标给出未来的变化趋势预测;
专病库可对临床重点关注事件如死亡、深静脉血栓发生等情况进行预测。
研究建模模块主要是通过R算法包集成,提供研究人群研究设计、统计分析模块,以流程引导的方式简单快捷地实现研究对象的分组、统计学处理和研究报告生成等功能。
ü 课题基本信息配置
课题基本信息配置主要填写该课题研究目的,选择所属研究类型,以及该研究持续时间。文本编辑框后面字符*代表必填项目,填写相关信息并选择相应课题PI,最后明确项目的启动和结束时间,完成课题基本信息配置。
ü 研究人群分组
根据课题研究目的,将人群按照不同的分组方式(想要研究的病种人群之间的区别)分成多个组别。分组方式可灵活选择,如将某个人群作为一组,对比两个或多个人群之间的差异;或在同一人群中,根据某一变量进行分组,如性别、年龄、是否感染、是否死亡等;在某一个具体的分组中,还可以根据其他变量进行亚组的划分,如“女性组”中根据年龄再分为“中年组”、“青年组”、“老年组”等,以支持不同层次、不同组别之间患者对比。同时,系统还会默认一个其他组,用以表示分组后剩余样本,该部分样本常用来作为对照组,并且组名支持自定义。
ü 数据预览
在统计学处理模块,系统还支持对各分组检验变量的数据完整度进行预览,主要查看数据的缺失程度,若数据缺失程度过高,则认为该统计结果不成立,需要重新更换研究变量或者调整研究对象范围。
ü 统计模型选择
根据课题研究目的及分组情况,选择合适的统计模型。系统目前支持基于R的共20余种医学上常用的统计模型,包括比较均值分析、非参检验、回归分析、相关性分析和生存分析等,也包括大数据挖掘处理算法,如主成分分析、决策树等。
ü 智能统计模型推荐
当用户在选择统计模型时,很多时候并不确定所要研究的变量应该用何种统计方法或者不明确该检验方法适用的前提条件。因此,系统提供模型提示功能,陈列出所有统计模型应用的案例以及使用说明,供用户进行参考。
ü 统计学处理
确定统计模型后,可直接选择一个或多个检验变量,并根据检验变量类型的不同,选入合适的统计模型,如独立样本T检验适用于定量变量统计,而卡方检验适用于分类变量统计;通过任意切换置信分组,来实现一个或多个组间变量的差异对比,直接生成统计结果。
ü 模型结果展示与解读
针对每一个统计模型,生成结果后都会结合相关数据给出说明和解释,如出现多个P值,系统会提示哪一行作为最优参照结果。且有统计学意义的数据,系统都会用颜色标识处理。
ü 研究报告生成
系统可生成完整临床研究报告,包括:研究目的、研究类型、统计方法、入排标准、分组信息、统计结果等,并支持多统计模型结果对比。
疾病知识图谱构建,是指在医疗命名、实体及其属性信息抽取的基础上,构建不同命名实体之间的关联模型,而针对医疗数据跨语种,专业性强,结构复杂等特点,则需要通过从大量的结构化或非结构化的医学数据中提取出实体、关系、属性等知识图谱的组成元素,选择合理高效的方式存入知识库。疾病知识融合对医学知识库内容进行消歧和链接,增强知识库内部的逻辑性和表达能力,并通过人工或自动的方式为医学知识图谱更新旧知识或补充新知识。
借助机器学习、数据深度挖掘等人工智能技术实现医疗知识图谱构建,在医疗命名实体及其属性信息抽取的基础上,构建不同命名实体之间的关联模型,形成疾病诊疗相关知识沉淀,从而实现科研知识转化。
多中心共享平台功能描述
围绕IBD专病,在各家分中心医院建立独立专病数据库,在业务层面实现不干扰。同时针对研究需求,开展多中心研究,可以通过专病共享机制去支撑多中心的数据应用。借助分中心医院前置系统模式,基于多源数据交换标准,将各家分中心医院专病数据进行整合。 通过搭建多中心数据共享平台为多中心数据应用提供支撑。
1、共享数据交换系统建设
Ø 依据IBD专病标准数据集,匹配相关多源格式数据,建立各分中心数据交换标准;
Ø 依据各分中心医院数据情况,映射匹配每一个数据项及值域到标准数据元,形成数据路径映射表;
Ø 在数据上报层面,根据数据上报要求,由分中分主动筛选患者,实现数据的自动上报;
Ø 针对上报的数据进行单独管理,实现上报数据的动态配置及维护。
2、多中数据共享应用平台建设
Ø 实现多源异构数据同质化,并基于医院、病种、病例维度实现多中心数据集成融合;
Ø 围绕各分中心数据实际情况,依据数据质量标准,透析数据质量问题。同时根据数据的不同类型质量问题进行数据治理规则开发,实现各分中心数据治理规则库,基于规则库实现多中心数据的治理工作;
Ø 围绕IBD专病数据分类模型,生成数据资源目录,实现数据资源化展示;
Ø 基于多中心平台课题,实现课题项目数据的管理,其中包括课题目的、课题PI
、课题入排条件,课题患者人群、统计结果等相关信息的管理;
Ø 针对多中心合作类型课题,以合作邀请的方式,实现课题的参与邀请,并通过平台明确相关数据共享的内容及数据应用策略;
Ø 根据多中心研究方案,实现数据匹配筛选满足研究要求;
Ø 基于多中心共享平台的研究成果,以信息的方式反馈平台,实现科研成果归档;
Ø 实现数据应用的审核流程,基于每个变量、每个账户,实现精细数据应用权限配置体系。
3、多中心数据安全体系建设
l 数据安全
Ø 参照国内外隐私数据标准,根据IBD患者数据情况,实现患者隐私信息的定义,形成患者隐私信息统一标准库;
Ø 基于结构化和非结构化数据类型,形成不同的隐私信息脱敏策略。对于出现在病历及检查报告等文本型文书中的敏感信息采取自然语言处理技术,实现敏感词库,自动从文本中筛选相关隐私信息并转化;
Ø 对患者的隐私数据进行加密处理,且在权限不允许的情况下无法实现解密;
Ø 在数据共享应用之前,数据完全脱敏,在整个数据共享过程中形成敏感信息体系化管理,敏感数据的使用通过审核流程来实现。
l 平台安全
Ø 身份鉴权,平台实现身份、应用匹配机制,严格控制平台使用者身份审核,通过信息化的方式实现自动鉴权;
Ø 权限控制,平台从数据、数据应用、用户角色、组织架构、课题项目、时间等多个维度控制平台使用权限。实现把每一个变量的查询、导出、统计权限控制到每个账户上;
Ø 日志追踪,实现平台全过程日志追踪,包括登录、查询、导出、统计等各环节日志信息。保证数据应用可追溯;
Ø 系统安全,实现系统的漏洞的定期查验及修复,实现系统的连续稳定运行。