由于医疗大数据涉及到电子病历、医学影像、医院视频等多种类型的数据,下面针对不同类型的数据对象,简要介绍医疗大数据分析的关键技术。
1.面向医疗电子病历的结构化信息抽取
电子病历(electronicmedicalrecord,emr)是指医务人员在医疗活动过程中,利用电子设备生成的文字、符号、图表、图形、数据、影像等不同种类的数字化医疗信息,实现存储、管理、传输和重现的医疗记录,并蕴含着富有价值的信息。自由文本形式是电子病历数据的主要格式,没有严格的语法和句法结构,且包含大量名词缩写和名词短语,甚至还存在医生书写记录时的拼写错误,是典型的非(半)结构化数据。面向电子病历的结构化信息抽取,主要涉及医疗命名实体及其属性识别、医疗知识图谱构建和医疗知识图谱应用等几个方面。
医疗命名实体识别的主要任务包括:①疾病、症状、手术、医疗检查等医疗命名实体的识别;②相关命名实体的属性识别,核心在于否定触发词的探测(negationdetection)与识别,例如某疾病史的有无、某症状的程度等;③命名实体之间的关联分析,利用不同命名实体或概念之间的共现关系,建立命名实体之间的联系。目前,医疗命名实体识别主要利用自然语言处理、信息抽取等技术对电子病历文本进行分析,命名实体抽取一般采用基于词典和规则的方法,基于隐马尔科夫模型、svm等机器学习方法。
医疗知识图谱构建,是指在医疗命名实体及其属性信息抽取的基础上,构建不同命名实体之间的关联模型,现有的主要方法包括马尔可夫随机场、贝叶斯网络等概率图模型方法。
医疗知识图谱应用,则是利用医疗知识图谱,面向医疗的实际应用需求,建立挂号咨询、医疗辅助诊断、疾病治疗预案等实际应用系统。
2.面向医学影像的数据分析
随着信息技术及医学影像技术的发展,医学图像处理在临床中发挥着越来越重要的作用,对推动医学科学研究和临床的进步发挥了重要作用。
面向医学影像的数据分析研究重点在于如何利用图像分析理论和方法成果,结合临床医学的实际需求,探索面向医学影像分析的新方法、新技术,进而实现高效定量分析与可视化,降低疾病诊断与治疗的盲目性和不可靠性,为临床医生准确诊断,快速地制定治疗方案和有效地评估治疗效果提供重要支持。
目前的研究主要集中在两个方面:一是医学影像处理研究包括医学影像的增强、分割、配准、融合以及三维重建等,这些技术为医学影像数据应用提供技术支撑;二是医学图像的分析,通过对医学影像的模式识别与分类,实现对医学图像的自动标注,并根据图像的特征及标签为图像建立索引,以实现后期用户的图像检索任务。
3.面向医院监控视频的智能分析
随着视频监控技术和物联网技术的发展,目前各个医院安装了大量摄像头,尤其在住院病房,通过视频监控可以对病人的异常行为、医护人员的日常工作等进行实时监控。
传统的视频监控系统主要用于日常调度和事后取证,需要专人监控并分析监控画面,成本高昂且效率低下。
近年来,面向医院的智能视频监控系统的研究、设计和实现已经引起了学术界和工业界的广泛关注。2013年,美国cmu的caremedia项目,将智能视频监控系统应用于监护中心,该系统可以自动识别医护人员和患者的日常行为(如行走、交谈、诊断、肢体冲突等),并对异常行为实时预警。
4.医疗大数据的数据治理体系
医疗大数据涉及的数据类型多样,数据覆盖面广,服务用户多样,如何构建以病人、医生、医院和政府等多中心的数据治理体系,进而面向不同的用户提供不同的数据视图和分析结果,也是医疗大数据研究中的重要问题。
在现有医院各类信息系统(his、pacs等)的基础上,构建面向分析的数据环境是实现大数据分析的前提。一方面,从数据驱动出发,在数据层面上,实现面向主题(subject-oriented)的数据组织、多个不同数据源的数据集成、反映医疗数据的时空变化的数据环境,是医疗大数据组织存储的基本要求;另一方面,从平台层面出发,需要利用云技术,构建新的运行环境,满足海量数据的存储要求。目前,国内在该方面的研究亟待加强。
医疗数据中包含大量的患者个人的隐私信息,该数据的扩散性使用非常容易导致隐私信息的泄露,一旦发生数据隐私泄露,将损害患者人格和尊严,甚至给患者的健康或者生活带来不良的影响。国内外针对医疗数据的隐私保护研究主要从法律和技术两个方面展开。技术层面上,常用的有基于访问控制的技术、基于匿名化的技术和基于数据加密的技术等。
近年来,隐私保护和隐私攻击模型同步发展,对各类方法的有效性提出了严峻挑战。近期以差分隐私保护为代表的新的研究方向,成为面向医疗信息发布的隐私保护方法的主流,该方法不关心攻击者拥有多少背景知识,通过向查询或者分析结果中添加适当噪音来达到隐私保护。
医疗大数据面临的主要挑战
目前,医疗大数据的研究和应用刚刚起步,众多的研究仍然处于实验阶段,存在着一些挑战。其中数据质量差和不确定度量是典型问题。
1.数据质量
目前医疗数据的来源主要为医疗机构(例如医院、医学药学实验室、医疗康复中心等)和互联网。采集的数据范围广、维度高、类型种类繁多且不针对特定的问题。
首先,从数据量的角度来看,医疗行业的数据量与互联网搜索及消费等行业pb级别的大数据仍有一定差距。即使公共卫生与医疗健康的数据量在不断增长,然而由于目前国内十分缺乏医疗健康信息的合理接口,导致医疗数据的采集与应用严重脱节,医疗数据还未真正释放潜能。另外,大数据的相关技术(例如nosql等),在短时间内不太可能进入到医院的主流技术中。
其次,从数据质量的角度来看,医疗数据的采集由于缺乏统一的标准或标准未及时更新(例如医院之间、科室之间标准不一等),以及采集人员的主观错误或数据采集系统本身的设计问题,导致其中存在大量的不确定性。例如采集某感冒发烧患者的症状信息时,假设患者为感冒发烧状态,在记录患者状态时,使用“发烧”和“体温37.5°c”在语义上存在一定差异,这种语义信息差异会给最终的数据挖掘和模式分类模型带来偏差。另外,统计获得的数据分布很可能在其统计过程中被人为改变,而导致估计出的数据分布失真或者实际的数据分布根本无法获得,导致最终的统计学习模型不可靠。
2.不确定性的度量问题
目前比较成熟且进入实用阶段的大数据模型多数都是面向药厂和保险公司的。美国的医疗大数据应用中,面向医生和患者业务通常较难,很难找到合适的切入点。面向企业的业务相对容易,尤其是针对保险公司和药厂,而医院则相对难一些。由于大数据模型精度有限,在安全性要求极高的医院和医生中其实用价值非常有限,例如,一个95%准确度的模型对医生来说可能仍然不够精确,因为医生在决策时是针对患者个体的,而不是基于统计意义的。
模型本身的误差度量准则是否具有统计学理论的支持以及背后的统计学意义也值得商榷。在传统的生物统计学中,如果基于完备的统计理论可以构造出准确刻画模型的统计量,那么在很少的样本量下,模型也可以达到很高的置信水平。在统计学习模型中,希望数据的规模较大,所以需要新的误差度量准则。比如在决策树中,使用基尼不纯度(giniimpurity)来判断哪个特征对数据的区分度更大,最终获得最简单高效的分类或回归决策树,这里的基尼不纯度和统计学中的au-roc和mann-whitney-u检验十分类似,但两者之间细微的差别是否会导致在大规模数据集上的巨大偏差有待考量。
另外,统计学习模型的可解释性也较差,往往只有统计学家和计算机科学家才能精确完整地解释模型,而对于模型真正的使用者如医生和政府官员等存在巨大的障碍。
医疗大数据的应用案列
下面,简要介绍一下医疗大数据在计算流行病学和药物学领域的研究进展。
1.医疗大数据在计算流行病学研究的进展
计算流行病学是从传统流行病学延伸出来的利用数学方法、计算机模型的新型交叉学科,其目的主要是识别和控制疾病在人群中的时间与空间维度上的扩散、发展问题。
从研究内容来分,计算流行病学主要分为以下6个方面:①预测流行病的发病率;②识别流行病易感人群;③评估可获得的干预方法;④估计干预方法可实施的概率;⑤从流行病发展、控制中学习经验教训;⑥促进公众对流行病的认知。
除以上研究内容外,计算流行病学还关注研究疾病是否引起生理退化(例如阿尔兹海默综合症、轻度认知障碍、青光眼等),疾病是否发展且发展过程是否可控(例如青光眼、脂肪肝等),疾病是否可完全治愈或部分治愈(例如创伤性脑损伤、脂肪肝等),等等。
从研究目标来分,计算流行病学主要分为以下3个方面:①识别引发疾病的风险因子及抑制疾病的保护因子(如生活方式、用药史、基因等);②干预措施对患者健康状态的影响以及对疾病发展的控制情况;③疾病发展模式及其影响因素,患者健康状态及其影响因素。
医疗大数据在计算流行病学研究中的成功应用很多。u.niemann等通过随机抽样方法获得纵向遗传病样本数据,共578例,学习分类和预测具体的特征因素变量引起脂肪肝的可能性。a.i.rughani等基于入院记录和物理检查结果数据构建了30个带负采样的人工神经网络模型来预测病人因创伤性脑损伤而入院后的生还概率。z.f.siddiqui等通过使用截面数据评价创伤性脑损伤病人在临床治疗后认知能力的恢复情况。
2.医疗大数据在药物学研究的进展
药物学是目前医疗大数据挖掘领域发展较为成熟的一个方向。在药物学研究中有以下两个问题目前最受关注。
(1)药物安全学:药物安全学是目前医疗大数据领域研究比较广泛的一个方向。简单来说就是从海量emr数据中识别药物不良反应(adversedrugreaction)和药物相互作用(drug-druginteraction),来弥补因为样本局限在临床试验中未能发现的药物治疗问题,最终目标是使药厂制出疗效更好的药,医生开出更安全合理的药方。
一方面,药物数据容易从医学实验室和药厂获得,且多为易理解和处理的结构化数据;另一方面,药物制造背后巨大的商业利益驱使。在美国的科研机构、药厂以及类似ibm这样的技术公司都有大量专业人士从事与生物医药开发相关的工作。
(2)个性化药事服务:个性化药事服务是指根据一个人特有的生理状况(如基因、器官结构等)、病理状况(疾病发展周期、多疾病复合等)甚至心理状况为患者量身定制一个合理且高效的医疗方案。
结语
随着医疗信息化、医疗物联网和健康云的发展,医疗行业进入大数据时代。医疗大数据挖掘对于改进医疗诊治服务、提升医疗效率、降低医疗成本、提高全民健康水平等提供重要的技术支撑。医疗大数据在数据分析和隐私保护等关键技术领域取得了长足的进展,但是在数据质量、不确定性问题等方面还面临着众多挑战。
更多资讯敬请关注智造家行业资讯频道
网友评论 共 0 条评论
智造家提示:你现在浏览的网站是镜像网站
请访问原网站:尊龙凯时注册-尊龙凯时app