数据挖掘技术在中医小儿肺炎辨证规范中的应用
发表时间:2009-06-22 浏览次数:616次
作者:马玉慧,王波
【摘要】 以小儿肺炎为例,采用数据挖掘技术建立中医小儿肺炎辨证规范,并与“十五”前期的小儿肺炎辨证规范进行对比分析,以期为数据挖掘技术在中医辨证规范化方面做出贡献。
【关键词】 辨证规范 数据挖掘 小儿肺炎
传统的中医诊断疾病包括辨病和辨证两部分。辨证是中医学中最富有特色的科学精华,也是中医诊断学的主要研究内容。中医辨证标准的研究,对于发展中医理论及提高临床诊治水平,具有极其重要的意义。目前,中医学尚缺乏公认的中医辨证规范。已经出现的中医辨证的方法多采用统计方法和逻辑分析方法,但受人为经验因素的影响,难以摆脱传统的经验模式。本文以小儿肺炎为例,提出运用数据挖掘技术,通过数据预处理、数据挖掘、挖掘结果处理,从而建立中医小儿肺炎辨证规范。
1 中医小儿肺炎辨证规范数据挖掘的相关技术
数据挖掘是在大量的数据中自动发现有用的信息的过程,是知识发现的一部分。运用数据挖掘技术进行知识发现的过程如图1所示。
1.1 数据预处理
在进行数据挖掘之前必须要经过数据预处理。数据预处理的任务是将现有的数据集转换成符合挖掘算法要求的集中的数据集。预处理工作主要通过以下步骤完成:从多个数据源中进行数据的汇集;去掉噪声数据和重复数据;进行属性选择,可以采用交互的方式让用户自己进行属性筛选,去掉那些与挖掘工作无关的属性;维度约简,可以通过某些技术,例如粗糙集技术,约简掉那些对决策不重要的属性;数据规范化处理,最终得到符合挖掘要求的数据集。由于数据集可能来自各种不同的途径,因此数据预处理过程是整个知识发现过程中最耗费时间的步骤。
1.2 数据挖掘
数据挖掘过程就是根据挖掘人物的不同,选择不同算法进行数据分析的过程,主要的算法包括关联规则算法、聚类算法、时间序列分析算法。
1.2.1 关联规则
数据库中关联规则的挖掘可形式地定义为:
设I={i1,i2,…im}是所有项目的集合,即数据库中的所有字段;D是所有事务的集合,即数据库;每个事务T是一些项目的集合,T包含在I中,每个事务可以用唯一的标识符TID来表示。设X为某些项目的集合,如果X?哿T,则称事务T包含X。关联规则表示为:( XT )X( Y T )Y,其中,X I,Y I,X∩Y=。关联模型主要描述了一组数据项目的密切度或关系。
1.2.2 聚类算法
聚类就是把整个数据分成不同的组,并使组与组之间的差距尽可能地大,组内数据的差异尽可能地小。聚类分析时数据集合的特征是未知的。聚类根据一定的聚类规则,将具有某种相同特征的数据聚在一起,也称为无监督学习。聚类的数学描述如下所示:给定数据集合V={νi | i = 1,2,…n},其中νi为数据对象,根据对象间的相似度将数据集合分成k组,并满足:{Cj| j= 1,2,…k},其中Ci V;Ci∩Cj = ∪ki=1 Ci=V,则该过程称为聚类,Ci(i=1,2,…n)称为簇。
1.2.3 时间序列分析
时间序列是指系统中某一变量的观测值按时间顺序(时间间隔相同)排列成一个数值序列,展示研究对象在一定时期内的变动过程,从中寻找和分析事物的变化特征、发展趋势和规律。它是系统中某一变量受其他各种因素影响的总结果。研究时间序列的实质是通过处理预测目标本身的时间序列数据,获得事物随时间过程的演变特性与规律,进而预测事物的未来发展。
1.2.4 粗糙集
粗糙集理论[2]由波兰科学家Z.Pawlak在1982年提出。它是一种刻划不完整性和不确定性的数学工具,能有效地分析不精确、不一致、不完整等各种不完备的信息,还可以对数据进行分析和推理[3],从中发现隐含的知识,揭示潜在的规律。粗糙集中的一个特点就是对于所需处理的问题无需先验知识,因此具有相当的客观性。目前,粗糙集理论已经被成功地应用于挖掘属性依赖度和属性约简。
1.3 挖掘结果处理
经过数据挖掘之后得到的信息是一些数据,并不能直接帮助用户进行决策,需要将挖掘结果进行集成或可视化处理,确保将有效、有用的信息呈现出来,或者从多个不同角度进行数据分析和
挖掘结果的分析。
2 中医小儿肺炎辨证规范数据挖掘系统的实现
中医小儿肺炎数据挖掘系统是在前期“十五”攻关课题“小儿肺炎中医证治规律研究”的研究成果基础上,通过1000例小儿肺炎前瞻性临床研究建立计算机数据处理平台,应用数据挖掘技术,客观建立中医辨证规范、疗效评价指标和方法体系。通过临床信息采集和数据挖掘,将重新确认小儿肺炎证型的分布;各证型症状的基本构成;确认症状间的关联关系;确认症状对病证诊断和疗效评价的贡献率以及证型之间的转换规律。系统的处理流程如图2所示。
2.1 数据预处理
在进行数据挖掘之前,必须经过数据预处理。在本系统中,数据预处理完成的任务包括数据导入、缺失值处理、数据规范化处理、异常数据处理、属性约简、数据分割。
2.2 数据挖掘过程
2.2.1 聚类分析得到小儿肺炎证型的分布和症状构成
系统中挖掘工作的第一步是进行聚类分析。聚类过程是一个无指导地将对象进行归类的过程。
聚类的结果包括以下两部分:
(1)证的分布。证的分布指的是疾病证型的构成,很明显这是一个无指导的过程。聚类的结果形成多个簇,每个簇就是所说的证。证的命名通过与专家的交互,完成了辨证标准的客观功能部分。
(2)证的构成。聚类后,每个证包含了若干症状向量(症状、症状表现),可以得到每个证的症状(症状表现)构成情况。
2.2.2 关联规则分析得到症状间的关联关系
关联规则分析是在聚类挖掘的基础之上,在每个不同的证型中进行关联规则挖掘,得到每个证的症状之间的关联关系。中医小儿肺炎数据的层次关系可用图4表示。
系统中数据具有层次关系。在进行挖掘时,一方面,可以在最上层,即症状级,例如发热、咳嗽、气促这样的级别中进行挖掘,寻找关联关系;另一方面,也可以在具体的层次中进行挖掘,例如在稽留热、弛张热、间歇热、剧烈咳嗽、咳声无力、咳声重浊、气急、鼻煽、呼吸困难等这些具体的症状表现层次上进行挖掘,得到不同层次的不同的挖掘结果。通过关联规则分析,得到症状之间的关联关系。
2.2.3 粗糙集属性重要度计算症状对证的贡献率
属性的重要度[4]是指在一个信息系统中,不同的条件属性对于决策属性所起的作用是不同的。有些条件属性可能对于决策属性的取值起着重要作用,但有些可能不起作用。
用属性的重要度来表示条件属性对于决策属性的影响程度,可以采用分别去掉各个属性后,检测整个信息系统是否因为去掉了这个属性而导致了分类或决策结果发生了变化。若是,则这个属性对于这个决策属性是重要的,计算的值越大,重要性越大;反之,这个属性不是重要的,计算出的值就小。dB-B’(C)=rB(C)-rB-B’(C),其中rB(C)=■,属性子集B’?B,POSB(C)为正域,card (U)为该集合的元素的基数。
2.2.4 时间序列分析挖掘出证的变化规律
系统收录了每个病人在整个病程中每天的病情数据,构成了一个带有时序的序列。对这些序列进行分析,获得证随时间过程的演变特性与规律。
2.3 挖掘结果的验证
为验证挖掘结果,将从1000例样本数据中随机取出200例数据作为验证数据,用于多种辨证标准的验证测试。这200例验证数据将不参与数据挖掘,仅仅用于辨证标准的验证。为保证验证结果的可信度,将按照同年龄儿童中小儿肺炎的患病率,通过采集非小儿肺炎儿童的数据,将其与200例验证数据混合构成混合样本数据集。据统计,同年龄儿童中小儿肺炎的患病率为10 %左右,这样将采集2000例非小儿肺炎儿童的数据,构成2200例数据组成的验证数据及用于辨证标准的验证,认为这一数据量基本能够满足需要。
2.3.1 验证处理
经过数据挖掘处理后,可以得到挖掘的辨证标准、各证所属症状的划分方法以及具体症状的量化赋分方法。这样系统具有四种辨证或诊断标准:
(1)《中医病证诊断和疗效标准》等确立的小儿肺炎辨证标准和各证所属症状二级划分(即分为主要症状和次要症状两级)方法以及具体症状的量化赋分方法。
(2)进行小儿肺炎辨证规范和疗效评价方法研究之初,先期在逻辑判断基础上建立第二套辨证标准。该标准针对小儿肺炎中医各证的症状,依据各自对病证诊断的贡献情况分为特异症状、主要症状和次要症状三级。并对复合症状、注释性症状、极端症状、起鉴别作用症状、不宜作为疗效判定症状等做出说明和处理,借以对每个症状的程度水平进行三级量化处理。
(3)西医的诊断标准,包括小儿肺炎临床表现:呼吸系统、循环系统、神经系统、消化系统以及并发证;小儿肺炎实验室检查:病原学检查、外周血检查、X线检查等。
(4)数据挖掘的辨证标准。数据挖掘的辨证标准主要包括辨证指标以及具体症状的量化赋分方法。辨证指标包括关联挖掘(证的构成、证的构成比、证的关联度)、时序挖掘(证的变化、症状的变化)、聚类挖掘(症状的构成比、症状的贡献率等)。可以挖掘出具体症状的量化赋分方法。4种辨证标准分别在验证数据库中进行测试,得出客观度对比表,同时构造出整体的客观度曲线。如图5所示。
2.3.2 优化辨证标准
比较4套标准之间、3套辨证标准与西医诊断标准之间在病证诊断方面的符合情况,修正各证构成比、症状对证诊断的贡献率等;确定客观的量化方法,形成新的分级量化表,最终建立小儿肺炎辨证规范和方法体系。
2.3.3 建立辅助诊断系统
在客观辨证标准的基础上,设计辅助诊断系统,辅助专家对小儿肺炎各证进行科学的诊断。
3 结论
利用数据挖掘技术进行中医辨证规范的研究具有重要意义和挑战性。中医海量的病例数据为挖掘工作提供了很好的研究基础,中医复杂的症状间的关系和证型间的变化为研究提出了挑战。数据挖掘过程是一个需要人机交互、多次反馈修正的过程,高质量的数据、相应算法的合理参数是有效挖掘的基础。运用数据挖掘技术建立中医小儿肺炎辩证规范,必将为促进中医规范化做出巨大贡献。