数据挖掘( Data mining),是指从数据库中提取隐含在其中的、人们事先未知的、潜在的有用信息和知识。 所提取的知识可以表示为概念、规则、规律、模式等形式。数据挖掘是一门近几年才发展起来的多领域知识的交叉学科。 医院信息涵盖了医疗过程和医院活动的全部数据资源,包括临床医疗信息和医院管理信息。我们感兴趣的主要是临床医疗信息,只有这部分数据才能反映医学信息的独特之处,医学数据挖掘的主要对象也是针对这部分信息资源的。 医学信息具有以下特点: 1模式的多态性医学信息包括纯数据(如体征参数、化验结果)、信号(如肌电信号、脑电信号等)、图像(如B超、CT等医学成像设备的检测结果)、文字(如病人的身份记录、症状描述、检测和诊断结果的文字表述),以及用于科普、咨询的动画、语音和视频信息。 医学信息的多模式特性是它区分其它领域数据的最显著特征,这种多属性模式并存加大了医学数据挖掘的难度。 2不完整性病例和病案的有限性使医学数据库不可能对任何一种疾病信息都能全面地反映,表现为医学信息的不完全性。同时,许多医学信息的表达、记录本身就具有不确定和模糊性的特点。疾病信息所体现出的客观不完整和描述疾病的主观不确切,形成了医学信息的不完整性。 3时间性医学检测的波形、图像都是时间的函数;还有一部分医学信息,比如病人的身份记录等静态数据,虽然不带有时序性,但都是对病人在某一时刻医疗活动的记录。 4冗余性医学数据库是一个庞大的数据资源,每天都会有大量相同的或部分相同的信息存储在其中。比如,对于某些疾病,病人所表现的症状、化验的结果、采取的治疗措施都可能完全一样。 医学信息的所具有的这些特点,使得医学数据挖掘与普通的数据挖掘存在较大的差异,决定了医学数据挖掘的特殊性。 医学数据库中含有海量的、不同来源的原始信息,其中包括大量模糊的、不完整的、带有噪声和冗余的信息。在数据挖掘之前,必须对这些信息进行清理和过滤,以确保数据的一致性和确定性,将其变成适合挖掘的形式。 医学信息是由文字、数据、波形信号、图像、以及少量的语音和视频信号组成。对这些不同物理属性的医学数据,应采用不同的技术和措施进行处理,使其在属性上趋同或一致,再对处理的结果进行综合。 医学信息的多源性、时序性和非时序性数据共存、数字型数据和非数字型数据共存的特点,加大了信息融合的难度。 医学数据库是一个涉及面广、信息量大的信息库。要在这样庞大的数据库中提取知识,需要花费比其它数据库更多的时间,因此必须考虑医学数据挖掘的效率问题。 研究快速挖掘算法对于远程医疗和社区医疗具有更深远的意义,将直接影响其响应速度和医疗成本。同时,医学数据库的类型较多,并且又是动态变化的,要求挖掘算法具有一定的容错性。 医学数据挖掘的主要目的是为医疗活动和管理提供科学的决策,因此必须保证挖掘算法所提供的知识具有较高的准确率和可靠性。如何降低医学数据挖掘过程中的风险,提高挖掘结果的准确性和科学性,是医学数据挖掘能否得到实际应用的关键所在。 医学数据挖掘是一门涉及面广、技术难度大的新兴交叉学科,需要从事智能信息处理、计算机、应用数学的科研人员与医务工作者进行通力的合作,力争在多属性医学信息的融合、挖掘算法的高效性和准确性等关键技术方面有所突破。随着理论研究的深入和进一步的实践摸索,医学数据挖掘在疾病的诊断和治疗、医学科研与教学以及医院的管理等方面将会发挥巨大的作用。 |
|广告服务|关于我们|Archiver|手机版|小黑屋|大数据人
( 鄂ICP备14012176号-2 )
GMT+8, 2021-1-17 02:15 , Processed in 0.148061 second(s), 21 queries .
Powered by 小雄! X3.2
© 2014-2020 bigdataer Inc.