【数据库知识点总结】

2024-10-02

【数据库知识点总结】(共8篇)

1.【数据库知识点总结】 篇一

数据库设计 概念

1.1 描述

数据库设计是指对于一个给定的应用环境,构造最优的数据库模式,建立数据库及其应用系统,使之能够有效地存储数据。

1.2 数据库设计包含四部分

<1>需求分析 <2>概念结构设计 <3>逻辑结构设计 <4>物理结构设计

1.3 数据库设计的原则

<1>明白自己的系统为OLTP系统还是OLAP系统 <2>降低对数据库功能的依赖 <3>严格遵从数据库三范式 <4>适当的考虑数据分块

<5>尽量保证记录的唯一标识存在 概念结构设计

2.1 E--R图设计

E--R图分为局部E--R图和全局E--R图 E--R模型基本符号 实体的表示:长方形

联系的表示:菱形,如1:

1、1:n(m:1)、(m:n)属性的表示:椭圆形

2.2 确定实体与属性的原则:

<1>能作为属性的尽量作为属性而不要划为实体

<2>作为属性的数据元素与实体之间的联系只能是1:n的联系 <3>作为属性的数据项不能再用其他属性加以描述,也不能与其他实体或属性发生联系。逻辑结构设计

3.1 概念

是将基本E--R图转换为与选用DBMS产品所支持的数据模型相符合的逻辑结构的过程。

3.2 逻辑结构设计的过程分为

<1>将概念结构转换为现有DBMS支持的关系、网状或层次模型中的某一种数据模型 <2>从功能和性能要求上对转换的模型进行评价,看它是否满足用户要求 <3>对数据模型进行优化

3.3 逻辑结构设计的原则

<1>一个实体型转换为一个关系模型,实体的属性就是关系的属性,实体的键就是关系的键; <2>一个联系转换为一个关系模式,与该联系相连的每个实体型的键以及联系的属性都转换为关系的属性。配置数据库连接

4.1 步骤

1.打开powerdesigner,依次点击:database--connect 2.点击connect,打开对话窗口: 3.然后点击Configuer按钮,弹出数据源配置Configuer Data Connections对话框:

4.把页签切换到第三个Connetion Profiles页签中,如果连接存在,选中就行,如果不存在,点击add Data Source数据库图标进行新增,弹出Connection Profile Definition对话框 此对话框中需要输入以下信息

Connection profile name: 输入数据库连接文件名,它会自动加上后缀名.dcp;

Directory:数据库连接文件存放路径;可以任意;

Connetction type: 选择JDBC;

DBMS type : 数据库类型选择Oracle;

Server name: 服务器名称;也相当于对应PL/SQL登陆页面的数据库;

Database name: 数据库名字;

User name: 登陆数据库名字;

Password: 密码

JDBC Driver class: 驱动类;只要下拉框选择就行;

JDBC Driver Jar URL: 访问的服务器路径

JDBC connection files: 驱动包;需要指向ojdbc14.jar或者其他驱动的包的按钮路径;

5.点击Test Connection 按钮进行连接测试;

测试连接是否成功;成功会弹出成功或者失败消息框,测试成功后。点击确定按钮,返回数据源配置Configuer Data Connections对话框,列表中就会多出一个.dcp文件,点击确定即可。导出数据库

5.1 步骤

导出数据库表方法如下:

1.启动PowerDesigner

2.菜单:File->Reverse Engineer->Database 出来New Physical Data Model对话框,DBMS选择ORACLE Version 10g 选项,其他可以选择默认值,点击“确定”按钮,弹出Database Reverse Engineering Options对话框:

3.然后在下拉框中选择我们之前建立的数据源文件,并再次输入数据库User ID和password,点击Connection即可连接至数据库,并得取所有的数据库对象,在此我们选择所有的Table。

PowerDesigner 6.1 描述

Power Designer 是Sybase公司的CASE工具集,使用它可以方便地对管理信息系统进行分析设计,他几乎包括了数据库模型设计的全过程。利用Power Designer可以制作数据流程图、概念数据模型、物理数据模型,还可以为数据仓库制作结构模型,也能对团队设计模型进行控制。他可以与许多流行的数据库设计软件,例如PowerBuilder,Delphi,VB等相配合使缩短开发时间和使系统设计更优化。

power designer是能进行数据库设计的强大的软件,是一款开发人员常用的数据库建模工具。使用它可以分别从概念数据模型(Conceptual Data Model)和物理数据模型(Physical Data Model)两个层次对数据库进行设计。在这里,概念数据模型描述的是独立于数据库管理系统(DBMS)的实体定义和实体关系定义;物理数据模型是在概念数据模型的基础上针对目标数据库管理系统的具体化。导入数据库

7.1 方法

将视图切换到physical模型下,连接数据库:单击databasedatabase connection,弹出下面窗口,进行数据库的连接。

链接完成后单击toolsforward engineerschema generate,将弹出下面的窗口,单击generate,即可将物理模型导入数据库。实体

8.1 实体间的关系

实体间的三种关系:

1.标识关系(identifying relationship);

2.多对多关系(many-to-many relationship);

3.非标识关系(non-identifying relationship)。

标识关系是指把实体1中的主键作为实体2中的外键,且作为实体2的主键,非标识关系是指把实体1中的主键作为实体2中的外键,但不作为实体2的主键,8.2 概念

Erwin中的实体有两种:独立实体和依赖实体。实体被指定作为独立实体,或依赖实体,取决于其键的获得方式。独立实体由方角盒来指定,独立实体不依赖于模型中任何其它实体来标识;依赖实体被指定为圆角盒,依赖实体依存于模型中的其它实体,修改实体名

8.3 修改实体名称

方法一:单击实体名,按F2键可 以对实体名称进行修改;

方法二:右键单击欲进行修改的实体,选择Entity Properties;

8.4 方法三:双击实体修改。列的增删

方法一:右键单击所选实体Ñ≡馎tiue,在弹出的trbts窗口中添加É境蛐薷氖粜裕?方法二:单击所选实体,按tb键也可以进行添加,删除或修改操作。

2.【数据库知识点总结】 篇二

最近, 有不少细心的读者纷纷询问刊登在《实用妇产科杂志》封面右上角的CODEN SFZHA7是什么意思。SFZHA7是本刊的CODEN码。按国际惯例登在期刊封面的右上角, 国际标准刊号的下方。

CODEN (Code Number) 是美国ASTM (American Society for Testing and Materials) 制定的科技期刊代码系统, 被国际公认。美国《化学文摘》 (CA) 、《工程索引》 (EI Compendex) 、《乌利希国际期刊指南》 (Ulrich’sIPD) 等国际检索系统, 以及各国图书馆收藏部门均采用CODEN码进行文献/期刊识别。

3.【数据库知识点总结】 篇三

关键词:大数据 知识服务 知识库 数据清洗 非清洁数据 清洁度

中图分类号: G302;TP391 文献标识码: A 文章编号: 1003-6938(2013)05-0016-06

1 引言

随着以微博、社交网络等为代表的新型信息发布方式的不断涌现,人类社会的数据种类和规模正以前所未有的速度在不断地增加和累积,大数据时代正式到来[1]。在大数据环境下探讨知识服务,不再局限在传统的文献服务,而必须同步数据的爆发式增长与社会化趋势,将视角瞄准大量的碎片化信息、用户行为、用户关系,并将焦点汇聚在由此产生的实时数据、非结构化数据及机器数据。知识服务的内涵,将随着大数据的驱动而深刻发生变化,它将帮助一个组织更好地调用内部、外部以及公共信息,并进行数据分析,做出前瞻性的数据判断。

美通社最新发布的《大数据市场:2012至2018年全球形势、发展趋势、产业分析、规模、份额和预测》报告指出,2012年全球大数据市场产值为63亿美元,预计2018年该产值将达483亿。2012年,美国政府拨款2亿美元启动“大数据研究和发展倡议”计划。IBM、微软、Google等国外IT巨头早已嗅到了“大数据时代”的商机,这些国际巨头借助自己拥有领先技术和丰富资源,以及稳定的大客户群,实力雄厚,率先涉足。

我国互联网数据中心(IDC)对中国大数据技术和服务市场2012~2016年的预测与分析指出:该市场规模将会从2011年的7760万美元增长到2016年的6.17亿美元,未来5年的复合增长率达51.4%,市场规模增长近7倍。在国内,大数据正在引起越来越多的企业关注。不但阿里巴巴、腾讯等把大数据当成近期的重点项目。作为国内互联网产业的发源地和创新高地,中关村也在抢抓大数据发展机遇,着手布局大数据产业。

学术界、工业界甚至政府机构都已经开始密切关注大数据问题,并对其产生了浓厚的兴趣。大数据是新一代信息技术的集中反映,表现在数据从简单的处理对象转变为一种基础性资源,大数据的规模效应正在给数据存储、管理以及数据分析带来了极大的挑战,知识管理方式上的变革正在酝酿和发生。如何有效存储、管理、组织和更新大规模的数据,如何有效利用存储的数据进行推理获取知识并求解问题,这也是目前图书情报领域一个重要研究课题,正如Google的首席经济学家Hal Varian所说[2],数据是广泛可用的,所缺乏的是从中提取出知识的能力。由此,可以认为数据收集的根本目的是根据需求从数据中提取有用的知识,并将其应用到具体的领域之中。大数据环境下,更需要高效的知识提取手段,使得大数据源源不断提供有用的知识,而非知识被“淹没”在大数据中。在“数据海洋”中对大数据进行知识提取,最有可能的手段是讓大数据“缩水”,祛除一些噪声数据,对剩下的那些蕴含所需知识的数据进行提取,这也是进行知识管理的前提,更是知识服务的基础。

而在大数据环境下,要做好数据分析并以此做出数据判断的基础工作是数据清洗。大数据的维度包含了数量、多样性、速度、精确性等,在如此大维度中不可避免的存在着粗糙的、不合时宜的数据,如何将这些非清洁数据有效转化成高质量的干净数据,涉及到知识组织中的数据清理。数据的质量体现出数据的价值,更是知识服务水平的保障。数据清洗的最终目的就是提高数据的质量。

2 相关研究综述

系统科学理论对知识组织研究过程中一些问题和现象进行了科学的阐释和有效地引导。借助控制论(Control Theory)可为实现知识服务提供理论支持,具体而言过程化的控制思想对数据加工处理环节的数据质量控制、加工处理环节的时间、进度等控制,为知识组织工程的时间、进度和质量的控制提供了有效地理论支撑。在系统科学理论的指导下,就可从控制论角度出发采用数据清洗手段解决在知识组织过程中数据的质量控制、数据和知识生产流程控制等难题,并能基于控制论基本原理解决知识组织过程中大量复杂问题。

在数据清洗问题上,王曰芬教授[3]领衔的研究团队就从问题产生的背景和国内外研究现状进行了系统的综述研究,并给出数据清洗的定义和对象且说明了数据清洗的基本原理、模型,以及分析相关算法和工具,进一步给出了数据清洗评估方法。他们的成果对今后数据清洗的研究奠定了基础。曹建军等[4]认为数据清洗是数据质量研究的起点,从数据质量的角度明确数据清洗的作用,并提出了数据清洗的一般系统框架,该框架具备了柔性、可扩展性、交互性好、松耦合的特点。叶焕倬等[5]研究了相似重复数据清理方法,重点对检测和清除算法按照算法类型及相关改进思路进行分类综述,值得注意的是他们的视野已关注到将知识和语义的概念引入到数据清理框架中。王宏志等[6]的研究在一定程度上容忍非清洁数据的存在,侧重研究包含非清洁数据的数据库管理技术,提出了非清洁数据的表示方法,支持非清洁数据的数据操作,这样的非清洁数据模型包括一个以关系操作为核心的操作代数,可以有效地支持非清洁数据的各种该应用。而介于清洁数据与非清洁数据中间的不确定数据,周傲英教授等[7]注意到数据的不确定性普遍存在并且表现形式多种多样,提出了针对不确定数据的数据模型运用排序、剪枝等启发式技术设计新型算法,进一步综述了数据模型、数据预处理与集成、存储与索引、查询处理等方面的工作。张岩等[8]的研究中,给出了衡量数据质量的方法,并且可根据用户对结果质量的需求给出达到一定质量的查询结果。叶鸥等[9]的研究瞄准中文数据清洗问题产生的背景、国内外研究现状与研究热点,突出了中文数据清洗基本原理、模型及算法并着重阐明了中文数据清洗的方法,也总结中文数据清洗研究的不足,并对中文数据清洗的研究及应用进行了展望。

nlc202309030515

已有的研究成果,对本文展开数据清洗的研究在模型、技术、方法奠定了基础,控制论又从知识服务方向提供了从事数据清洗的理论指导。现阶段,针对数据清洗的研究不多,从知识服务的角度探究数据清洗的研究成果更少。而大数据引来了国内外越来越多的关注,逐渐发展成国民经济中一个重要产业,标志性的特征就是:①数据种类和规模正以前所未有的速度在不断地增加和累积;②数据分析的深度需求与知识服务广泛整合的鸿沟在拉大。在如此大数据的环境下,以知识服务为目的,深入研究数据清洗,将面临的问题:一方面是在知识组织过程中很多非清洁的数据是很难被彻底清洗干净;另一方面,对非清洁数据的清洗可能造成部分知识的丢失或失真;再一方面,知识库中信息更新频繁,要同步执行非清洁数据的辨识与清洗将极大影响知识库系统的效率,以致知识组织的过程低效。

针对面临的问题,本文从容忍非清洁数据存在的研究视角试图解决从包含非清洁数据的知识库中获取满足清洁度要求的查询结果的问题,也就是要给出非清洁数据的清洁度的描述。而非清洁来自两个方面,一方面是数据本身的非清洁,表现特征是数据的错误、不准确、不完整;另一方面是数据间的非清洁,表现特征是数据的重复、冗余、不一致。针对非清洁的两个方面,本文的研究工作将从元组上添加清洁度来描述数据清洁度,以此实现非清洁数据的清洁度的描述。

3 大数据对数据清洗的基础性需求

大数据不仅数量大,而且是异构和多媒体的。在大数据环境下探讨知识服务的解决方案、实现途径和方法,以及实现知识服务涉及到的技术问题。首先在宏观层面明确大数据对实现知识服务的要求,其次在技术实现层面找到支持数据处理、信息分析和知识服务涉及的基础性突破,即数据清洗。

3.1 大数据对知识服务的要求

大数据的价值在于提炼其中隐藏在数据中的规律和有关知识,它对知识服务的要求集中体现在两个方面:首先是大数据环境下的数据整合与规划。大数据不仅仅是容量大、内容丰富,而且其结构是异构的,数据产生的速度也是飞速的,数据中蕴含的知识也是无法衡量的。数据的繁杂、良莠不齐,使数据的利用效率受到影响。通过整合与规划提高数据的利用效率、提升数据的使用价值;其次数据的知识关联与组织。孤立的数据价值低,也只能完成传统的信息服务。针对大数据的知识服务必须将数据进行关联,使之能够为解决问题直接提供知识。通过分析知识组织的关联机制,构建以知识服务为目标的知识地图,确保从传统的信息服务能够上升到知识服务层面。

3.2 知识服务对数据清洗的需求

在知识组织过程中,知识库“吸收”数据且“供给”知识,最终目的是为知识服务提供满足应用所要求的合适的查询结果,数据是知识的基础,数据质量决定了知识的价值,而数据质量问题是由非清洁数据造成的。为此,知识服务若要实现高端的服务水平,基础在于知识组织,瓶颈在于数据清洗。数据清洗的目的是检测数据本身的非清洁和数据间的非清洁,剔除或者改正它们,以提高数据的质量。知识服务不仅需要分析非清洁数据的各种类型不一致、不精确、错误、冗余、过时等的解决方案,更需要追溯非清洁数据的形成源头,如:①数据本身来源不清洁导致的非清潔数据,例如数据采集和录入的精确;②数据模式的不清洁和信息集成中模式不匹配导致的非清洁数据;③数据的查询请求本身是不清洁的,导致获取了非清洁的查询结果。最终结合不同来源与不同类型,反馈修正解决方案使之能配合知识表示效用,以及在提高知识服务水平的同时,保障知识服务的效率。

4 数据清洗的基本框架模型

以一个非清洁数据的片段为例,如表1所示,可以很容易判断:①不完整的数据有:(ID:3、字段:City)“BJ”;②错误的数据有:(ID:6、字段:Name)“Mal-Mart”;③冗余的数据:(ID:1、3、6)表示同一个实体。

对非清洁数据,数据清洗的框架模型分5个部分逐步进行,整个框架如图1所示。

4.1 准备

包括需求分析、大数据类别分析、任务定义、小类别方法定义、基本配置,以及基于以上工作获得数据清洗方案等。通过需求分析明确知识库系统的数据清洗需求,大数据类别分析将大数据归类以便同类数据进行分析,任务定义要明确具体的数据清洗任务目标,小类别方法定义确定某类非清洁数据合适的数据清洗方法,基本配置完成数据接口等的配置,要形成完整的数据清洗方案,并整理归档。上述案例,可以看出表1描述的是超市的相关信息。

4.2 检测

对数据本身及数据间的预处理检测包括相似重复记录、不完整记录、逻辑错误、异常数据等,并且对检测结果进行统计,全面获得的数据质量信息,并将相关信息整理归档。上述案例(表1)检测出存在有:①不完整的数据、②错误的数据、③冗余的数据。

4.3 定位

对检测结果的归档信息进行数据质量进行评估,获得非清洁数据的定位并进行数据追踪分析,分析非清洁数据及由此可能的知识表示的影响,分析产生非清洁的根本原因;进而确定数据质量问题性质及位置,给出非清洁的修正方案,并将相关信息归档。根据定位分析情况,可能需要返回“检测”阶段,进一步定位需要修正数据的位置。上例中非清洁数据片段的位置:(ID:3、字段:City)、(ID:6、字段:Name)、(ID:1、3、6)。

4.4 修正

在定位分析的基础上,对检测出的非清洁数据进行修正,包括非清洁数据标记、不可用数据删除、重复记录合并、缺失数据估计与填充等,并对数据修正过程进行存储管理。上例中在定位后,修正上述三类数据,经过修正后,得到如表2所示数据片断。

4.5 验证

对修正后的数据与任务定义的符合性进行比对验证,如果结果与任务目标不符合,则做进一步定位分析与修正,甚至返回“准备”中调整相应准备工作。表2反映出经过一轮修正后的数据片断,与表1相比部分不完整的数据、错误的数据、冗余的数据得到了清洗,但清洗过后的数据显然还不完美,依然有明显不一致的地方。

nlc202309030515

5 基本框架模型的局限

实际大数据应用中,前面提出的基本模型具有局限性:首先,大数据通常是异构且碎片化的,多数情况下这些类型的非清洁数据是难以被彻底清洗干净的;其次,对非清洁数据的清洗可能会造成蕴含知识的损失,以致知识的失真;最后,对于知识库频繁更新,同步执行非清洁数据的辨识和清洗将极大地减低系统的效率。

再如上例中,从表1到表2,在一定程度是进行了数据清洗,但深入观察可以发现(ID:6、字段:Name)“Walmart”虽然不存在拼写错误,但表示方式与其他的“Wal-Mart”并不一致,还有(字段:Phn)的表示也不一致,这些不一致的地方阅读者容易理解,而机器很难“理解”。也就是,经过一轮的数据清洗,出现了知识内涵一致的元组(“Walmart”与“Wal-Mart”),却存在表示字符上的差异,这是否意味着需要进一步进行数据清洗?如果由机器进行更细腻的数据清洗,必然将出现一部分信息的丢失或失真,并且带来机器计算上的负担。因此,数据清洗是必要的,但清洗过后,依然存在非清洁数据也是必然的。

从上述分析可以看出,非清洁数据的辨识与清洗很难保证彻底消除非清洁数据,特别大数据的多维度性,给清洗带来了困难,且随着清洗的细腻程度逐步提高,知识库系统的运行性能将逐步降低伴随将逐步丢失数据中蕴藏的信息,不能快速有效地解决非清洁数据带来的问题。为此,大数据的存在,需要在一定程度上容忍非清洁数据的存在。这样,研究管理包含非清洁数据的知识库系统成为了重要的问题,其核心在于如何从包含非清洁数据的知识库中得到满足应用所要求清洁度的查询结果。

6 非清洁数据的清洁度的机制

6.1 清洁度获取

清洁度本质上反应的是数据质量。目前,清洁度定义可以用两种方法描述:一种是概率的方法,即将元组清洁度定义为该元组准确的概率;另一种是相对误差的方法,即定义元组对于真实值的相对误差。其中应用最为广泛的是概率的方法。如表1中,可以判断元组1、3和6表示同一个实体,因此,可以合并这3条元组,根据这个数据片段只能判断“Name”取值更可能为“Wal-Mart”,但机器无法完全排除“Mal-Mart”,为了描述每个可能取值的质量,赋予每个值一个概率值,表示该值的清洁度。如“Wal-Mart”在同一个实体3条元组出现了2次,则清洁度为2/3,从而得出该条实体各元组的清洁度,如表3所示。

在实际应用中,元组的清洁度可以通过人工或者自动的方法获取,主要来源包括:

(1)人工添加。最直接的方法是由用户根据领域知识和数据的来源添加数据的清洁度。这种方法的问题在于,当数据量很大时,需要大量的人力。

(2)属性清洁度组合。由于一些属性的清洁度是可以预知的,比如在科学统计数据库中描述某仪器采回数据的关系,模式为(Time,Value),其中:Value 列来源于数据采集设备,该设备的相对误差是知道的;而 Time列是在采样时由系统添加,可以看成清洁的列。因此,该关系中元组的清洁度定义为 Value 列的清洁度。

(3)模式转换。在信息集成中,在数据之间进行模式转换会产生清洁度的损失,在一些信息集成方法中会给出模式转换时数据的损失,经过归一化以后,该损失可以用作表示数据清洁度。

(4)信息提取。信息提取的过程中,一些技术会根据原始数据的特点或者机器学习的方法求得某数据属于某元组概率或者准确率,这个值可用作数据清洁度的描述。

(5)实体识别。当前,有很多实体识别的方法将数据集合划分成为实体,通过描述同一实体的不同元组之间的不一致性来描述实体的清洁度。

以上多种方法在一些应用中是可以结合使用的,根据本模型的特点,在结合使用时,元组的清洁度应为多来源清洁度的乘积。一方面使得元组的清洁度满足取值在[0,1]之间;另一方面,这样的方法体现了多种清洁度的复合。例如信息提取系统中,首先进行信息提取,然后进行实体识别,则最终结果的清洁度可以定义为信息提取步骤的清洁度与实体识别步骤清洁度的乘积。

6.2 操作的实现策略

通过在每个关系中添加描述清洁度的列(如表3),现有的關系数据库系统可以对本模型所描述的数据进行管理。然而,现有关系数据库中的管理机制不足以支持所有的操作。考虑到随着操作的进行数据清洁度是递减的,因此根据查询的需求,在操作执行的过程中某些环节需要过滤掉清洁度不可能满足查询要求的中间结果,这样可以减小中间结果的数据量,从而加速查询的处理。例如,对于如果查询要求结果中每条元组的清洁度在 0.5 以上,则在查询处理的过程中可以过滤掉清洁度小于 0.5 的中间结果,因为由这些中间结果生成最终结果的清洁度一定小于 0.5。

6.3 基于阀值的相似连接算法

相似连接是在两个元组集合中选择出满足相似性下界(阀值)的元组对。目前已经有很多衡量相似性的方法:编辑距离、Hamming距离、杰卡德相似度以及余弦相似度等。本小节考虑的是基于编辑距离的相似连接。对于给定的两个字符串r和s,r和s的编辑距离ed(r,s)是指从r变为s所需要的最少的编辑操作(包括:删除、插入和替换)次数。如表4中,ed(Wal-Mart,Mal-Mart)=1,ed(80103389,010-80103389)=4。在实体关系数据库中,属性值可能含有多个取值,本书对相似连接算法给出如下定义。

定义1:相似连接。给定两个属性值集合R和S及编辑距离阀值k,R和S的相似连接是指选出所有的属性值组合(r,s),其中r∈R,s∈S,而且r和s满足至少存在一组可能取值r1和s2。它们的编辑距离ed(r1,s2)≤k。

以表4为例,给出两个集合R和S。若编辑距离阀值k设为3,则对应相似连接结果仅为(r1,s1)与(r2,s2),因为ed(Wal-Mart,Mal-Mart)=1≤3,ed(Jerry Strauss,Jerry Strauss)=0≤3。其余相似连接中(r2,s1)、(r1,s2)显然其编辑距离均超过阀值3,表5给出了连接结果。

nlc202309030515

其中,第二条元组(ID=2),ed(Jerry Smith,Jerry Strauss)>3、ed(Jerry Smith,Jeff Strauss)>3,故第二条元组对应清洁度为1/5*2/5+1/5*3/5=0.2。

在实际关系数据库中,所有可能值都有对应的清洁度,所以,所有相似连接结果也都会有一个清洁度,表示该结果的质量,如表5结果所示,而在实际应用中,我们只对清洁度比较高的结果感兴趣,对于那些较低清洁度的结果可以忽略。

定义2:基于阀值的相似连接。给定两个属性值集合R和S及编辑距离阀值k和清洁度阀值α, R和S的阀值相似连接是指选出所有的属性值组合(r,s),其中r∈R,s∈S,而且r和s连接结果的清洁度不低于α。

上例中,如果清洁度阀值α设为0.3,表5中两个集合R和S的阀值的相似连接结果不再是(r1,s1)与(r2,s2),因为第二条元组对应清洁度为1/5*2/5+1/5*3/5=0.2,该结果不满足清洁度阀值要求。

基于阀值的相似连接算法的特点是当编辑距离阀值k较大且清洁度阀值较小时,连接结果大小将接近于n2(n是连接集合的大小),反之连接结果集比较大。

6.4 清洁度的机制的研究不足

目前关于非清洁数据的清洁度机制的研究成果非常少,汇聚在图书情报领域的成果更少。而事实上,知识来源于数据的提炼,大数据大维度与碎片化中蕴含了丰富的知识内涵。上一节的探讨,只描述了清洁度机制的框架,研究也還停留在数据本身的处理,而清洁度机制是一项复杂的研究,还有深入优化的研究空间。譬如,将清洁度机制与知识的语义距离结合,如ed(Wal-Mart,Mal-Mart)=1,ed(80103389,010-80103389)=4,虽然存在编辑距离,其实它们都是同一个知识点,进一步的研究将涉及到是先进行知识的语义距离计算还是先进行清洁度计算,或者两者并行计算,这将是图书情报领域又一个难点。

7 结语

大数据时代的到来给知识服务带来了变革,迫使其将碎片化信息、社会化的信息提炼成描述用户行为、用户关系,并能解决问题的知识。为此,本文从大数据的研究背景下提出了对知识服务的要求,并面向知识服务,数据清洗的过程又是大数据环境下的瓶颈。给出了数据清洗的基本框架模型及其局限性,针对大数据的多维度性,在元组上增加了清洁度的描述,基于此研究了应对大数据环境下的非清洁数据的清洁度机制。

通过研究也发现了不足,下一步针对大数据的数据清洗将从知识的概念层次性入手,能体现知识之间的语义交叉这样更适用于大数据的大维度,根据知识的概念层次,通过消除知识的重复应用,建立原子知识序列,优化了用户的请求,减少了对知识库扫描的次数,从而提高了数据清洗效率。

参考文献:

[1]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.

[2]The Economist.Data,data,everywhere-A special report on managing information[EB/OL].[2013-04-26].http://www.economist.com/node/15557443.

[3]王曰芬,章成志.数据清洗研究综述[J].现代图书情报技术,2007,(12):50-56.

[4]曹建军,刁兴春,陈爽.数据清洗及其一般性系统框架[J].计算机科学,2012,39(11):207-211.

[5]叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010,(9):56-66.

[6]王宏志,李建中,高宏.一种非清洁数据库的数据模型[J].软件学报,2012,23(3):539-549.

[7]周傲英,金澈清,王国仁等.不确定性数据管理技术研究综述[J].计算机学报,2009,32(1):1-16.

[8]张岩,杨龙,王宏志.劣质数据库上阈值相似连接结果大小估计[J].计算机学报,2012,35(10):2159-2168.

[9]叶鸥,张璟,李军怀.中文数据清洗研究综述[J].计算机工程与应用,2012,48(14):121-129.

作者简介:蒋勋(1980-),男,南京大学信息管理学院博士后,无锡城市职业技术学院电子信息工程系讲师,研究方向:知识工程与信息智能处理;刘喜文(1983-),男,南京大学信息管理学院博士研究生,研究方向:本体技术。

4.数据处理知识点总结 篇四

试验考察指标依据试验目的而选定的衡量或考察试验效果的特征值.试验实际考虑采用的(某一)因素变化的状态或条件的种类数称为因素水平,简称水平误差控制的三原则,费歇三原则

1)重复原则2)随机化原则3)局部控制原则:

试验设计的步骤

1)问题的识别和问题的正确提出,2)因素和水平的合理选取;

3)响应变量的选择4)试验设计方法的比较、研究和选择;

5)进行试验操作采集试验数据;6)用统计学方法分析试验数据;

7)写出有关试验结果的结论或工作建议.科学合理的试验方案应满足以下三点:

(1)试验次数尽可能少;

(2)便于试验数据的分析处理;

(3)试验结果可信度高

按试验中处理因子的多少试验设计方法一般可以分为:

(1)单因素试验(2)多因素试验

实验考察指标可分为:定量指标和定性指标

定量指标:可以通过实验直接获得,便于计算和进行数据处理。

定性指标:不易确定具体的数值,为便于用数学方法进行分析和处理,必须是将其数字化后进行计算和处理。

因素:凡是能影响实验结果的条件或原因,统称为实验因素(简称为因素)

水平:因素变化的各种状态和条件称为因素的水平

总体:我们所研究对象的某特性值的全体,又叫母体;其中的每个单元叫做个体。总体根据个体的有限和无限性分为有限总体和无限总体。

自总体中随机抽出的一组测量值,称为样本,又叫子样。样本中所含个体(测量值)的数目,叫做样本容量,即样本的大小。

抽样:从总体中随机抽取若干个个体观测其某种数量指标的取值过程称为抽样。

样本空间:就样本而言,一次抽取、观测的结果是n个具体数据x1,x2,„,xn,称为样本(X1,X2,„Xn)的一个观测值,而样本观测值所有可能取值的全体称为样本空间。重复性——由一个分析者,在一个给定的实验室中,用一套给定的仪器,在短时期内,对某物理量进行反复定量测量所得的结果。也称为室内精密度。

再现性——由不同实验室的不同分析者和仪器,共同对一个物理量进行定量测量的结果。也称为室间精密度。

极差:一组数据中最大值与最小值之差,叫极差。又叫全距、量距或范围。

误差——测量值和真值的差数

偏差——测量值和平均值的差数。也叫离差。

偏差平方和:测量值对平均值的偏差的平方的加和。

方差:是测量值在其总体均值周围分布状况的一种量度,方差表征随机变量分布的离散程度。总体方差的定义是:测量值对总体均值的误差的平方的统计平均,记作:

2 =1(xini1n)2(n→∞)

标准偏差(标准差):方差的平方根的正值

自由度:是指可以自由取值的数据的个数。

相对标准偏差(变异系数):是样本标准偏差与平均值的比值,表示偏差值与平均值的相对大小。

测量次数n、样本平均值 和样本标准偏差s,是表达测量结果的三个要素。

标准参考物质通常指的是由公认的权威机构发售的,带有证书的物质,它的一种或多种特性已被确定,可以用来校准测量装置或验证测量方法。在我国,通常把标准物质叫作标准试样或标样。

有效数字就是在测量中所能得到的有实际意义的数字(只作定位用的”0”除外)。1 在记录一个测量所得的数量时,数据中只应保留一位不确定数字。

有效数字是包括全部可靠数字以及一位不确定数字在内的有意义的数字的位数。在运算中弃去多余数字时,一律以“四舍六入五留双”为原则,而不要“四舍五入”。3 几个数相加减时,保留有效数字的位数,决定于绝对误差最大的一个数据。几个数相乘除时,以有效数字位数最少的为标准,即以相对误差最大的数据为标准,弃去过多的位数。在作乘、除、开方、乘方运算时,若第一位有效数字等于或大于8,则有效数字可多计一位(例如:8.03毫升的有效数字可视作四位)。在所有计算式中,常数π,e的数值,以及,1/2等系数的有效数字位数,可以认为无限制,需要几位就可以取几位。在对数计算中,所取对数位数,应与真数的有效数字位数相等。例如,pH12.25和[H+]=5.6×10-13M;Ka=5.8×10-10, logKa=-9.24等,都是两位有效数字。换言之,对数的有效数字位数,只计小数点以后的数字的位数,不计对数的整数部分。如果要舍去的不止一位数,而是几位数字,则应该一次完成,而不应该连续修约。在修约标准偏差的值或其它表示不确定度的值时,修约的结果通常是使准确度的估计值变得更差一些。例如,标准偏差s=0.213单位,取两位有效数字时,要入为0.22单位,而取一位有效数字时,就要入为0.3单位。平均值的有效数字位数,通常和测量值相同。当样本容量较大,在运算过程中,为减少舍入误差,平均值可比单次测量值多保留一位数。

对于异常数据的取舍一定要慎重,一般处理原则如下:

在试验过程中,若发现异常数据,应停止试验,分析原因,及时纠正错误;

试验结束后,在分析试验结果时,如发现异常数据,则应先找出产生差异的原因,再对其进行取舍;

在分析试验结果时,如不清楚产生异常值的确切原因,则应对数据进行统计处理再做取舍; 对于舍去的数据,在试验报告中应注明舍去的原因或所选用的统计方法。

检验可疑数据,常用的统计方法有拉依达(Pauta)准则、格拉布斯(Grubbs)准则、狄克逊(Dixon)准则、肖维勒(Chauvenet)准则、t检验法、F检验法等;

对随机现象的观察、记录、试验统称为随机试验。

样本空间 定义:随机试验E的所有结果构成的集合称为E的样本空间,记为S={e},称S中的元素e为基本事件或样本点.

一般我们称S的子集A为E的随机事件A,当且仅当A所包含的一个样本点发生称事件A发生。随机事件: 在特定情况下可能发生也可能不发生的事件

必然事件:在一定条件下必然出现的现象称为必然事件。

不可能事件:某一事件一定不发生,则称为不可能事件。

随机变量取得不同值的概率是不同的,随机变量的概率分布就是讨论随机变量的总体分布情况,即某一随机变量可以取哪些值以及取这些值的可能性概率有多大。

概率密度函数对于随机变量X的分布函数F(x),存在非负函数f(x),使对于任意实数x有

f(x)dF(x)

dx则称f(x)为随机变量x的概率密度函数。

抽样又分为复置抽样和不复置抽样。

复置抽样 → 将抽得的个体放回总体继续参加抽样。

不复置抽样 → 抽得的个体不放回总体参加后续的抽样。

中心极限定理。若随机变量x有数学期望E(x)=μ,方差D(x)=σ2,且样本观测值为x1,x2,„ xn,则样本平均值随样本数n的增大,逐渐接近正态分布,即

中心极限定理说明,只要数学期望和方差为有限值,不论X遵从什么分布,其样本平均值的分布将是正态的。

置信度就是表示人们所作判断的可靠把握的程度。置信度有两重含义,一是置信水平,一是置信区间。

约定真值:世界各国公认的几何量和物理量的最高基准的量值

理论真值:设计时给定或用数学、物理公式计算出的给定值

相对真值:标准仪器的测得值或用来作为测量标准用的标准器的值

系统误差是由某种确定的因素造成的,使测定结果系统偏高或偏低;当造成误差的因素不存在时,系统误差自然会消失。当进行重复测量时,它会重复出现。

随机误差又称偶然误差,它是由一些随机的、偶然的原因造成的。

准确度:表示分析结果与真实值接近的程度。

精密度:表示各次分析结果相互接近的程度。

第一类错误如果H0成立,但统计量的实测值落入否定域,从而作出否定H0的结论,那就犯了“以真为假”的错误.第二类错误如果H0不成立,但统计量的实测值未落入否定域,从而没有作出否定H0的结论,即接受了错误的H0,那就犯了“以假为真”的错误.为衡量试验结果的好坏或处理效应的高低,在试验中具体测定的性状或观测的项目称为试验指标试验

试验中所研究的影响试验指标的因素叫试验因素

因素所处的某种特定状态或数量等级称为因素水平,简称水平

事先设计好的实施在试验单位上的具体项目叫试验处理,简称处理。

在试验中能接受不同试验处理的独立的试验载体叫试验单位。

在试验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复;一处理实施的试验单位数称为处理的重复数。

单因素方差分析,是指仅分析一个因素对试验结果的影响是否显著的问题。

试验设计是指以概率论与数理统计学为理论基础,为获得可靠试验结果和有用信息,科学安排试验的一种方法论,亦是研究如何高效而经济地获取所需要的数据与信息的分析处理方法。

用来衡量试验效果的质量指标(如产量、成活率、废品率、转化率等),称为试验指标。试验设计的目的:找出影响试验指标值的诸因素,或者说是寻找最佳工况.

试验设计的任务:以最小的代价获得最多的信息。

试验设计包括如下三个方面的内容:

(1)工况选择——因素与水平的选取;

(2)误差控制——试验方案的制定; i1limnlimn1nnxi~N(,2)

(3)数据处理——分析试验结果.

交互作用,是指这些因素在同时改变水平时,其效果会超过单独改变某一因素水平时的效果 因素的含义:在一个试验过程中,影响试验指标的因素通常是很多的,通常

固定的试验因素在试验方案中并不称为因

素,只有变化的因素才称为因素;

试验误差控制原则:随机化,重复测量,局部控制

全面试验法:将三因素三水平组合搭配而成的各种试验条件全面进行试验而进行比较选优的方法。

优点:能全面剖析出事物内部规律性。

缺点:试验次数太多,当水平较多时试验量是惊人的。

正交表具有以下三个主要特点:正交性;代表性;综合可比性

正交表的三个基本性质中,正交性是核心,是基础,代表性和综合可比性是正交性的必然结果

利用正交表来安排试验时,一般原则如下:

1.明确试验目的,确定评价指标

2.挑选因素

3.确定各因素的水平

4.制定因素水平表

5.选择合适的正交表

多指标的分析方法

综合平衡法

综合评分法

回归分析——研究变量与变量之间关系的数学方法。

均匀设计

是一种适用于多水平的多因素试验设计方法,具有如下特点:试验点分布均匀分散在处理设计中各个因素每个水平只出现一次适用于多水平多因素模型拟合及优化试验试验结果采用回归分析方法

5.第二章数据通信基础内容知识总结 篇五

数据通信的基本概念是什么?:数据通信是两个实体间的数据传输和交换,他是通过各种不同的方式和传输介质,把处在不同地理位置的终端和计算机,或计算机与计算机连接起来,完成数据传输、信息交换和通信处理等任务。

什么是信息和数据?

信息:是对客观事物的反应,信息有各种存在形式,例如,数字、文字、声音、图像、图形等。

数据:信息可以用数字的形式来表示,数字化的信息称为数据。数据是信息的载体,信息则是数据的内在含义或解释。

什么是信道和信道容量?

信道:是传输信号的一条通道,分为物理通道和逻辑通道。物理信道是指用来传送信号或数据的物理通路由传输介质及其附属设备组成。逻辑信道也是传输信号的一条通路。信道容量:是指信道传输信息的最大能力,用信息速率来表示。

什么是码元和码字?:在数据传输中,有时把一个数字脉冲成为一个码元是构成信息编码的最小单位。

数据通信系统主要技术指标有以下几项:

比特率:是一种数字信号的传输速率,他表示单位时间内所传送的二进制带码的有效位数,单位比特每秒(bps)或千比特每秒(bps)表示。

波特率:是一种调制速率,也称为波形速率。单位(Baud)

误码率:信息传输的错误率,也称错误率,是通信系统在正常工作的情况下,衡量传输可靠性的指标。误码率Pe=Ne除N

吞吐量:是单位时间内整个网络能够处理的信息总量,单位是字节/秒或位/秒。在单信道总线型网络中:吞吐率=信道容量乘传输速率。

信道传输延迟:信号在信道内传输时,从信源到信宿需要一定的时间,这个时间成为传播延迟或(时延)《与距离有关》

带宽与数据传输率是什么?

信道带宽:是指信道所能传送的信号频率宽度,他的值为信道上可传送信号的最高频率与最低频率之差。数据传输率:是指单位时间内信道内传输的信息量即比特率S=Blog2N

B是数字信号的脉冲频率,即波特率;N是调制电平数。

数字传输方式

数据通信系统模型包括:数据线路端设备数据终端设备

数据终端设备:是指用于处理用户数据的设备,是数据通信系统的信源和信宿。

数据线路端设备:又称数据通信设备(DCE)用于将DTE发出的数字信号变换成适合于在传输介质上适合传输的信号形式,并将它送至传输介质上。

数据线路的通信方式有哪些?有单工通信,半双工通信,全双工通信。、1.单工通信

在单工通信方式中,信息只能在一个方向上传送,在进行通信的两个节点中,一段只能发送另一端只能接收例如:无线电广播,电视广播等。。。。发送——信道 ——接收

2.半双工通信

半双工通信的双方可交替地发送和接收信息,但不能同时发送和接收,在半双工通信中,通信双方都具有发送和接收功能,并具有双方传送信息的能力,但只需要一条传输线路,一端发送时,另一端只能接受。例如:航空航海无线电台和对讲机等。。。

3.全双工通信

全双工通信得双方可以同时进行双向的信息传输,在全双工通信方式中,通信的双方必须都具有同时发送和接收的能力

2.2.3数据传输方式

数据传输方式分为:基带传输、频带传输和宽带传输。

基带传输:人们把矩形脉冲信号的固有频带称为基带传输。一般用在较近距离的数据通信中。频带传输:所谓频带传输,就是将代表数据的二进制信号,通过调解器,变换成具有一定频带范围的模拟数据信号进行传输,传输到接收端后在将模拟数据信号解调还原为数字信号。常用的频带调制方式有频率调制、相位调制、幅度调制和调幅加调相的混合调制方式。宽带传输:在同一信道下,宽带传输系统即可以进行数字信息服务,也可以模拟服务。

2.3数据交换技术通常的三种交换技术;电路交换、报文交换、和分组交换。

2.3.1电路交换;通过网络节点在工作站之间建立专用的通信通道,即在两个工作站之间建立实际的物理连接。

通信阶段可分为三个阶段;电路建立阶段、数据传输阶段和拆除电路连接阶段。

电路交换的特点是;

(1)电路交换中的每个节点都是电子式或电子机械式的交换设备,他不对传输得信息进行任何处理。

(2)数据传输开始前必须建立两个工作站之间实际的物理连接,然后通信。

(3)通道在连接期间是专用的,线路利用率低。(4)除链路上的传输延时外,不再有其他的延时,在每个节点的延时是很小的。(5)整个链路上有一致的数据传输束率,连接两端的技算计必须同时工作。

优点是实时型号,由于通道专用,通信率高缺点是线路利用率低不能连接不同类型的线路链路。

2.3.2报文交换它采用的是‘存储-转发’方式,不用再通信的两个节点之间专用的物理线路。

优点是: 1 线路利用率高。2 接收方和发送方无须同时工作。3 可同时先多个目的站发送同一报文。4 能够在网络上实现报文的拆错控制和纠错处理5 报文交换网络能进行速度和代码转换。

2.3.3 分组交换;

决定的。

1数据报;报文分组后,在网络中的传播路径是完全根据当时的通信状况来优点是;对于段报文数据,用信穿速率比较高,对网络故障的适应能力强;而它的缺点是传输时延较大,实验离散度大。

虚电路;就是两个终端在开始互相发送和接受之数据之前,通过通信网络建立逻辑上的链接。

优点是;对于数据量较大的通信传输率高分组传输延时段,且不容易产生数据分组丢失。

6.【数据库知识点总结】 篇六

一.名词解释(每题2分,共10分)

数据管理、数据库、数据库管理系统、数据库系统、模式(概念模式、逻辑模式)、外模式(用户模式)、内模式(物理模式、存储模式)、数据独立性、物理数据独立性、逻辑数据独立性、主数据文件、日志文件、视图、索引、簇索引、存储过程、触发器、游标、内连接、左(外)联接、主键约束、唯一约束、检查约束、默认约束、事物、数据依赖、第1范式、第2范式、第3范式

二.填空题(每空1分,共20分)

三.是非题(每题1分,共10分)

四.单项选择(每题2分,共20分)

五.按要求写出相应的SQL语句(每题3分,共24分)

设有如下关系表:

student(sid char(4),sname char(10),ssex char(2),sage int)

course(cid char(4),cname char(10),credit char(6))

grade(sid char(4),cid char(4),score int)

注:sid为学号,sname为姓名,ssex为性别,sage年龄

cid为课程号,cname为课程名称,credit为学分

score为成绩

写出实现下列功能的SQL 语句。

(1)创建一个新的表totalgrade,具有数据列:学号,姓名,总成绩Create table totalgrade(学号 char(4),姓名 char(8),总成绩 int)

(2)在student中插入一条记录(’0119’,’王鸿路’,19);

Insert into student(sid,sname,sage)

values(‘0119’,’王鸿路’,19)

(3)通过student表,更新totalgrade表的学号、姓名列数据;

Insert into totalgrade

Select 学号,姓名,总成绩=0 from student

(4)将grade表中学号为“0003”的学生,课程号为“0102”的分数改为94; Update grade set 分数=‘94’

Where sid=‘0003’ and cid=‘1020’

(5)通过grade表更新totalgrade表的总成绩

Update totalgrade set 总成绩=

(select sum(score)from grade where totalgrade.sid=grade.sid)From grade

(6)删除totalgrade表中没有总成绩的学生记录

Delete totalgrade where 总成绩=0

(7)在student表中查询学号为0002的同学的姓名和年龄

Select sname, sage from student where sid=‟0002‟

(8)在student表中查询与“刘伟平”年龄相同的所有学生的学号、姓名 Select sid,sname from student where sage=

(select sage from student where sname=” 刘伟平”)

(9)列出学号为0001的学生的分数比学号为0002的学生的最低分数高的课程编号和分数

Select cid,score from grade where sid=”0001” and score>any

(select score from grade where sid=”0002”)

(10)查询分数在80—90之间的学生的学号、姓名、分数

Select student.sid , student.sname,grade.score

From student,grade

Where student.sid=grade.sid and score between 80 and 90

六、程序填空(每空2分,共16分)

1.利用T-SQL语言修改student 的表,为“学号”列定义主键。

table student(Constraint pk_s “学号 ”)

2.以下程序用游标gd_cur查寻并显示studentsdb数据库的grade表的每条记录,且判断出每条记录的分数等级是优秀、良好、及格还是不及格,将等级显示在每条记录的末尾。

Declare @sid char(8),@cid varchar(10), @scr numeric(5,2)

Declare gd_cur cursor

For select 学号,课程号,分数 form grade

Open Fetch from gd_cur into @sid ,@cid , @scr

While @@fetch_status=0

Begin

Print @sid+replicate(„‟,3)

+@cid+str(@scr)+ replicate(„‟,3)

+(When @scr>=90 then „优秀‟

When @scr>=70 then „良好‟

When @scr>=60 then „及格‟

Else„不及格‟

End)

grd_cur into @sid ,@cid , @scr

End

Close gd_cur

Deallocate gd_cur

3.创建和执行带输入和输出参数的存储过程proc_avg,查询studentsdb数据库的grade表中输入课程编号和最高分、最低分和平均分。

Createprocedureproc_avg

@cid char(4)

@max_scr real ,@min_scr real output,@avg_scr numeric(5,2)output

as

select @max_scr = max(分数),@min_scr=min(分数),from grade

where 课程编号 = @cid

7.国际数据库检索知识 篇七

最近, 有不少细心的读者纷纷询问刊登在《实用妇产科杂志》封面右上角的CODEN SFZHA7是什么意思。SFZHA7是本刊的CODEN码。按国际惯例登在期刊封面的右上角, 国际标准刊号的下方。

CODEN (Code Number) 是美国ASTM (American Society for Testing and Materials) 制定的科技期刊代码系统, 被国际公认。美国《化学文摘》 (CA) 、《工程索引》 (EI Compendex) 、《乌利希国际期刊指南》 (Ulrich'sIPD) 等国际检索系统, 以及各国图书馆收藏部门均采用CODEN码进行文献/期刊识别。

8.论知识发现与数据挖掘 篇八

关键词:空间数据挖掘;知识发现;方法

中图分类号:P208 文献标识码:A 文章编号:1007-9599 (2012) 09-0000-02

科技发展日新月异,网络技术的发展将整个世界联成一体,人们可以超越时空的概念,利用网络,相互之间进行信息交换、协同工作,这种信息交换与工作协同在方便了人们的同时必然造成信息与数据的无限扩张,会使人们在提取有用信息和知识时,如同大海捞针一样无力,面对大量的数据,传统的数据分析手段难以应付,导致越来越严重的数据灾难,为了有效解决这一问题,知识发现与数据挖掘技术开始出现。

一、特点及过程

(一)特点

作为一门新兴学科,知识发现具有极大的发展前途和有广泛应用前景,知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,知识发现不需要预先进行假设或者提出问题,就可以找到那些非预期的有用的或有潜在价值的信息,是一种有价值的搜寻过程。

数据挖掘也称知识挖掘,可以看成数据库中的知识发现,是从大量庞杂的数据中获取信息和知识的过程。数据挖掘其一开始出现的目的就是应用,因此数据挖掘的研究成果是很讲求实际的。数据挖掘技术不是简单的数据库的检索、调用,而是对数据进行全方位的统计、分析和推理, 以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。

(二)过程

知识发现的内涵与知识挖掘,知识发现是从数据库中发现知识的整个过程,数据挖掘是具体这个过程的关键步骤,因此,知识发现与数据挖掘通常在使用时是不加区分的。一个完整的知识挖掘过程如下:

数据库→数据的准备→数据挖掘→知识评价→知识表示→知识库。

二、方法

知识发现与数据挖掘方法有很多,其中比较常见的有以下几种:

(一)空间分析法

空间分析法是一种总称,其利用一定的技术理论对空間的叠置、拓扑结构、图像以及距离好空间缓冲区进行分析,把探测性的数据分析与空间分析相结合,构成探测性的空间分析,聚焦数据,发现隐含在其中的特征和规律。

(二)统计分析法

统计分析法是一种通过对研究对象的规模、范围数量关系信息的分析研究,认识和揭示事物间的相互关系、变化规律和发展趋势,进一步进行对象评估、特征预测、规律统计,借以达到对事物的正确解释和预测的一种研究方法。

(三)聚类方法

聚类分析是基于物理特性的聚类或分类,根据一定的标准大型多维空间数据集,以确定相应的区域,数据被分为一组的一系列相互区分,发现法律数据集。作为统计学的一个分支,聚类分析无需背景知识可以直接发现有意义的空间聚类结构。

(四)遗传算法

遗传算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法,其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐并行性和更好的全局寻优能力;采用概率化的寻优方法,自适应地调整搜索方向,不需要确定的规则,能在搜索过程中自动获取和积累有关搜索空间的知识,并可通过自适应机制控制搜索过程以求得最优解。

(五)神经网络方法

这种方法利用神经元练成网络,通过这种形式使系统成为具有存储、联想等一些列的功能的自适应非线性动态系统。这种方法的优点是具有并行性、直观性和抗噪声性。

(六)模糊集理论

模糊集用模糊隶属函数确定的隶属度描述不精确的属性数据,重在处理空间数据挖掘和知识发现中不精确的概率。我们都知道模糊是一种客观存在,一个系统越复杂,精确化就越难,因此模糊性就越强。在根据模糊集理论,类型和空间实体分别作为模糊集合和集合元素。在空间数据挖掘中,模糊集可用作模糊决策、模糊评判、模糊聚类分析、模糊模式识别、计算置信度和合成证据等。

(七)粗集理论

粗糙集是上近似和下近似集组成,然后以此为基础来处理不精确,不确定和不完整的信息,智能数据决策的工具,更恰当地基于空间数据挖掘的属性不确定性。

(八)云模型

云模型是一种新的方法,它用自然语言值表示定性概念与其定量数据表示之间的不确定性转换模型,反应的是客观世界中的概念的随机性和模糊性,并将二者紧密集合,集成在一起构成定量与定性间的映射。

(九)决策树

决策树方法是,根据不同的特点,分类或决策树结构的集合,从而创造发现的规则和模式,仅仅意味着一个简单的产生规则和发现规律。

三、应用

知识发现与挖掘技术在信息发现与信息提供发面都有着重要意义。

(一)在信息发现中的应用

其在信息发现中的应用主要有以下几种:

1. Web 数据开采

随着网络的普及,互联网已经广泛的应用于人们生产生活的各个方面,可以说人们对此并不陌生,我们知道,人们所获取的信息大部分都要来自于因特网,而因特网的数据信息不仅庞杂,更是非结构的、无序的、动态的,要想在因特网上获取符合要求的信息,对用户来说十分困难,基于此,Web 数据开采作为一项已解决上述问题为目的的新技术被人们提了出来。Web 数据开采由信息采集、识别、分类构成其实现过程,就目前来说,它主要有网络智能体和智能信息捕捉器两种实现形式。所谓智能体就是一个具有控制问题求解机理的计算单元,智能体具有一定的智能型,可以模拟人类的行为和关系,可以自主运行并提供相应的服务。用户在智能体的神经网络技术引导下,可以很迅速的进入所需页面,通常情况下这些页面都是需要通过长时间的交互才能到达的。智能捕捉器以自动捕捉、采集和整理领域所需信息为目的, 其根据用户输入的对捕捉需求的定义进行查找,先查找到信息源登记表,然后根据信息源提供的信息粒度进行筛选找出信息源,再根据模型算法确定并选取最佳搜索路径,按逻辑式自动组织搜索关键字,还可以同时对应多个特定领域范围内的信息捕捉。

2.智能搜索引擎

面对无边的数据海洋,智能搜索引擎是很好的应用工具,智能搜索引擎的检索机制是关键词匹配原则,可以帮助用户更好的寻找信息资源。目前的搜索引擎还不完善,有着诸如不划分知识领域、知识量少等一些列问题,其搜索的效率并不高,因此人们开始着眼于智能搜索引擎的开发,智能搜索引擎很好的弥补了现行搜索引擎的不足。

3.多语种信息发现

多语种信息资源使人们在获取知识时的最大障碍,一直以来,地理和语言的障碍都使人们获取知识时产生一定的困难,随着科技的发展,人们研究出多语种信息发现,这可以很好的解决多语种障碍,使地球成为名符其实的地球村,实现信息数据资源的真正共享。多语种信息发现主要应用在多语种电子文档获取、翻译、检索方面。

(二)在信息提供中的应用

知识发现与数据挖掘技术在信息提供中主要应用在以下几个方面:

1.知识共享

知识共享是一個我们十分熟悉的词汇,这种共享发生在一个虚拟的团体中,这个团体的成员依靠网络相互联系、相互支持、资源共享一次可以更快更好的解决问题。

2.信息智能“推”

所谓信息智能推是指在信息的搜索过程中,机器通过关键词识别和预测用户的兴趣或偏好, 从而及时地、有针对性地向用户主动推送相关知识和最新信息,这样既可以减轻网络负担,也可以扩大用户范围。

3.其他

除了上述两种外还有个性化服务、互动式服务和语义交互,就不一一赘述了。

四、结束语

知识发现与知识挖掘作为新兴的研究领域,已经得到了广泛的应用,但是作为一项崭新的技术,知识发现与知识挖掘目前仍处于起步阶段,仍有很多研究难题有待解决,比如数据访问的效率和可伸缩性,发现模式的精炼等等,所以对它的研究将会一直持续下去,其应用前景也会更加美好。

参考文献:

[1]杨武,陈庄.数据库知识发现技术及应用[J].重庆工学院学报:自然科学版,2001,15(2):32-34

[2]韩惠琴,刘柏嵩.数字图书馆中的知识发现[J].情报学报,2001,20(3):16-19

[3]李德仁,王树良,史文中.论空间数据挖掘和知识发现[J].武汉大学学报?信息科学版,2001,26(6):491-499

[4]白石磊,毛雪岷,王儒敬.基于数据库和知识库的知识发现研究综述[J].广西师范大学学报:自然科学版,2003(1):136- 138

上一篇:苍白的意思是什么下一篇:英文简历的秘笈