数据通信技术

2024-09-02

数据通信技术(共8篇)

1.数据通信技术 篇一

大数据时代下数据挖掘技术与应用

【摘要】人类进入信息化时代以后,短短的数年时间,积累了大量的数据,步入了大数据时代,数据技术也就应运而生,成为了一种新的主流技术。而研究数据挖掘技术的理念、方法以及应用领域,将对我国各个领域的未来带来更多的机遇和挑战。本文就大数据时代下数据挖掘技术与应用进行探究。

【关键词】大数据,数据挖掘,互联网

数据挖掘是一门新兴的学科,它诞生于20世纪80年代,主要面向商业应用的人工只能研究领域。从技术角度来看,数据挖掘就是从大量的复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值和知识的过程。从商业角度来说,数据挖掘就是从庞大的数据库中抽取、转换、分析一些潜在规律和价值,从中获取辅助商业决策的关键信息和有用知识。

1.数据挖掘的基本分析方法

分析方法是数据挖掘的核心工作,通过科学可靠的算法才能实现数据的挖掘,找出数据中潜在的规律,通过不同的分析方法,将解决不同类型的问题。目前常用的方法有聚类分析、特征数据分析法、关联性分析等。

1.1聚类分析法。简单来说聚类分析就是通过将数据对象进行聚类分组,然后形成板块,将毫无逻辑的数据变成了有联系性的分组数据,然后从其中获取具有一定价值的数据内容进行进一步的利用。由于这种分析方法不能够较好的就数据类别、属性进行分类,所以聚类分析法一般都运用心理学、统计学、数据识别等方面。

1.2特征性数据分析法。网络数据随着信息时代的到来变成了数据爆炸式,其数据资源十分广泛并且得到了一定的普及,如何就网络爆炸式数据进行关于特性的分类就成为了当下数据整理分类的主要内容。此外还有很多方法都是通过计算机来进行虚拟数据的分类,寻找数据之间存在的普遍规律性完成数据的特性分析从而进行进一步分类。

1.3关联性分析法。有时数据本身存在一定的隐蔽性使得很难通过普通的数据分析法进行数据挖掘和利用,这就需要通过关联性分析法完成对于数据信息的关联性识别,来帮助人力完成对于数据分辨的任务,这种数据分析方法通常是带着某种目的性进行的,因此比较适用于对数据精准度相对较高的信息管理工作。

2.数据挖掘技术的应用

数据挖掘技术的具体流程就是先通过对于海量数据的保存,然后就已有数据中进行分析、整理、选择、转换等,数据的准备工作是数据挖掘技术的前提,也是决定数据挖掘技术效率及质量的主要因素。在完成数据准备工作后进一步对数据进行挖掘,然后对数据进行评估,最后实现运用。因此,数据挖掘能够运用到很多方面。如数据量巨大的互联网行业、天文学、气象学、生物技术,以及医疗保健、教育教学、银行、金融、零售等行业。通过数据挖掘技术将大数据融合在各种社会应用中,数据挖掘的结果参与到政府、企业、个人的决策中,发挥数据挖掘的社会价值,改变人们的生活方式,最大化数据挖掘的积极作用。以教育行业为例,探究数据挖掘技术在高校教育教学活动中的应用。

2.1在高校管理中的应用。数据挖掘技术在高校管理的内容主要包括:高校招生录取工作、贫困生选定以及优秀生评定等。高校每年的招生工作是学校可持续发展的重要环节,直接影响到高校教学质量以及发展情况。比如数据挖掘技术在高校管理中的应用主要是对学生高考成绩、志愿填报、以及生源来源地等多方面信息进行整理分类汇总。具体步骤是通过进行数据的收集和预处理,建立相关数据模型,采用分类算法,提取和挖掘对用户有用的信息,然后进行数据挖掘的数据存储形式。目前高校数据挖掘技术应用的范围比较广泛,由于高校管理内容比较复杂,因此在其管理内容的每个小部分也开始利用数据挖掘技术进行管理,比如学生成绩管理,课堂教学评价系统等。

2.2在高校课堂教学评价中的应用。数据挖掘技术在高校课堂教学评价系统中的应用主要也是利用关联分析法。首先先对数据进行预处理工作,数据的预处理是数据挖掘技术的关键步骤,并且直接影响着数据挖掘技术的应用效率。数据预处中要将教师的基本信息、教师教授课程以及教师的职称、学历、学生信息以及学生课表相关信息进行数据初始记录。对于教师的评价内容根据高校自身的条件和需求而定,学校教学评价管理部门登录学校教务系统后,将学生所选择的选项对应转换为教师的分值,通过计算机计算总分后得出教师的学期得分。学生对于教师教学的评价在一定程度上也反映了自己的学习情况,如对教师的评价为零分,则说明学生也否定了自己的学习效果。2.3在高校学生信息管理系统中的应用。高校学生信息管理系统中管理要素主要是学校的领导、任课教师、学生以及家长。系统的功能要包括:对不同的用户设置不同的使用权限;对学生的基本信息以及学生浏览管理网站的记录要做到明确记录;各个学院不同专业的学生课程要能准确公布并允许学生根据实际情况修改;成绩管理要能实现大批量添加及修改;还有比如评优活动、党务管理等具体功能。数据挖掘技术在高校学生信息管理系统中的应用主要是利用决策树的方法。学生信息管理的基本数据就是学生入学时填写的基本信息表,内容包括学生的姓名、学号、考勤以及学习成绩等,这些都是学生特有的属性,学生信息管理利用决策树方法就是将学生的这些属性作为决策元素,监理不同的决策节点,实现对学生全方位的考核和评价,完整的了解到每位学生的具体信息。

2.4高校图书馆信息系统中的应用。数据挖掘技术最基本的应用就是通过对现有的数据进行分析来了解学校图书馆现有资源利用情况,为图书馆的未来建设提供可靠数据。数据挖掘技术能够使图书馆资源得到极大程度的优化整合。比如数据挖掘技术可以对检索记录进行整理,将手工数据转变为电子数据记录。其最大的优势就是利用数据挖掘技术更加全面的分析总结数据库资源,帮助图书馆管理人员对于图书馆信息的补充和调整,还能够为高校图书馆的馆藏工作建设提供有效的引导。数据挖掘还能应用于图书馆的多媒体数字资源,多媒体数据挖掘技术能够更为快捷和准确的为读者提供相应的服务。

3.结语

数据挖掘技术是近几年新产生的网络技术,可是它的广泛应用性受到了很多公司以及研究人员的喜爱。这些年来,伴随着时间的推移以及网络技术的不断发展大数据挖掘技术不断的被更新,开发,而且在金融、管理、教学等行业中都得到了广泛的应用。我相信随着网络技术的不断发展,大数据挖掘技术的应用面将会越来越广。

【参考文献】

[1] 董彩云,曲守宁.数据挖掘及其在高校教学系统中的应用 [J].济南大学学报(自然科学版),2004(1): 65-68.[2] 陆川,王静静.数据挖掘技术在高校教学管理中的应用研究[J].北京:电脑开发与应用,2009,3.[3]《中国电子科学研究院学报》编辑部.大数据时代[J].中国电子科技研究院学报,2013(01):41-43.[4]魏娟,梁静国.基于数据挖掘技术的企业客户关系管理(CRM)[J].商业研究,2005(07).

2.数据通信技术 篇二

数据仓库 (DW) 作为相对稳定的、集成的、面向主题、反映历史变化的数据集合, 多用来支持管理决策。结合数据仓库的定义可知, 数据仓库具有相对稳定的、集成的、面向主题、反映历史变化的特点: 相对稳定的特点是指数据仓库的数据多用来支持企业决策, 因此数据仓库内的数据往往被长期保留, 而数据操作多为数据查询或数据的定期加载及刷新; 集成的是指数据仓库的数据多由分散的数据经系统加工、汇总、整理所获取, 因此必须确保存储的数据仅与特定企业相关联; 面向主题是指数据仓库的数据始终围绕特定主题进行汇总, 且该主题往往与若干操作型信息系统有关; 反映历史变化是指数据仓库的数据往往涵盖着诸多历史信息, 即系统记录着特定企业某段时间内的所有信息, 且管理者能据此预测该企业的发展历程及发展趋势。数据仓库的体系结构如图1所示。

2 数据清洗技术的应用

数据仓库的数据清洗过程, 重复记录的清洗起着关键性的作用。着重从重复记录的清洗角度, 探究数据仓库的数据清洗技术的应用。

2.1 数据清洗原理

数据清洗是指依据数据挖掘及数理统计的清洗规则, 把脏数据转化为高质量的数据。数据清洗的原理如图2所示。

数据清洗要求把冗余或错误的数据删除及对对象进行识别, 注意数据清理往往需要与数据转换同步, 即实现异构数据源的集成及数据的迁移。

2.2重复记录清洗

2.2.1重复记录清洗的含义

结合前文内容可知, 数据仓库的数据应保持独有性, 但多数据源的集成过程, 极易出现输入错误、拼写错误等误操作, 由此导致数据仓库的特定数据存在多种表示形式, 即特定实体对象与多条记录相对应。如此, 势必损害信息的一致性, 甚至导致资源浪费。可见, 对重复记录的清洗具有现实意义。重复记录的清洗必须始终遵循下列步骤: 预处理→重复记录检测→数据库级的重复记录聚类→冲突处理。预处理是指选择与记录相匹配的属性, 同时给此属性分配相应的权值, 注意重复记录的清洗过程, 可采用调整权重的方式来确定重复记录。重复记录检测是指对字段与记录匹配问题的解决。数据库级的重复记录聚类是指运用重复记录算法来缩小记录比较的范围, 同时对数据库的重复记录予以聚类 处理。冲突处理是指依据特定规则来删除或合并聚类的 重复记录 。重复记录检测算法的效率常用所采用的算法能否检测出数据库内所有重复记录来进行衡量, 且比较常用的标准包括误识别率、召回率及准确率。误识别率是指被重复记录检测算法误识别的重复记录与被此算法识别出的重复记录 间的比值 ,注意误识别率与算法结果的置信度呈正相关。召回率是指被重复记录检测算法准确找出的重复记录与数据库内所有重复记录间的比值。准确率是指重复记录被误识别的概率。

2.2.2重复记录清洗的算法

重复记录消除以前, 可就合并后的数据集进行匹配, 且常用的检测重复记录的算法包括基本的字段匹配算法、递归的字段匹配算法、Smith Waterman算法等。研究表明, 最有效的检测重复记录的算法为就数据仓库的每对记录进行 比较 ,但此算法的耗时及复杂度均较大。排序与合并作为消除重复记录的核心思想, 即要求先对数据库的记录进行排序, 随后再采用比较临近记录的方式来检测重复记录的部分。据调查结果显示, 常用的检测重复记录的算法多采用此思想, 比如优先队列 算法、排 序邻居算 法 (SNM) 、多趟排 序邻居法(MPN)。

(1) 排序邻居 法

排序邻居法要求首先以给定的关键字为依据, 排列数据库的记录, 然后以此为活动范围, 移动大小固定的窗口, 注意此时仅对窗口覆盖到的记录进行检测及对此部分的匹配情况进行判断, 以控制记录的比较次数。假设窗口覆盖有n个记录, 那么窗口移动过程, 移出第一条记录以后, 便可比较判定n-1条记录与新进的记录间的匹配情况。就给定的超过1个的数据库而言, 排序邻居法要求先把数据库的记录进行聚类以后, 再把此部分数据库的记录合并成数据集, 最后再进行匹配。基本的排序邻居算法要求按下列步骤进行重复记录的清洗: 构造排序关键词 (以抽取表内字段的方法来生成与记录相对应的关键词) →对记录排序 (依据已生成的关键词,排列数据库的记录) →检测 (就排序的记录集, 依次移动大小固定的窗口, 注意仅对窗口覆盖到的记录进行比较, 以判断此部分记录的匹配程度)。研究表明, 尽管排序邻居法的应用对实现重复记录的清洗意义重大, 但同时也存在如下缺点亟待解决, 比如排序关键字对此算法的实现影响甚大; 滑动窗口的大小难控制; 尽管记录比较的范围被控制到窗口大小内, 但实际操作过程, 重复记录的记录出现的频率依然较小。可见, 排序邻居法的应用过程, 必须克服以上缺陷, 以提高该算法的应用效果。

(2) 多趟排序 邻居法

多趟近邻排序算法的应用能够有效减轻排序关键字对排序邻居法应用效果的影响程度。多趟近邻排序算法要求单独执行多趟排序邻居法, 同时要求每趟创建的排序关键字不能相同且使用的滑动窗口相对较小, 同时采用等价的传递性方法来评判合并记录的等价情况, 如此把每趟找出的重复记录合并起来, 注意此合并过程假设记录以传递形式重 复出现 ,由此计算重复记录的传递闭包。采用计算传递闭包的方法可获取到较为完整的重复记录集, 由此实现部分规避漏配情况的出现。

(3) 优先队列 算法

优先队列算法要求首先采用邻近排序 算法排列 数据集 ,然后再结合排序结果, 对小范围的邻近记录予以匹配, 由此确定重复记录。优先队列算法的实现步骤为: 抽取≥1个字段来构造关键字, 并进行排序→找出固定长度的子集队列内各记录的匹配记录→以匹配操作的方式找出要求合并的子集→计算并合并此类子集的传递闭包, 以获取所有近似的重复记录集。对关键字进行排序后, 难以完全把重复记录聚集起来,因此单趟优先队列算法极有可能部分漏掉重复记录。 为此 ,可采用多趟优先队列算法, 且每次排序均采用不同的关键字。除此以外, 优先队列该算法能够与数据规模的变化相 适应 ,且就某条记录与多条重复记录相对应的情况, 优先队列算法也极具适应性。

3 结语

3.数据仓库与数据挖掘技术 篇三

关键词:数据仓库;数据挖掘

中图分类号:TP392文献标识码:A文章编号:1009-3044(2007)15-30631-02

On Data Warehouse and Data Mine

SHENG Wei-xiang1,LONG Jia-li2

(1.Department of Science & Law,Jiangxi Vocational College of Politics and Law,Nanchang 330013,China;2.College of Automation, Nanchang Hangkong University,Nanchang 330036,China)

Abstract:The Data Mine is a burgeoning technology,the research about it is developing flourishly.In this paper,it expatiates and analyses the concepts of Data Warehouse andData Mine.Together,discussing the connections of how to expand the two technologies,and combining the two technologies with prospect.

Key words:Data Warehouse;Data Mine

随着信息时代的不断进步,社会正处于数据技术飞速发展的良好状态。但是,在数据信息极度膨胀的同时,并非所有的数据都可被利用,大量的数据浪费,造成各种损失,所以有必要将这些数据转化为有用的信息。而传统的数据处理方法越来越不能满足使用要求,迫切需要一种从大量数据中搜索集中并去伪存真的技术。20世纪80年代后期至今,高级数据分析——数据挖掘(Data Mining,简称DM)发展起来,是开发信息资源的一套科学方法、算法以及软件工具和环境,是集统计学、人工智能、模式识别、并行运算、机器学习、数据库等技术为一体的一个交叉性的研究领域[1]。

1 数据挖掘

1.1数据挖掘定义及实现过程

数据挖掘就是用来发现隐含的、事先未知的、潜在的有用知识,提取的知识可以表示成概念、规律、模式等形式。其挖掘对象不仅可以是数据库,也可以是文件系统或组织在一起的数据集合,更主要的是数据仓库[2]。简单的说,数据挖掘是提取或“挖掘”知识。目前,数据挖掘是可以从统计学、数据库和机器学习等三个方面进行定义。从统计学的角度,数据挖掘是指分析所观察的数据集以发现可信的数据间的未知关系并提供给数据拥有者可理解的、新颖的和有用的归纳数据[1]。从数据库的角度来看,数据挖掘是指从存储在数据库、数据仓库或其他信息仓库中的大量数据中发现有趣的知识的过程[1]。从机器学习的角度,数据挖掘定义为从数据中抽取隐含的、明显未知的和潜在的有用的信息[1]。可以理解为,数据挖掘是一个从已知数据集合中发现各种模型、概要和导出值的过程。图1表示的是典型的数据挖掘系统的结构。

过程表述如下:从数据库或数据仓库等资源库中收集数据,并进行信息的初步筛选;根据用户对数据信息的要求,由服务器提取并传输有用的数据;为了对已经采集到的数据进行更有效的分配,数据挖掘引擎对数据进行特征化、关联、分类等操作;然后将精确划分的数据信息进行模式评估,从而使搜索仅限制在感兴趣的模式上,通过图形用户界面,用户可以方便的与数据挖掘系统之间通信,实现对数据的使用。

1.2数据挖掘分类

数据挖掘是一个交叉性的学科领域,涉及数据库技术、统计学理论、机器学习技术、模式识别技术、克视化理论和技术等。由于所用的数据挖掘方法不同、所挖掘的数据类型与知识类型不同、数据挖掘应用的不同,从而产生了大量的、各种不同类型的数据挖掘系统。掌握数据挖掘系统的不同非类,可以帮助用户确定最适合的数据挖掘系统[1]。

图1 典型的数据挖掘系统的结构

(1)根据所挖掘数据库类型的不同来分类:有关系型数据挖掘系统、对象型数据挖掘系统、对象-关系型数据挖掘系统、事务型数据挖掘系统、数据仓库的数据挖掘系统,等等。

(2)根据所挖掘的知识类型来分类:分为特征化、区分、关联、分类、聚类、孤立点分析(异常数据)和演变分析、偏差分析、相似性分析等分类。

(3)根据所采用技术的分类:有自动数据挖掘系统、证实驱动挖掘系统、发现挖掘系统和交互式数据挖掘系统。

(4)根据数据挖掘方法来分类:如面向数据库的方法、面向数据仓库的方法、机器学习方法、统计学方法、模式识别方法、神经网络方法等。

(5)根据数据挖掘应用的分类:有金融数据的数据挖掘系统、电信行业的数据挖掘系统、DNA序列数据挖掘系统、股票市场数据挖掘系统、WWW数据挖掘系统等等,不同的应用通常需要集成对于该应用特别有效果的方法。因此,普通的、全功能的数据挖掘系统并不一定适合特定领域的数据挖掘任务。

1.3数据挖掘任务

数据挖掘任务有6项:关联分析、时序模式、聚类、分类、偏差检测、预测[3]。

关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值之间重复出现并且概率很高的时候,就存在某种管理,可以建立起这些数据项的关联准则。

通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。

数据库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之间的距离较小,而不同类别的个体之间的距离偏大。聚类增强了人们对客观现实的认识,即通过聚类建立宏观概念。

分类是数据挖掘中应用最多的任务。分类是找出一个类别的概念描述,它代表了这类信息的整体,即该类的内涵描述。一般用规则或决策树模式表示。该模式能把数据库中的元组影射到给定类别中的某一个。

数据库中的数据存在很多异常情况。从数据分析中发现这些异常情况也是很重要的,应该引起足够的重视。偏差检测的基本方法是寻找观察结果与参照之间的差别。观察常常是某一个领域的值或多个域值的总汇。参照是给定模型的预测、外界提供的标准或另一个观察。

预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。近年来,发展起来的神经网络方法,如BP模型,实现了非线性样本的学习,能进行非线性函数的判别。分类也能进行预测,但是分类一般用于离散数值;回归预测用于连续数值;神经网络方法预测两者都可用。

2 数据仓库概述

数据仓库对不同的使用者、不同的操作范围,它有不同的意义。被誉为数据仓库之父的W.H.Inmom将数据仓库(Data Warehouse)定义为[4]:是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。对于数据仓库的概念可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

数据仓库具有以下特征:

(1)数据是面向主题的

传统的数据仓库只是单纯的数据的集中,在处理不同事务时执行不同的操作。而现今的数据仓库是有较强主题组织性的,高层次地将数据归类,去除无用的数据。

(2)数据的集成性

因为数据的来源是多方面的,必须根据一定的规则将所有的数据进行重新构造,即数据的集成。

(3)数据的相对稳定性

数据仓库中的数据是历史数据,具有一定的借鉴性,不会有大的变动。

(4)数据的不易失性(长期性)

数据仓库只是物理式的、筛选式的存放数据,不会改变数据本身的性质,那么其数据结构必定包含有时间效果,这样才能更好的体现历史数据的趋势预测性。

3 数据仓库与数据挖掘的关系

既然数据仓库的唯一功能是向终端用户提供信息以支持决策者,数据挖掘体现了数据仓库的一个最重要的应用。与其他查询工具和应用系统不同,数据挖掘过程向终端用户提供提取隐藏的、非同等常的信息的能力。这种信息虽然很难提取,但能提供更大的商业和科学利益,也能使对“数据仓库和数据挖掘”的投资产出更高的利润[5]。

从数据仓库的观点,数据挖掘可以看作是联机分析处理的高级阶段。但是作为更高级的数据分析技术,数据挖掘比数据仓库的汇总分析要详细和深入的多。数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据挖掘越来越热门的原因之一。但是,数据挖掘并不一定要有数据仓库的支持,即数据仓库并不是数据挖掘的必要条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息,同时,数据挖掘仍然经常被看做是数据仓库的后期市场产品,因为那些努力建立起来的数据仓库有最丰富的数据资源可供挖掘。显然,数据仓库被更为广泛地接受将使人们对数据挖掘更感兴趣。

从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,很可能在做数据挖掘时就没必要再清理一次了,而且所有的数据不一致的问题都已经得到解决了。

数据挖掘库可能是数据仓库的一个逻辑子集,而不一定非得是物理上单独的数据库。但如果数据仓库的集中资源已经很紧张,那最好还是建立一个单独的数据挖掘库。

为了数据挖掘库,也不是一定要建立一个数据库。因为建立一个巨大的数据仓库,要把各个不同资源的数据集中在一起,并解决所有的数据冲突问题,然后把所有的数据导入一个数据仓库内,是一项非常巨大的工程,比较麻烦,需要时间和金钱的花费。如果只是为了数据挖掘,可以把一个或几个数据库导到一个只读的数据库中,就把它当作数据集合,然后在这上面进行数据挖掘。其中如何抽取、集成、筛选并准备数据以解决其最为紧迫的业务问题,将是分析人员在进行数据挖掘时所面临的最大挑战。解决这些问题,不仅是数据挖掘过程中的一个艰巨任务,而且需要耗费大量的时间。尽管在数据挖掘中并非一定要有数据仓库的支持,但数据仓库的确为数据集成和准备提供了一个好办法。

4 总结

构造在数据仓库平台的数据挖掘具有很强的实用性,效率很高,节省资源。目前,数据仓库和数据挖掘技术在科学研究、市场流通、企业管理等应用方面已经达到了一定的水平。随着信息化的加强,数据仓库的多维化和数据挖掘的效率化将更有效的结合起来,促进整个信息产业的发展。

参考文献:

[1]焦李成.等.智能数据挖掘与知识发现[M].西安:西安电子科技大学出版社.2006.8:1-7.

[2]Dustin R Callaway.精通Servlets[M].北京:清华大学出版社.2002:20-45.

[3]陈文伟.等.数据挖掘技术[M].北京:北京工业大学出版社.2002.12:1-6.

[4]钟飙等.数据仓库与数据挖掘技术概述[J].计算机与网络.2003.2:11-15.

[5]夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社.2004.:26-29.

4.数据通信技术 篇四

在数据挖掘教学过程中,其流程主要是以下几点:首先做好数据准备工作,主要是在挖掘数据之前,就引导学生对目标数据进行准确的定位,在寻找和挖掘数据之前,必须知道所需数据类型,才能避免数据挖掘的盲目性。在数据准备时,应根据系统的提示进行操作,在数据库中输入检索条件和目标,对数据信息资源进行分类和清理,以及编辑和预处理。其次是在数据挖掘过程中,由于目标数据信息已经被预处理,所以就需要在挖掘处理过程中将其高效正确的应用到管理机制之中,因而数据挖掘的过程十分重要,所以必须加强对其的处理。例如在数据挖掘中,引导学生结合数据挖掘目标要求,针对性的选取科学而又合适的计算和分析方法,对数据信息特征与应用价值等进行寻找和归纳。当然,也可以结合程序应用的需要,对数据区域进行固定,并在固定的数据区域内分类的挖掘数据,从而得到更具深度和内涵以及价值的数据信息资源,并就挖掘到的数据结果进行分析和解释,从结果中将具有使用价值和意义的规律进行提取,并还原成便于理解的数据语言。最后是切实加强管理和计算等专业知识的应用,将数据挖掘技术实施中进行的总结和提取所获得的数据信息与评估结果在现实之中应用,从而对某个思想、决策是否正确和科学进行判断,最终体现出数据挖掘及时的应用价值,在激发学生学习兴趣的同时促进教学成效的提升。

2.2挖掘后的数据信息资源分析

数据信息资源在挖掘后,其自身的职能作用将变得更加丰富,所以在信息技术环节下的数据挖掘技术随着限定条件的变化,而将数据挖掘信息应用于技术管理和决策管理之中,从而更好地彰显数据在经济活动中的物质性质与价值变化趋势,并结合数据变化特点和具体的表现规律,从而将数据信息的基本要素、质量特点、管理要求等展示出来,所以其表现的形式十分丰富。因而在数据挖掘之后的信息在职能范围和表现形式方式均得到了丰富和拓展,而这也在一定程度上体现了网络拟定目标服务具有较强的完整性,且属于特殊的个体物品,同时也是对传统数据挖掘技术的创新和发展,从而更好地满足当前大数据时代对信息进行数据化的处理,并对不同种类业务进行整合和优化,从而促进数据挖掘技术服务的一体化水平。

2.3大数据背景下的数据挖掘技术的应用必须注重信息失真的控制

数据挖掘技术的信息主要是源于大数据和社会,所以在当前数据挖掘技术需求不断加大的今天,为了更好地促进所挖掘数据信息的真实性,促进其个性化职能的发挥,必须在大数据背景下注重信息失真的控制,切实做好数据挖掘技术管理的各项工作。这就需要引导学生考虑如何确保数据挖掘技术在大数据背景下的职能得到有效的发挥,尽可能地促进数据挖掘技术信息资源的升级和转型,以大数据背景为载体,促进整个业务和技术操作流程的一体化,从而更好地将所有数据资源的消耗和变化以及管理的科学性和有效性,这样我们就能及时的找到资源的消耗源头,从而更好地对数据资源的消耗效益进行评价,最终促进业务流程的优化,并结合大数据背景对数据挖掘技术的职能进行拓展,促进其外部信息与内部信息的合作,对数据挖掘技术信息的职能进行有效的控制,才能更好地促进信息失真的控制[2]。

3数据挖掘技术在不同行业中的应用实践

学习的最终目的是为了更好的.应用,随着时代的发展,数据挖掘技术将在越来越多的行业中得以应用。这就需要高校教师引导学生结合实际需要强化对其的应用。例如在市场营销行业中数据挖掘技术的应用这主要是因为数据挖掘能有效的解析消费者的消费行为和消费习惯,从而利用其将销售方式改进和优化,最终促进产品销量的提升。与此同时,通过对购物消费行为的分析,掌握客户的忠诚度和消费意识等,从而针对性的改变营销策略,同时还能找到更多潜在的客户。再如在制造业中数据挖掘技术的应用,其目的就在于对产品质量进行检验。引导学生深入某企业实际,对所制造产品的数据进行研究,从而找出其存在的规则,并对其生产流程进行分析之后,对其生产的过程进行分析,从而更好地对生产质量的影响因素进行分析,并促进其效率的提升。换言之,主要就是对各种生产数据进行筛选,从而得出有用的数据和知识,再采取决策树算法进行统计决策,并从中选取正确决策,从而更好地对产品在市场中的流行程度,决定生产和转型的方向。再如在教育行业中数据挖掘技术的应用,主要是为了更好地对学习情况、教学评估和心里动向等数据进行分类和筛选,从而为学校的教学改革提供参考和支持。比如为了更好地对教学质量进行评估,就需要对教学质量有关项目进行整合与存储,从而更好地促进其对教学质量的评估,而这一过程中,就需要采取数据挖掘技术对有关教学项目中的数据进行挖掘和处理,促进其应用成效的提升[3]。

4结语

综上所述,在大数据背景下,数据挖掘技术已经在各行各业中得到了广泛的应用,所以为了更好地满足应用的需要,在实际教学工作中,我们必须引导学生切实加强对其特点的分析,并结合实际需要,切实注重数据挖掘技术的应用,才能促进其应用成效的提升,最终达到学以致用的目的。

参考文献:

[1]李平荣.大数据时代的数据挖掘技术与应用[J].重庆三峡学院学报,,03:45-47.

[2]欧阳柏成.大数据时代的数据挖掘技术探究[J].电脑知识与技术,,15:3-4+9.

5.大数据:不是技术难题 篇五

虽然眼下十分火热,然而“大数据”概念并没有明确的范畴,时大数据的定义只是相衬于当前可用的技术和资源而言的,因此,某一个企业或行业所认为的大数据,可能衬于另一个企业或行业就不再是大数据,时于大的电子商务企业,它们眼中的大数据要比小厂商眼里的大数据“大”得多;同时,大数据也会特续地演进,现在被我们认为庞大和恐饰的数据在10年之后只是小事一桩,但那时候将会有那个时代的新数据源。然而,面衬这些源源不断出现的“大数据”,哪些事情是希望从中发掘机会的企业需要注意的?

新数据源是核心

欧博思分析师认为大数据的三个“V”特征,即Volume(规模),Variety(种类),和Velocity(高速度),这些只是大数据的第二位要素。大数据真正重要的“V”是Value(价值)。那么是什么带来了大数据的价值?

答案是新的数据源。

过去,获取网络浏览数据的技术门槛和成本都很高,而现在获取这些数据已经很容易,企业可以通过了解消费者浏览数据中展示的偏好以及未来购买倾向,来给他们推出最合适的折扣优惠。这都是新数据源的力量,这才是大数据的价值核心。

但在客户的沟通实践中,常常发现:大多数时候,人们都将精力投注在如何在“大数据”时代优化处理模型,或者升级技术装备以希求能提升分析的效果。

但是真正能提升分析效果的方式,是搜集并加入完全崭新的信息源。一旦新的、和从前不同的数据源出现并且能够被收集,你最好将自己的注意力转到这些新的数据上去一一比起你将精力放在模型优化上,新的数据源将能带来更大的收获。因此,在大数据时代,建议 就是,将你的精力放到不断寻求祈的数据源上吧。如今很多企业都会有很多新的数据源,如果正确使用的话,它们会带给企业非常有竞争力的优势。

小步快跑式

对大数据的另一个误解是,“大数据其实就是一个技术问题”。

事实上90%以上的企业可以用他们90%的现有需求和技术、工具来解决现在的大数据问题。企业并不是缺乏解决这些大数据难题的工具、技术甚至人才,他们真正面临的问题是,如何在公司建立一个和大数据相匹配的文化与流程,是缺乏对技术做投资的公司文化,他们的挑战是做出一个商业案例来证明技术升级是有价值的。

为了促进公司文化的转变,更建议一种“小步快跑”的运作方式,即在处理新数据源的过程中,企业内部的分析专家们应该积极寻找代价小、见效快的方法,不断向企业展示一些有价值的东西,来让人们保持对新数据源处理过程的兴趣。一个跨部门的大数据团队一定不能在组建一年之后,还对外宣称他们“正在试图搞明白”,要不时地迸发出想法,不管这一想法多么微小,然后迅速采取行动。

另外一个建议是,建立类似“创新中心”这样的地方,就是公司内部拿出少量的预算、人力资源、技术资源来做一些有一定未知风险的小实验,以小预算做试点,便于企业快速出击。

6.数据通信技术 篇六

1嵌入式技术与无线通信技术的发展

嵌入式技术近年来得到了大力的发展,因其体积小,功耗低,可靠性高,功能全面等优点,已深入应用到多种领域。嵌入式技术除了在日常生活中得到了广泛的应用外,在数据采集领域也有了长足的发展。运用嵌入式技术开发的掌上数据采集仪,不仅可以采集和处理大量的数据,还可以记录图片和视频资料,大大的提高了数据采集的精确度。无线通信是利用电磁波信号可以在自由空间传播的特性进行信息交换的一种通信方法。将无线通信技术运用在数据采集中,可以大大简化数据采集工作,提高数据采集过程中的动态响应。但传统的GPRS网络传输速度不高,并不能满足大数据的传输要求。随着第三代移动通信技术(3G)的飞快发展和应用,相比GPRS而言,3G网络的传输速度有了极大的提升,可以满足图片和视频等数据的高速传输要求。基于此,本文选择以嵌入式系统为核心,集成数据采集传感器、摄像头模块、GPS模块和3G无线通信模块的系统平台进行研究,并应用于远程数据的采集和传输,满足当前社会发展的数字化的要求。

2嵌入式数据采集系统的软硬件分析

随着社会的发展,在野外数据采集中,除了采集传统的数据,根据采集工作的不同还需要采集现场的图片或者视频,因此摄像头模块是必须考虑的。同时数据采集仪除了处理传统的采集数据,还需要对数据中的图片或视频进行压缩,所以对整个系统的处理器也有很高的要求。而在数据的.远程传输上,传统的GPRS网络不能满足速度上的要求,因此更高速更稳定的3G无线通信网络是最好的选择。本文所研究的采集系统基于OMAP4460嵌入式平台,集成有GPS、摄像头等模块,通过数据接口接驳3G无线通信模块以及数据采集传感器模块。OMAP4460基于Cortex-A9架构,集成有两个1.5GHZ核心的CPU以及主频为400MHZ的GPU[1]。相比较早期的嵌入式处理器无论是数据处理还是图形能力都有了极大的提升,符合整个系统开发的需求。3G无线网络模块选择了WCDMA无线模块,在国内WCDMA相比CDMA和TD-SCDMA而言,传输速度快,数据传输更稳定[2]。嵌入式数据采集系统的软件平台采用Linux系统。Linux系统具有高度的可设置性,因而在嵌入式系统中有着广泛的应用[3]。相比较其他嵌入式系统,Linux系统的源代码是完全开发的,注释清晰且文档齐全,除了使用成本很低外,还非常有利于个性化定制。同时系统内核小但功能强大且运行稳定,还支持多种外部设备。另外Linux系统具有非常优秀的网络功能并提供了完善的开发工具[4]。

3无线通信网络的数据传输

在Linux系统下最常用的通信机制是Socket套接字。Socket套接字是面向B/S模型而设计的,有3种类型:流式套接字(SOCK_STREAM)、数据报式套接字(SOCK_DGRAM)、原始套接字(RAW)。本文的研究选用了流式套接字,流式套接字需要建立连接并威化才能保持通信,但其数据传输的安全性高且纠错性强。针对野外采集数据传输的特殊要求,实现无线网络传输功能的软件设计有如下要求:有相应的登录验证机制,客户端数据采集仪需要与远程服务器经过验证后才能进行数据传输;数据传输完毕后需进行纠错,以检验文件传输是否正确。客户端功能实现的步骤和部分代码如下:初始化并与服务器建立连接,然后客户端向服务器发送验证密码,服务器返回验证结果,如果出错,则返回等待重新发送验证密码。部分实现代码如下:1)登录向服务器发送验证密码send(sockfd,client_passwd,strlen(client_passwd),0);recv(sockfd,buf,sizeof(buf),0);对服务器返回数据进行判断if((strncmp(buf,“right”,5))==0)正确则跳出当前循环出错则返回,等待重新发送密码……2)传输数据传输结束后,客户端发送结束标识,并发送传输数据包的MD5校验码,服务器对MD5校验码进行验证,然后返回结果,如出错,则请求重新发送。客户端部分实现代码如下:生成数据包的MD5校验码MD5_Init(ctx);MD5_Update(ctx,fp,strlen(fp));MD5_Final(md_s,ctx)发送MD5校验码send(sockfd,md_s,sizeof(md_s),0);MD5校验码不一致则请求重新发送……

4小结

7.移动数据通信技术的比较 篇七

1 GPRS技术的概述

GPRS技术的特点。GPRS技术也被人们称之为通用分组无线业务, 它是第三代移动通信技术的主要内容之一, 也是第二代移动通信技术向第三带移动通信技术过度的重要组成部分。这种技术在实际应用的过程中, 有着较高的数据率, 可以很好的满足用户的相关要求。并且随着科学技术的不断发展, 人们也将GPRS技术和互联网技术相结合, 这就使得第二代向第三代技术进行过渡的过程中, 只需要对其软件系统进行升级, 就使其数据效率得到极大的提升, 这样不仅提升了移动通信技术的性能, 还很好的满足了用户的使用需求, 从而使得移动数据通信技术的效益得到进一步的提升。

人们在对GPRS技术进行使用的过程中, 一般都是采用的分组交换方式来对其进行处理, 这样就使得通信技术的流量分配问题得到很好的解决, 进而使得多个用户在对其通信网络进行使用的时候, 可以很好的满足用户的需求, 从而使得网络数据的利用率得到极大的提升。

GPRS技术在使用的过程中, 除了有着利用率高、速度快等方面的特点以外, 还有着永久在线的特点, 使得用户可以随时使用网络。目前, 在人类社会的发展过程中, GPRS技术已经得到了人们的广泛应用, 而且随着科学技术的不断发展, 人们来对GPRS网络进行不断的升级, 从而使得GPRS技术服务支持点和网关支持点的性能得到有效的提升。而且人们为了保证GPRS网络的安全性、经济性等方面的性能, 还要按照相关的协议来对其进行处理, 这样就使得GPRS技术应用得更加的广泛。

2 GPRS的系统结构

GPRS网络是基于现有的GSM网络实现的。为了实现GPRS, 需要在现有的GSM网络中增加一些节点。GSN (GPRS支持点) 是GPRS网络中最重要的网络节点, 有两种类型:一种为SGSN (Serving GSN, 服务GSN) , 另一种为GGSN (Gateway GSN, 网关GSN) 。SGSN的主要作用是记录移动台的当前位置信息, 并在移动台和GGSN之间完成移动分组数据的发送和接收。GGSN主要是起网关作用, 它可以和多种不同的数据网连接, 如ISDN, PSPDN和LAN等。

3 GPRS与CDPD系统的比较

CDPD (蜂窝数字分组数据通信) 是1993年美国移动通信公司 (AMCI) 等八大公司联合推出的。CDPD在AMPS/DAMPS的基础上实现, 提供端到端 (移动端到固定端、移动端之间) 的IP连接, 它标志着无线移动分组数据传输 (IP) 成为现实。

CDPD是在现有的AMPS移动电话网上提供分组数据服务, 它与AMPS共用同一频带。其理论速率为19.2kbit/s, 实际速率可达10~13kbit/s。CDPD将数据分成定长的分组, 加上收发端地址及控制信息, 在AMPS的空闲话音信道上传送。

当话音用户要求占用该信道时, CDPD重新寻找新的空闲信道, 利用信道跳频技术, 自动跳到新的空闲信道传送数据。CDPD系统主要由移动终端、固定终端、移动数据基站、管理服务器、信息服务器、网络管理系统等组成。CDPD各部分之间的通信靠TCP/IP来连接。外部主机与CDPD网之间可采用X.25协议或Internet互联。GPRS和CDPD有着极其相似的网络结构和服务方式。二者都是在现有的蜂窝移动通信网络上进行必要的软/硬件升级后向用户提供永远在线的分组交换数据服务, CDPD基于AMPS/DAMPS网络, 共用AMPS频率 (800MHz) , 共享AMPS/TDMA网上的一些设备和网络设施;GPRS则基于GSM网络, 共用GSM频率 (900/1800MHz) , 共享GSM网络的绝大部分基础设施。

3.1 工作频段。

我国国家无委已分配的移动数据工作频段是821-825, 866-870MHz。由于CDPD是工作在AMPS频段, 只有1MHz (824-825, 869-870) 频段与我国国家无委分配的移动数据工作频段重合, 所以我国CDPD可用频段只有1MHz, 此外, 国家无委还为适合于CDPD的需求把原定的25k Hz频道间隔改为了30k Hz。CDPD采用13小区频率复用, 平均每个小区只能有2~3个19.2Kbit/s频道可用。

GPRS与GSM共用频段, 可用频段在900MHz有9MHz, 在1800MHz为10MHz。GSM采用TDMA/FDMA多址工作方式, 每个频道有8个时隙 (8信道) 。依据小区用户数量 (密度) , GSM可采用不同的小区频率复用方式。由于GPRS可用频段宽, 因此GPRS每个小区内可用于数据的信道数远大于CDPD, 容易满足组建公网对信道数的需要。

3.2 无线接口参数。

从两个系统工作频段比较看出:由于我国CDPD每个小区的可用信道数量少, 只有2~3个19.2Kbit/s频道可用。每个频道的数据率只有12~13kbit/s, 容量较低。而且CDPD采用DSMA/CD (数字侦听多路访问/有碰撞检测) 随机占用信道方式, 当RF信道加载60%时, 用户数据率仅有2.8Kbit/s。

基于上述原因, CDPD仅适合纵向应用 (突发数据应用) , 不适合横向应用, 即CDPD仅适合专用 (集团用户) 移动数据网应用。

由于GPRS每个小区可用于数据的信道数多, 如果取一个频道用于数据传送时, 采用CS-2信道编码方案时最高数据率达13.4×8=107.2kbit/s。由于GPRS小区内信道数量多, 数据又允许多时隙工作, 数据率高, 而且GPRS用户数据吞吐量 (在R, Gi参考点测量) 可以经过协商确定, 网络通过设置服务优先级来保证, 用户最高数据平均吞吐量可达到111Kbit/s (网络设置协商数据平均吞吐量等级为19级) 。所以GPRS既适合纵向应用又适合横向应用 (Web浏览, FTP文件传送等大数据量应用) , 即GPRS能满足公众移动数据网应用的需求。

结束语

由此可见, 和传统的移动通信技术相比, GPRS技术无论是在性能还是在效益上都有着极大的优越性, 而且随着科学技术的不断发展, 第四代移动数据通信技术也逐渐的出现在了人们的生活当中, 这就使得用户的使用需求得到了进一步的满足。不过, 从当前移动数据通信技术的实际应用情况来看, 其中在存在着许多的问题, 为此我们还要在不断的实践过程中, 来对其进行探索分析, 从而使得移动数据通信的性能得到进一步的提升。

参考文献

[1]谈振辉.未来无线通信领域的新技术[J].中兴通讯技术, 2004 (1) .

8.数据通信技术 篇八

关键词:电力运营 数据处理 资源整合

中图分类号: TP311 文献标识码:A 文章编号1672-3791(2016)07(b)-0000-00

通过对电力系统动态性和实时性监测可以掌握大量的实时数据,它是电力系统动态运行的具体体现,但这也严重制约了电力系统的长期发展。现代电力运营监测员应充分利用电力运营监测平台,提升系统数据利用率,建立以供电部门基础数据处理,做好各项数据的衔接、处理,协同各部门协同问题,促进国家电网数据系统的高效运转。

1大数据时代相关内容概述

1.1大数据时代整体发展形势

从我国互联网技术的快速发展,各行业企业在大数据时代中均积累了大量的经营数据,它决定了企业的长期健康发展。为了更好的完成我国电力企业在大数据时代下的发展任务,本文笔者主要从以下四方面进行了大数据时代发展形势加以概括,进一步实现对电力企业数据共享,实现多种资源的优化整合:

一,促进电力各部门数据的优化整合与共享,提升企业各种资源的整体利用率;二,加快电力数据资源开放力度,扩大资源利用面;三,进行大数据基础设施的统筹规划,提升数据资源利用的合理性;四,构建科学的宏观调控数据体系,进一步实现电力运营监控的宏观调控。

1.2充分发挥大数据平台业务优势,进行管理短板定位

综合考量电力运营业务流程绩效指标,对业务流程整体执行效率进行综合评价;进行执行效率较低业务流程环节的准确定位,全面分析业务流程设计的科学性与合理性,并提出综合性流程改进建议;我们应当在整体业务流程绩效指标和详细数据的基础上,作出有关于业务流程制度、岗位绩效、职责及标准的整体改进意见和建议;提升各部门、不同业务之间的协同性,进行管理短板的准确定位。

1.3加强数据资源安全保障

数据资源的有效利用离不开数据体系的健全和完善,它是加强大数据环境网络技术研究和安全的关键,只有构建大数据时代下的电力运营监测安全评估体系,才能够使企业在大数据安全基础上,提升电力运营监测和预警工作质量,提升电力企业服务水平。

2做好大数据时代电力运营监测系统数据处理

2.1监测数据类型

电力运营监测数据类型主要分为基础型数据、电力企业运营数据以及电力企业管理数据几种,基础型数据是以电力企业生产数据为主,它包含了电压稳定性、发电量、电能质量等,业务部门和业务系统要确保基础数据的完整性和准确性;电力企业运营数据指的是电力企业在生产过程中所产生的数据,通过对上述数据进行分析、处理,它能够为公司整体运营决策指明方向。电力企业管理数据仅限于特定环境下的共享和使用,它主要指协同办公、ERP及一体化平台等方面数据,做好该方面数据分析、处理有利于推进各部门工作的开展。

2.2监测移动数据处理

针对运营监测信息支撑系统来讲,异动产生、处理、统计是异动管理的主要内容,异动类型又可分为数据质量异动、接口异动和数据质量异动三种,业务异动就是通过业务数据分析出生产运营情况,业务异动又可详细划分为指标异动、流程异动和明细数据异动;而数据质量异动就是要分析出接入数据的准确性、完整性和及时性,并作出相关异动数据信息分析、处理。接口异动就是因接口问题产生的异动情况。

3.大数据时代下电力运营监控数据应用

3.1电力生产环节中大数据的具体应用

由于电力系统管理项目众多,想要单纯依靠人力来完成数据的分析和整体难度极大,只有充分利用现代化信息技术手段和多种业务模型才能够不断提升输电线路可靠性和在线计算输送功率,更好的完成电力生产相关技术指标,促进电压质量管理工作的发展。常态化低电压监测有利于实现用户和低电压电台之间的协同合作,实现对低电压运行情况的跟踪治理。因此,电力系统相关部门应在大数据环境下,按期做好停复电监测和电压质量分析报告。

3.2大数据在电力系统营销中的具体应用

远程视频技术应用能够帮助电力运营工作人员进行相关业务的巡查,是运营监测中心针对高压电力作业实施的重要举措。通过远程视频技术的帮助能够极大的缩短营业窗口情况的巡视,进一步提升电力营业窗口整体服务质量,降低用户投诉率,提升电力用户的满意度。积极开展工业电量预测,更好的满足用电需求管理,促进用电系统稽查监控业务,更好的挖掘线损治理工作成效挖掘及典型案例提炼。

3.3大数据在电力检修中的具体应用

电力系统运营中心通过大数据运营监控平台的利用,充分实现了对电网设备运维、资产寿命周期以及资金收支等情况,并将其上报于上级在线监测分析系统中,保证电网系统的正常稳定运行,进一步完成电网设备运维绩效分析。我们应当综合利用大数据时代数据挖掘手段,做好电网生产运营过程中的操作票、工作票及缺陷记录等相关明细的分析和静态数据流程匹配工作,做好配电网络设备的日常巡视、检修处理等工作,促进各部门之间的协同,提升电网运维管理工作发展,尽早发现电网运营过程中存在的不足,全面掌握巡视、检修、缺陷发现等流程绩效分析,做好各环节定量诊断调度和检修,进一步实现电网系统的纵向贯通和横向协同,不断提升我国电网运维管理水平。据相关数据统计,我国大数据时代下电力运营监控线路消缺原因、消缺时长如下图1所示:

4结束语

经上述分析,我们可以了解到数据信息维护、处理对于电力自动化系统运用意义重大,只有充分利用大数据时代所带来的数据分析、处理、应用方面的优势,做好不同数据类型的准备工作,进行电力自动化系统数据准确性、快速性整合,采用科学合理的策略指导,促进大数据时代电力系统数据的长期可持续发展。

参考文献

[1]崔希广;高速公路电力自动化系统信息平台的研究与应用[J];科协论坛(下半月);2012年10期

[2]李东;电力自动化系统中心站无人值班模式技术分析[J];河南科技;2013年20期

上一篇:法律事务部年度工作汇总下一篇:中级职称英语免考条件