重庆市大数据管理局(8篇)
1.重庆市大数据管理局 篇一
利用大数据统计分析为教育管理提供科学的决策服务论文
随着全国教育管理信息化系统的逐步建设,教育管理手段发生了重大变革,但如何利用诸多管理系统的数据进行有效的分析为各级各类教育行政部门和教育管理者提供科学的决策服务,成为我们需要解决的问题,文本是甘肃教育管理系统大数据挖掘方面的一些做法,希望对教育信息化工作者有所帮助。
1 引言
甘肃省作为我国西部经济欠发达省份,以教育信息化带动教育现代化发展,坚持以深度融合、机制创新、企业参与、应用驱动为导向,在教育管理信息化基础建设、深化应用、创新融合方面,克服基础条件差等困难,努力实现跨越式发展。
认真贯彻落实《教育信息化十年发展规划(—)》精神,(简称《十年规划》)。《十年规划》提出了我国教育信息化未来十年的8项任务和5个行动计划,这8项任务和5个行动计划又被概括为“三通两平台建设”。三通即:“宽带网络校校通、优质资源班班通、网络学习空间人人通”,两平台即“教育资源公共服务平台、教育管理公共服务平台” [1]。
2 甘肃省教育管理公共服务平台顶层设计
“十二五”期间,重点建立覆盖全省各级各类教育的基础数据库及其管理信息系统,为各级教育行政部门和各级各类学校提供教育管理基础数据和管理决策平台。
按照教育管理信息系统“两级建设、五级应用”原则,坚持“核心系统国家建、通用系统省级建、特色系统本级建”的建设模式。以甘肃省教育数据中心为依托,集中省级硬件基础环境、人员技术力量,统筹建设教育管理公共服务平台和教育资源公共服务平台,两平台硬件环境共建共享,充分发挥效益,为全省教育管理和应用提供服务。国家级核心系统全面部署,省级通用系统基本完善,各级特色系统逐步推进。
在整体推进过程中,以硬件基础环境建设为基础,以保证国家核心系统部署与落地应用为第一要务,以省级通用系统建设与应用为特色,利用大数据统计分析为各级各类教育行政部门提供科学的决策服务,促进教育公平和教育现代化发展。
3 甘肃省教育管理公共服务平台基础运行环境[2]
为保障我省教育管理信息化的整体推进,向全省各级各类教育行政部门提供教育管理公共服务和基础数据支撑,从起,加强省级教育数据中心建设工作,为省级和不具备机房环境的市州提供网络基础环境。按照“国家教育管理公共服务平台《省级数据中心建设指南》”中总体要求进行建设,按照B类数据中心建设标准,建成了面积达250多平方米,安全、高效、节能、功能齐全、服务到位的`省级教育数据中心。
4 甘肃省教育管理公共服务平台建设情况
从截至目前,我省教育数据中心已部署的国家核心管理系统有:中小学生学籍管理系统、中小学校舍安全管理系统、学生资助管理信息系统、中等职业学校学生管理信息系统、学前教育管理系统、教师管理信息系统、基础数据库、应用支撑平台、安全运维监测平台等,基本完成了教育部要求的全部系统的部署。
5 运用技术手段,实现各系统数据挖掘整合
在国家核心系统建设的基础上,为了便于各业务系统数据分析报表的查看和检索,我省专门开发了甘肃省教育综合数据监测系统,通过统一的教育管理数据监测平台,对所有业务系统数据进行监测,通过统一的门户平台进行展示。
该系统设计面向服务的体系结构(SOA),使用J2EE和HTML5程序设计并且在数据的抽取、转换和加载运用了目前先进的ETL技术,通过对中小学学籍系统数据库、教师管理系统、中等职业学校学生管理信息系统数据库、校舍安全管理系统数据库的关联,动态提取各种数据,生成教育行政部门所需的各种统计报表。系统通过学生、教师和学校三个横向维度,按照学前、基础教育、中等职业教育和综合四个纵向维度,把各业务系统报表统一进行展示,并跨系统进行数据关联和对比,按照教育决策部门需要,灵活方便地生成的各种类型报表,按照折线图、饼状图、柱状图和数据报表等形式直观方便地进行展示。
6 利用大数据分析共享,提高社会公共服务能力
按照“核心系统国家建、通用系统省级建、特色系统本级建”的原则,进一步落实“一库五应用”建设目标,甘肃省在国家核心系统建设的基础上,对各孤立分散的业务系统数据进行跨系统整合,科学、精准、可持续的获取数据,深度挖掘分析数据,从而打造甘肃省教育管理数据监测服务系统,为全省教育行政部门提供科学有效的决策数据。
根据我省当前的信息系统实际情况,结合今后教育信息化的长远发展和规划,将各业务系统数据通过抽取、转换、加载等环节,加载到甘肃省教育管理数据监测服务系统中,满足甘肃省教育管理数据监测及分析需要。如:学籍系统、教师系统、校安系统、学期系统、中职系统等都是原始的基础数据,如要跨系统进行数据分析对比和提取,应了解:①农村六年制小学按照学生人数统计教师的分配情况,初级、中级、高级教师的分配情况,教师的年龄结构情况,音体美艺术类专业教师的分配情况。②根据学校片区分布和片区学生教师人数,分析片区学校布局是否合理。③通过小学入学人数、幼儿园入园和毕业人数、义务教育人口监测中适龄入学人数对比,分析入园和入学情况。④查看全省大班情况等。要得到这些分析报表,必须通过对各业务系统源数据进行动态抽取、转换、加载和分析,最后生成所需要的报表。
7 结语
“三通两平台”的建设和应用是我省当前阶段教育信息化发展的战略重点,应用好教育管理公共服务平台是各级教育信息化工作者的愿望,通过对各孤立的管理系统的数据挖掘和分析,向各级决策管理者或专业人员提供及时、科学、有效的监测报告,从而为决策者科学决策提供服务。
2.重庆市大数据管理局 篇二
作为飞机的核心组成部分, 航空发动机的健康管理是航空公司日常工作的重中之重。航空发动机是一个十分复杂的系统, 其日常运营中会产生大量的状态监控数据。这些监控数据能够帮助工程师了解发动机当前状态, 判断发动机有无发生故障, 并根据当前状态制定相应的维修计划。因此实现对航空发动机数据的有效监控与管理成为各航空公司的迫切需求。
以往航空发动机的状态监控数据都存储在关系型数据库中。工程上应用较广泛的关系型数据库包括Oracle、SQLServer、DB2、Sybase、Access等[1]。在存储数据量较小时, 采用传统的关系型数据库进行检索, 其检索速度是可以满足日常需求的。然而随着发动机状态监控技术的进步以及航空公司机队飞机数量的快速增加, 航空公司收集到的状态监控数据量逐渐变的非常庞大, 并且还有不断增长的趋势。以国内某航空公司为例, 2013年时其飞机保有量大约为300架, 每天大约有1300多个航班。在这种情况下, 仅仅是快速存取记录器 (QAR) 记录的数据量就达到每年2TB的规模[2]。这仅仅是QAR的数据量, 其他数据来源如飞机通信寻址报告系统 (ACRAS) 、原始设备制造商 (OEM) 等都会产生大量的监控数据。随着航空公司机队规模的扩大以及技术的进步, 其获得的发动机状态监控数据量将变得更加巨大。
虽然关系型数据库性能非常好, 但它毕竟是通用型的数据库, 并不能完全适应所有用途。传统的关系型数据库需要固定的模式来描述数据, 因此难以适应工况数据模式多变的特点;传统的数据库很难进行横向扩展。对于容量扩充的需求只能通过停机维护和数据迁移来实现, 时间和财力成本较高。此外, 传统的关系型数据库难以满足高并发读写的需求, 简单查询时返回结果不够快并且对硬件性能要求较高[3]。由于存在这些缺陷, 仅依靠关系型数据库本身的索引或者分区分表等方法来存储规模日趋增长的发动机监控数据, 其存储和使用效率会变的非常低下, 严重时甚至会导致数据库服务器崩溃。
针对航空公司有效存储管理发动机海量监控数据的迫切需求, 本研究提出一种面向民用航空发动机海量监控数据的存储管理方法, 并设计了相应的大数据存储管理系统。使用关系型数据库和分布式文件系统构成两级存储模式。上层利用Oracle实现航空发动机管理机制和基础数据的组织;底层利用HBase分布式文件系统实现对海量数据的高性能存储管理。这种结构可以实现航空发动机基础数据与监控数据的动态耦合, 一定程度上实现了航空公司有效存储管理海量监控数据的需求。
1 系统需求分析
飞机从起飞到降落, 发动机各个参数由飞机状态监控系统 (ACMS) 的传感器实时测得并被编入发动机报, 通过飞机通讯寻址与报告系统 (ACARS) 发往地面站。航空发动机的生产厂家 (OEM) 也会采用自己研制的发动机状态监控软件对ACARS数据进行处理, 并将处理后的数据 (OEM数据) 发送给航空公司。目前这两类数据在航空公司的应用是比较广泛和成熟的, 因此本研究专门针对民用航空发动机这两类数据设计一套海量数据存储和管理系统。该系统应具有如下功能:
a) 定制解析协议解析发动机监控数据。如上所述, 目前航空公司经常使用ACARS报文数据和OEM数据对发动机进行管理。但这两类数据原始形式并不能直接为工程师所用, 必须采用专门的解析协议对其解析后方能使用。ACARS报文一般为txt格式文件, OEM数据一般为excel文档。
b) 监控发动机参数中出现的不合理状况并给出报警信息。需要针对不同发位、不同班次的发动机进行监控并综合各方面的信息判断发动机当前状态。在报警功能中报警规则应能够根据工程师需求人工修改, 并且报警历史应该被保存以供工程师日后查看。
c) 为用户提供数据的图形化展示。该部分应该为用户提供包括数据图形展示、图形导出以及数据导出等功能。
d) 保证工程师能及时检索到所需数据。系统中将对海量数据 (亿级别以上) 的检索速度应该控制在15秒以内。
2 系统设计
针对航空公司有效存储管理发动机海量监控数据的迫切需求, 本研究设计了一个基于HBase的民用航空发动机大数据管理系统。该系统可以分为四层, 从下而上依次为数据层、业务逻辑层、表现层和客户层。
数据层使用关系型数据库和分布式文件系统构成两级存储模式。业务逻辑层主要功能是解析航空发动机监控数据。表现层主要功能是报警管理和趋势分析。客户层是web浏览器, 用户在客户端无需额外安装任何软件, 只要有可运行的网络并且计算机安装了web浏览器即可访问该系统。该系统的整体架构如图1所示。下面对系统的业务逻辑层和表现层进行详细阐述。
2.1 业务逻辑层
业务逻辑层的主要功能是定制解析协议, 将原始ACARS报文和OEM数据解析成标准化、规范化并且可直接操作的有效数据。该层可进一步分解为SMI标签管理、子标签管理、标准化参数管理、参数监控类型管理、ACARS模板管理和OEM模板管理六个模块。
2.1.1 SMI标签管理
SMI是区分报文的首层标志。报文的形式主要有参数监视报 (DFD) 、故障报 (CFD) 、运控报 (M10) 、厂家报文 (OEM) 。前三种报文分别来自机载系统的三个不同模块, 其中DFD来自发动机参数监视系统ACMS, CFD来自故障监视系统CMC, M10来自运控系统ACARS, 这三种类型的报文都通过ACARS统一向地面发送, 地面站未对其进行区分。因此需要设置首层标志SMI来区分不同类型的报文。
2.1.2 子标签管理
子标签是区分报文的下一层标志。比如ACARS报文又可以进一步分成起飞状态报 (TKO) , 巡航状态报 (CRZ) 等。采用子标签可以对报文进行更加具体的分类。
2.1.3 标准化参数管理
各个发动机厂家对各项参数的命名并没有统一规范。为方便管理数据, 需要制定一套统一的发动机参数命名规范。根据该规范将各个厂家提供的数据标准化, 这样做有利于日后对发动机数据的管理和利用。
2.1.4 参数监控类型管理
方便用户根据自身需求选择不同的参数监控类型, 比如气路监控、振动监控等。
2.1.5 ACARS模板管理
该部分的主要功能是配置参数在报文中的位置, 将每种报文中各个参数所在行列记录在xml模板中。因为xml可以明确表示各个参数的属性信息和所处位置, 采用dom4j可以对xml文件进行解析和生成。xml模板的格式如图2所示。
2.1.6 OEM模板管理
该部分主要确定OEM文件中各行各列的意义及其对应关系。在解析OEM文件时需要获取标题所在行、数据开始行、发动机序列号 (ESN) 所在列、时间所在列、时间格式、各列参数与标准化参数的对应关系、参数是否需要导入数据库、飞行阶段设定规则等信息。这个模块可以根据用户需求自定义格式, 增加操作灵活性。
2.2 表现层
表现层主要包括报警管理和趋势分析两个模块。报警管理的主要功能是设定报警规则和查询报警历史信息。趋势分析的主要功能是绘制数据基本图和复合图。
2.2.1 报警管理
一条报警规则的基本信息包括报警类型、报警条件和是否自动报警。报警类型包括超限报警和突变报警。报警条件设置支持简单的阈值设置 (上下限) 、逻辑运算 (与、或、非、异或等) 、简单的数学运算 (加、减、乘、除等) 和复杂的数学运算 (绝对值、平方、立方、平方根、立方根、指数、对数、最大值、最小值等) 。
报警条件中的参数来自标准化处理以后的参数, 可支持多时间点和多发位运算。参数的发位由后缀“_1” (左发) 、“_2” (右发) 区分, 如果只有一个发位, 不加后缀。采样点的位置由后缀$n表示, 其中n为一整数, $n表示当前值的前第n点。如果没有此后缀, 则表示当前值。参数的来源由后缀@ACARS、@OEM区分。ACARS报文中发位可以根据参数后缀直接区分。OEM中发位需要根据发动机装机信息确定。
2.2.2 报警历史信息查询
该部分中工程师可以查看所有报警记录, 并且能够查看报警时对应的具体数据。在报警位置可根据自身经验添加处理意见。
2.2.3 基本图绘制
用户可以根据需求将一段时间内的数据以图形的方式展现出来, 从而让用户通过观察图形更好地判断发动机当前和未来的状态。该部分的主要功能有图形展示、图形文件导出以及数据文件导出。图形展示功能中提供如下五种展示方式:
单参数VS时间:X轴为时间, Y轴为一种参数值;
单参数VS采样点:X轴为采样点, Y轴为一种参数值;
单参数VS单参数:X轴和Y轴均为单参数值, 用户可根据需求自己设置X轴和Y轴的参数;
多参数VS时间:X轴为时间, Y轴至少为一种参数值;
多参数VS采样点:X轴为采样点, Y轴至少为一种参数值;
上述5种方式中均可以绘制至少一台发动机的数据图形。
其中多参数VS时间和多参数VS采样点图形可以选择如下两种绘图方式:参数集中显示 (所有数据均在同一个界面中展示) ;参数独立显示 (每个界面仅显示单个参数数据, N个界面对应N个参数) 。
2.2.4 复合图绘制
在基本图的基础上, 可选择在同一个界面上绘制多个基本图形成复合图。
3 关键技术
本系统采用No SQL方式存储航空发动机运行过程中产生的海量数据。No SQL是一个云计算背景下蓬勃发展的分布式、非关系型数据库系统, 支持半结构化、结构化数据的高并发读写, 存储键值、列族、文档、图等多种数据类型。No SQL具有良好的可伸缩性和可扩展性, 能够有效利用云计算所提供的海量数据存储管理、分布式并行计算能力[4]。
目前出现了一些No SQL非关系数据存储系统, 例如, Apache社区的HBase, Facebook的Cassandra, Amazon的Dynamo以及支持高效数据查询的内存数据存储系统Redis等等。这些数据存储都采用了key-value数据模型.在key-value数据存储系统中, HBase的使用最为广泛[5]。
本系统使用HBase分布式数据库存储数据。HBase (Hadoop Database) 是一个结构化数据的分布式存储系统, 是Hadoop项目的子项目, 采用基于列而不是基于行的模式来存储数据[6]。
本系统在存储与管理发动机监控数据时需要区分不同的发动机, 因此HDFS (Hadoop实现的一个分布式文件系统) 中以发动机序列号 (ESN) 作为文件相应目录的唯一标识。Hadoop海量数据文件存储结构如图3所示。
系统中对发动机监控数据的查询主要依据时间和标准化监控属性ID, 因此将标准化监控属性ID和时间的组合作为行健。系统对数据操作时还需要区分监控数据产生的飞行阶段和数据来源, 因此除了保存监控属性值外, 还需要保存飞行阶段和数据来源信息。HBase数据模型如表1所示。
Row Key是标准化监控属性ID和时间的组合。标准监控属性ID为固定32位长度。时间精确到秒, 并统一使用yyyymmddhhmmss的格式, 因此长度固定为14位。两者组合起来, Row Key为固定长度的46位。
Column Family为一个列族, 因为所有列都表示一个时间段内的发动机信息, 本研究中只设一个列族, 命名为MONITORDATA, 意为监控数据。
VALUE为标准化监控属性的值, 一般为double类型。
DATA SOURCE为数据来源, 系统中数据一般来自发动机原始报文或厂家数据, 使用数据来源ID表示, 一般为固定32位长度。
FLIGHT PHASE为飞行阶段, 系统中的飞行阶段有起飞、爬升、巡航等阶段, 使用飞行阶段ID表示, 一般为固定32位长度。
因为系统中状态监控数据的新增、修改操作都设置为在后台定时运行, 并且该运行时间一般选择在非工作时间, 不会影响用户对该系统的使用。因此以下主要针对海量数据的查询效率进行测试。为更好地判断新系统存储海量数据时的查询效率, 采用对比试验方法对HBase和Oracle的查询性能进行测试。根据实际需求, 增加特殊检索方式, 例如根据时间段检索。前文已给出HBase的数据模型, 对比用的Oracle数据模型如表2所示。
鉴于测试环境要求, Oracle中暂时存有一千万条左右的数据, HBase中数据数量级在亿以上。Oracle为一台单独的数据库服务器, HBase为三台配置完全一样的PC机组成的一个服务器集群。各PC机配置如表3所示。
选取2015年1月1日至1月10日的数据对两种存储系统进行测试, HBase和Oracle的检索效率对比如表4所示。
通过表4结果可知, 在HBase存储系统硬件条件较弱且存储数据更多的情况下, HBase的检索时间始终保持在10秒以内, 而Oracle的检索时间随着检索结果集的增加而迅速增加。工程实际中, 监控数据检索的结果集经常十分巨大, 此时Oracle的检索速度明显不能满足需求, 而HBase的检索速度基本不受结果集大小的限制, 能够满足系统检索速度需求。
4 结束语
发动机健康管理系统需要以海量的发动机状态监控数据为基础。鉴于传统的关系型数据库无法满足航空公司存储和管理海量数据过程中的某些需求, 本研究提出采用No SQL方式存储管理海量发动机监控数据。通过分析航空公司的实际需求, 给出了针对民用航空发动机的大数据管理系统的架构与模块设计。选取当前使用较为广泛的HBase分布式数据库存储数据, 根据发动机监控数据的特点设计数据模型。为测试新系统的查询性能, 设计试验与Oracle数据库进行对比。实验结果表明, 检索数据集较大时基于HBase的存储系统搜索效率要高于基于Oracle的存储系统, 并且搜索时间始终控制在10秒以内。本研究提出的基于HBase的民用航空发动机大数据管理系统可以弥补传统关系型数据库部分性能上的不足, 为航空发动机后续健康管理提供更加坚实的基础。
参考文献
[1]杨俊生.大数据时代数据存储技术的发展[J].电子世界, 2014, (05) :11-12.
[2]周新颖, 谭朝阳, 刘倩.挖掘“大数据”时代QAR如何改变飞机运营[N].中国民航报, 2013, 10 (21) :004.
[3]钟雨, 黄向东, 刘丹等.大规模装备监测数据的No SQL存储方案[J].计算机集成制造系统, 2013, 19 (12) :3008-3016.
[4]陈崇成, 林剑锋, 吴小竹等.基于No SQL的海量空间数据云存储与服务方法[J].地球信息科学学报, 2013, 15 (02) :166-174.
[5]葛微, 罗圣美, 周文辉等.Hi Base:一种基于分层式索引的高效HBase查询技术与系统[J].计算机学报, 2016, 39 (01) :140-153.
3.大数据理论之妙、之用 篇三
《大数据时代》认为自己揭示的宇宙奥秘是什么?还记得我们原来学习的哲学吗,从本体论(世界观)讲起,然后是辩证法(方法论)和实践观(认识论),如果你学习的是哲学专业,老师讲完一个大哲学家的本体论认识论之后,就会概述从中引申出的政治、伦理、美学、宗教等理论,从而讲解他的整个思想体系。《大数据时代》的作者虽然没有按这个结构来写,但我们还是能从中归纳出他的这个体系结构。
首先是本体论——世界是什么?西方哲学史上的回答无奇不有:水、数字、理念、实体、物自体、绝对观念……人们对这个问题的回答脱离不了当时所处的时代,在蒙昧时期,是一系列的臆想,在科学登上人类社会的中心后,我们知道是原子等物质构成了世界。这一次,作者给了富有当代气息的答案:数据。“有了大数据的帮助,我们不会将世界看作是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成的。”“将世界看作信息,看做可以理解的数据的海洋,为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。”
大数据引起了3个思维变革,可以看做作者对方法论和认识论的变革。首先,“不是随机样本,而是全体数据”,这类似方法论。作者认为以前的方法都是小数据时代的随机采样,大数据时代是全数据模式,样本=总体。
其次,“不是精确性,而是混杂性”, “执迷于精确性是信息缺乏时代和模拟时代的产物。”“接受不精确性,我们才能打开一扇从未涉足的世界的窗户。”全部的数据,即使其中很多是混杂的,也是有用的,而且是得到结论的“标准途径”。
最后,“不是因果性,而是相关性”,这是作者颠覆性最大的观点。因果律是人类认识世界的最基本理论之一,人类可说就是在不断问“为什么”中进步的,而作者认为,在大数据时代(应该是全数据时代更准确),我们不必知道现象背后的原因,知道“是什么”就够了,没必要知道“为什么”。“大数据,改变了人类探索世界的方法。”
在这个本体论和认识论的改变下,当然政治观、美学观等也会有所变革,但是当代社会,更明显的改变还是在现实的商业科技、医疗、教育、政府、经济、社会等领域。作者对各个领域的变革都有一小节来具体讲述,比如在医疗领域,他叙述了乔布斯得癌症后,因为采集了他身体的大数据,用药更适合他的个体,从而延长了生命。
4.大数据网络风险评估技术研究论文 篇四
关键词:大数据;网络风险;研究
引言
大数据网络环境发展逐步受到重视,成为各行业及各领域现代化信息体系建设的主要内容。为更好的提高大数据网络应用安全性,做好网络安全风险控制及风险评估工作不容忽视,是未来阶段网络安全管理的重要构成,同时也对现代化网络安全管理体系的构建及网络风险的有效控制提供了技术帮助,使网络安全管理工作更符合现阶段大数据网络发展环境需求,为我国现代信息化发展提供了切实的安全保障。
1大数据网络风险评估技术应用的必要性
大数据网络风险评估技术实际上是一种多元化的网络数据风险预警机制,通过建立完善的数据分析、数据管理及安全检测模式对可能发生的网络风险做出评估,从而实现对网络风险的有效控制。现阶段网络环境发展逐步向开源化及多样化迈进,相关的互联网金融体系构建也进一步形成,网络安全风险控制问题日趋严重,成为未来阶段解决网络安全问题的重要基础。网络安全隐患的产生是一种不可控因素,其影响要素之多,系统构架组成之复杂,对于网络的规范化管理形成一定的不良影响,因此做好风险评估更大的意义在于对网络风险问题进行警示,降低安全风险给予网络使用者造成的损失,为网络体系的现代化构建提供安全的网络发展环境。
2大数据网络风险评估技术准则
大数据网络风险评估技术应用囊括网络安全管理的各个方面,需要在保障其不影响网络系统及环境安全使用与运行的前提下开展网络风险评估处理,从而提高网络风险评估的可控性,以此要求大数据网络风险评估技术应用必须符合相关的网络安全管理准则,以便更好及更为有效的实现网络风险预警,提高网络风险评估数据的真实及可用性,为来来阶段网络安全问题的解决提供有效的参考数据。
(1)技术评估真实性真实性是网络风险评估的首要影响因素,虽然网络风险评估其目的在于控制网络安全风险,但在实际执行方面由于网络环境内容种类繁多,且信息真实性难以得到切实保障,因此网络风险评估技术应用必须能够对不同的网络风险信息做出正确的判断,并将不实的网络风险信息进行有效处理,确保渠道信息获取的真实性,避免虚假信息及伪造信息对于网络风险评估技术应用产生不利影响。
(2)技术评估可用性网络风险评估技术可用性要求其能够对不同的网络信息内容进行甄别,并根本现有网络环境条件制定合理的网络信息资源整合方案,将不适用于网络风险评估的大数据信息进行主动的屏蔽,实现网络风险评估的高效化及常态化应用,从技术角度、管理角度及分析等多个方面对网络信息做整体性优化,使其符合网络风险评估的实际使用需要,保证信息内容的可用性,解决信息内容来源不真实及信息评估管理不全面等相关问题。
(3)技术评估保密性保密性原则是网络风险评估的基础性原则,该原则应用本意在于提高网络信息处理的安全效益,避免网络评估信息出现丢失、被盗及窃取的相关问题,从技术保密及信息保密方面进行科学的网络风险控制。现阶段的网络环境管理难度较大,多元化的网络信息内容处理并未形成完善的数据管理体系,相关的数据管理内容均以企业及相关组织机构为主,互相之间尚未形成有效的信息联动与互通管理模式,从而导致网络信息数据保密结构呈单元化分布,网络安全防御能力较差,一旦受到网络攻击及网络安全风险波及,即可造成网络安全管理数据及用户信息数据的泄漏,从而使网络风险评估技术应用失去实际作用。因而网络风险评估的保密性原则应用至关重要,直接影响后续阶段的网络安全管理。
(4)技术评估完整性网络风险评估的完整性主要指数据内容获取的完整,确保各类信息数据获取均可满足网络安全风险控制的基本需要,避免数据统计及风险分析出现参数信息偏差。目前网络风险评估体系的建立总体状况较为良好,但在技术细节方面仍存在一定的问题,进而使其在信息获取方面存在数据不完善问题,对于网络安全风险控制影响较大,需要在后续阶段的网络风险评估方面增加网络信息获取渠道,并建立统一的数据分析管理库,以此提高网络风险评估的数据完整性。
3大数据网络风险评估技术应用途径
大数据网络风险评估技术应用需要具备高效化、高安全性及高时效性的基本特点,同时要针对不同的网络风险问题,制定多套网络风险评估管理机制,采取合理的技术手段获取更多及更为全面的数据信息内容,实现对网络环境信息的实时监控,并在第一时间内容对网络风险问题做出反馈,做到网络风险问题的及时发现与及时解决,从根本上提高网络风险评估技术应用的可靠性,为未来阶段网络安全发展奠定坚实的技术基础。
(1)安全风险数据库的设计应用安全风险数据库设计应用不能单一的从技术应用角度进行分析,要及时的做好数据信息整合,从网络信息存储、输出及获取方面做好安全控制,积极的做好网络数据测评,根据网络风险评估结构对网络安全管理体系进行优化,结合风险数据库内信息资源改善网络安全运行环境,以此利用网络风险评估构筑起坚固的网络安全管理壁垒。现阶段网络安全数据库设计对数据处理的灵活性及高效性需求较大,所以在设计方面为方便使用通过Brower/Sever终端、服务器端及浏览器端三层端口的叠加实现对网络数据的获取,并采用Web服务器将数据内容进行实时共享与扩展,有效提高网络风险评估数据库应用可控性。为保障数据库内容避免造成非法入侵,在网络安全防护方面应用系统防火墙进行安全布控,结合My-SQL数据平台的安全管理模式,实现数据信息安全的一体化管理,继而在便捷性、可靠性及安全性等多个方面对网络风险评估数据库的综合使用效益做出较为全面的优化设计。
(2)安全风险模组的技术预测评估安全风险模组设计要求结合网络安全环境对数据网络信息风险进行判断,该系统基础配置首先要由专业的技术评估技术进行数据取样,而后根据数据分析结果制定适宜的安全风险控制内容,运用IDS系统对历史数据进行深入解析,将数据库分析处理融入安全风险评估模块,提高安全风险模组的实际可用性,同时应及时的根据网络环境变化对数据模拟对比,采用LAN系统、网络主机及运营网络服务器的多元对接实现对风险评估数据的控制,将数据信息更为直观及迅速的进行综合性反馈,实现网络评估安全模组设计的多体制应用。安全风险模组技术预测数据的获取并不是单一的针对网络信息安全进行检测,而是对网络运行环境、网络管理条件等方面内容的集成处理,使多个网络安全模组能够成为完善的网络预测评估体系,按照不同网络安全模组的分工及特点合理的输入安全管理指令,由安全技术人员对网络风险进行自主判断,所以网络风险安全模组预测评估体系建立实际上是一种辅助的安全管理手段,使网络风险评估不再仅局限于服务器端及客户端,同时使第三方安全企业也可参与到网络安全风险评估,以便提高安全风险模组预测评估的实际有效性及使用环境适应性。
(3)云安全检测体系建立云安全检测体系建立基于大数据云平台设计开发,运用大数据信息模拟实现对数据网络风险的安全控制,根据网络数据处理特征及网络安全风险特点制定有针对性的云安全检测方案,有效降低风险隐患对于大数据信息存储、管理及输出的影响,在各个节点建立完善的数据信息对比库,以数据对比结果为基础,分析模组化网络数据风险来源,实现对风险环境监控、风险源查找及风险管理的一体化应用,以此从技术应用层面进行网络风险评估体制化应用。目前的信息网络构成主要由软件系统及硬件设施两个方面组成,所以在技术控制方面需要注重对硬件配置的优化,确保硬件配置参数符合云安全检测系统应用要求,结合多种安全管理软件及安全网络服务器对大数据安全环境做出测算,控制广域网络信息端口数据输入,确保各项数据传输及处理环节均可实现网络风险评估的全面化覆盖,利用云数据处理优势解决网络风险评估管理问题。
(4)大数据环境安全风险的核心技术控制大数据环境风险核心技术控制的本质在于提高网络安全技术管理效益,解决网络风险评估技术应用难题,并确保网络风险评估技术应用符合网络安全管理需求,从规范化的角度对网络风险评估技术进行优化,从传统的基础性网络风险评估向数据化及信息化网络信息风险评估迈进,逐步提高网络风险评估在网络安全管理方面的实际重要性,保障网络风险评估技术应用的综合效益,帮助网络风险评估用户实现网络安全管理的实时对接,进而使网络环境风险评估工作能够在现有网络安全管理环境下得到科学化运用,为未来阶段网络安全发展提供有效的网络风险评估技术支持。
4结语
综上所述,大数据网络风险评估技术应用需要结合现有的网络发展环境、网络管理环境及网络安全控制内容等做好综合性优化,逐步改变既定的网络风险评估概念,随着网络市场环境及管理环境的变化,对现行的网络风险评估工作做好深度完善,并不断进行网络风险评估技术应用探索,在技术探索过程中进行技术优化与改进,以此为未来阶段我国信息化网络的安全发展创设有利的网络风险评估环境。
参考文献:
5.重庆市大数据管理局 篇五
【摘要】近年来随着人类生活全面向互联网转移,迎来了大数据时代。从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。本文针对基于高职院校教学督导共享平台大数据进行分析研究,通过大数据分析提供有价值的决定性因素,提高高职院校教育教学质量。
【关键词】大数据 数据分析 高职院校 教学督导
【中图分类号】G71 【文献标识码】A 【文章编号】2095-3089(2016)04-0032-02
1.引言
近年来互联网的高速发展引领人类进入了一个信息量爆炸性增长的时代,教育大数据时代将会不可避免的到来。大数据的运用,为教育改革和发展,尤其是高职院校教学督导的开展,提供了更为科学的依据。通过运用大数据技术,对海量数据的快速收集与挖掘、及时研判与共享,积累过去、分析现在、预测未来,推动教学督导决策制定更加科学。通过运用大数据思维,创新教学督导方式,可改变教学督导手段单
一、教学督导效率低下、对被督导教师造成不必要的负担等现状,推动教学督导手段更加丰富。充分运用信息技术对教学督导报告的项目、结果进行整合分析,形成客观全面、更具说服力的教学督导结果大数据,准确判断各个系部在履行教学职责和提高教育质量方面存在的真实问题,实现有效问责,增强教学督导结果使用的权威性和准确性。
2.数据统计与对比分析
数据来源是基于高职院校教学督导共享平台数据,先进行了数据采集、数据导入和预处理,下面对9月-12月进行数据统计和对比分析。
(1)课堂教学总体评价汇总对比分析
课堂教学总体评价结果为:“优秀”9月为29.5%,12月为25.7%;“良好”9月为63.2%,12月为69.9%;“中等”9月为6.8%,12月为4.4%;“差等”9月为1.1%,12月下降到0.0%。9月份与12月份数据相比较:课堂教学质量评为优秀的教师人数百分比下降了3.8%,评为良好的教师人数百分比提高了6.7%,评为中等的教师人数百分比降低了2.4%,得差的人12月份没有。
(2)分项评价
①教学态度评价
在教学态度评价方面:“优秀”9月、11月有所降低,因为9月为刚刚开学,老师教学准备不充分,有些老师和学生还没有把心收回来,11月为学院开运动会,老师精力有所分散,加之学校检查没有跟上;10月、12月优秀有所提高,这说明教师在遵守教学纪律、备课、教学认真、课堂组织、课堂纪律等方面都有所提高,同时学院也加大了检查力度;“中”4个月没有;“差”只有1位老师,督导组与本人进行了交流。
②教学内容评价
在教学内容评价方面:“优秀”9月最好,10月份比较低,11月、12优秀的两个月基本持平;10月良好增加了4.2%左右;“中等”9-12月分别是3.2%、1.0%、2.0%和1.8%;“差等”9-12月分别是1.1%、1.0%、1.0%和1.8%。这说明大部分老师在教学内容的把握上,能较好得做到概念清楚,定义准确,授课重点突出,对问题的阐述深入浅出,难点、疑点内容讲解清楚;大多数老师能够理论联系实际,充实教材内容;还有一些年轻教师重难点内容把握不准,理论联系实际不够。
③教学方法评价
在教学方法方面:10月比9月“优秀”减少了14.0%,11月初教务处有针对召开全体老师大会,希望老师上课时能够因材施教,在教学方法、师生互动方面要加强,11、12月有所提高;“良好”
10、12月最好,9月最低;“中等”10月为3.1%、12月为4.4%,教学方法掌控最好的月;得差的4个月份平均为0.4%属于正常。总体评价:大部分老师上课时能够因材施教,在教学方法、师生互动方面有所提高。“优秀”减少了说明在突出学生为中心方面还要下功夫。
④教学能力评价
在教学能力方面: 10月份“优秀”比9月增加了18.2%,11、12月基本持平;“良好”10月比9月减少了16%,11、12月基本持平;得差的9月为2.1%,11月为1.0%。说明大多数老师在教学基本功、语言,普通、感染力、驾驭课堂等方面都有所提高。
⑤教学效果评价
在教学效果方面: 9月“优秀”最高,10月最低;“良好”
10、12月分别为75.0%、72.6%最高点;“中等”10月、12月为4.2%最低;“差”的9月为2.1%、10月1.0%。得优秀减少说明有部分老师与学生互动不好、PPT做得不好(图片太少、文字太多),学生学习兴趣不高,思维不活跃,效果就不好。
3.小结
通过对教学督导共享平台大数据分析,提高教学督导决策的前瞻性和科学决策,增强教学督导机制的科学性是当务之急。大数据背景下,充分利用大数据创新教育督导理念与制度。因此教学督导必须运用大数据创新工作理念、推动教学督导适应信息时代形势,进一步强化“用数据说话”的思维习惯和工作理念。同时,要从制度框架方面推动督导大数据平台的建设,建立数据库资源的共享和开放利用机制。应充分运用信息技术对各类教学督导报告的项目、结果进行整合分析,形成客观全面、更具说服力的教学督导结果大数据。
参考文献:
[1]何秀超.《人民日报》2015年7月16日17-19版.[2]张荣.高校教学督导信息化工作系统设计与应用研究[D].《宁波大学》2014.7.[3]石秀英,许法文.大数据时代背景下高校学生评教变革[J].《黑龙江高教研究》2015.08:57-60.作者简介:
6.重庆市大数据管理局 篇六
毕数领办函〔2018〕6号
毕节市大数据发展领导小组办公室关于 调度支撑固定资产投资大数据项目情况的通知
各县(自治县、区)政府(管委会),市直各部门:
为切实加强大数据项目固定投资调度工作,根据市政府安排,现将调度支撑固定资产投资大数据项目情况有关事宜通知如下:
一、调度范围。主要对各级各部门大数据在建、新开工项目实施情况进行调度,其中,各县(区)要统筹负责辖区内各部门及软件和信息技术服务业企业的大数据项目调度工作。
二、加强调度。由市大数据发展办对各级各部门报送的大数据项目进行初步筛选后,统一按照《毕节市人民政府办公室关于规范大数据产业及数字经济运行调度工作的通知》(毕府办函〔2018〕48号)要求,将审核通过的大数据项目纳入调度范围,实行一月一调度。
三、落实责任。各级各部门要明确机构和责任人,按要求认真填报2018年毕节市支撑固定资产投资大数据项目建设情况调
度表(详见附件),经单位主要领导(县区分管副县长)签字盖章后于每月10日前将建设情况反馈至市大数据发展办。同时,第一次项目情况表请于2018年7月2前通过毕节办公网反馈至市大数据发展领导小组办公室(联系人:李洪,联系电话:8223349)。
附件:2018年毕节市支撑固定资产投资大数据项目建设情况调度表
毕节市大数据发展领导小组办公室 毕节市大数据发展办公室(代章)
7.重庆市大数据管理局 篇七
2012 年, 联合国发布的《大数据促发展: 挑战与机遇》一文中, 宣告大数据时代已经来临, 欧美国家已陆续制定与大数据有关的发展战略, 大数据作为国家重要资源, 成为国际竞争中的重要方面。在我国, 各行各业关于大数据的研究也在不断加快, 推进了大数据技术的发展和研究。
2015 是中国经济进入新常态的一年, 城镇化响应新常态的发展趋势, 提出了由增量规划转向存量规划的号召。存量规划涉及到城市的旧城改造, 历史文化街区是旧城重要的组成部分。历史文化街区的改造不仅是城市历史肌理的再现, 还应该是城市传统生活的延续, 满足现代人的生活需求。目前, 由于基础资料收集和管理缺少有效的途径, 缺少对社会生活方面的科学分析, 造成改造过后的历史文化街区缺乏生活气息。大数据的发展使得获取大量社会活动数据成为可能, 可以很好的指导历史文化街区的建设。由此可见, 大数据为历史文化街区改造提供更广泛的数据源, 通过总结大数据指导下历史文化街区在改造中的应用, 探讨大数据在历史文化街区改造中的促进作用。
1 大数据为历史文化街区改造提供信息支持
1. 1 大数据的内涵
大数据概念的提出可以追溯到20 世纪90 年代。随着互联网、移动设备、物联网等快速崛起, 数据量年年倍增。维克托迈尔-舍恩伯格教授所著的《大数据时代》一书中介绍了大数据的三个特点: 以整体分析代替样本分析、以效率代替精细、以相关关系代替因果关系。IDC在2011 年的报告中用“4Vs” ( 容量、多样性、速度、价值) 对大数据进行诠释。
1. 2 历史文化街区的内涵
历史文化街区的概念首次提出是在1933 年由国际建筑协会制定的《雅典宪章》中, 宪章提出有历史价值的古建筑均应妥善保存, 不可加以破坏。历史文化街区的保护经历了由点到面的保护过程, 从强调单体建筑的保护延伸至其周围环境的保护。
较发达国家来说, 我国历史文化街区的保护工作起步较晚。1985 年建设部提出了历史传统街区的概念, 特指文物古迹较为集中, 或能较完全体现某一历史时期的传统风貌和地方特色的街区。2002 年通过的《中华人民共和国文物保护法》正式采用了历史文化街区的概念。
1. 3 历史文化街区改造必须以大数据为支持
1) 大数据完善历史文化街区改造所需的基础资料。
历史文化街区是城市的有机组成部分, 建筑、院落、街巷、活动均能体现出城市历史特色。然而, 因各种利用目标、操作观念、技术水准等参差不一, 造成了我国在历史文化街区改造中基础资料不全面, 在对基础资料的分析上多偏于感性分析, 缺少理性分析的指导。历史文化街区改造需要同时兼顾城市风貌特色和社会生活的延续, 城市风貌特色体现在街巷肌理、建筑风格, 社会生活体现在片区的生活需求和社交需求。大数据带来了研究微观数据的新理念, 在现有的基础资料调查上增加对人、车等城市活动要素的感知, 对社会生活发展进行分析, 使历史文化街区在改造过程中保持原有的社会活动。在大数据技术支撑下, 在传统数据源的基础上增加了互联网数据源和感知系统数据源 ( 见表1) 。
2) 大数据加强历史文化街区的动态管理。
传统的规划立足于图纸表达, 体现为规划者对未来几十年后的规划愿景, 是一种静态的终极状态, 缺少规划的连续性和动态监控。
大数据的出现在很大程度上改变了这一状态。在过去一段时期内, 历史文化街区的改造中通过数据库的更新和动态监控, 根据人的活动地点和消费需求调整商业点设置, 根据网络舆论数据侧面了解历史文化街区改造的进程, 及时掌握改造过程中出现的偏颇。
3) 大数据开启了历史文化街区改造公众参与新模式。
由于我国体制问题, 在规划改造项目上总是以政府为主导, 公众缺少表达自己意愿的平台。大数据使基础数据的获取不仅仅局限在传统的收集方式上, 基于个人微观数据的研究使得规划改造具有一定的公众性。通过对路口交通状况的研究, 掌握出行特点, 以人、车等城市活动主体为分析的一部分; 通过网络平台、社交软件平台等实现成果展示和互动交流, 利用这些平台有助于政府收集公众意见, 对历史文化街区的改造工作进行查漏补缺。
2 大数据在历史文化街区改造中的应用
2. 1 以基础数据的获取为基础
基础数据主要分为图形数据、属性数据和图像数据三种。
1) 图形数据的获取。
图形数据一般能通过地形图直观表现出来。主要分为街巷肌理、房屋、绿化、土地利用等; 通过CAD对地形图进行数字化工作, 获取各要素的图形数量数据, 后期可利用GIS对数字化的数据进行编辑, 拓扑关系的生成和集合坐标的转换。
2) 属性数据的获取。
包括房屋产权、色彩、年代等信息, 一般来说该种类型的数据通过实地调查、走访相关部门来获取, 多为静态数据, 大数据技术可通过网站数据、运营商数据分析得出人群主要聚集点、实时人流走向等动态数据, 加大了对社会活动方面数据的获取。如利用大众点评等网站的点评数据, 分析得出片区人气较高的商业点。
3) 多媒体数据的获取。
多媒体数据包括图片、音频和视频三种。一般通过数码相机拍摄、网络下载等方式获取, 以图片居多, 采用JPG图像格式保存。
2. 2 运用大数据进行空间分析
1) 公共服务设施布局分析。
历史文化街区保护规划中需要规划布置一些基本的基础设施, 如停车场等, 一般与人的活动范围有关。通过统计数据和问卷调查可以得出活动点, 通过社交媒体定位分析、移动设备定位等大数据手段结合公交站点分析区域活力, 应用GIS分析历史文化街区现状公共设施分布状况是否合理, 为后续历史文化街区的公共设施空间布局规划提供科学依据。
2) 交通流线的引导。
交通问题基本是每个城市都患有的城市病, 尤其是历史文化街区大多位于城市的中心区域, 交通负荷大, 容易造成交通拥堵, 从而影响历史文化街区的空间质量。在大数据时代下, 百度路况图等数据开放平台为研究城市交通提供了更宏观的信息。
作者通过全天对南宁市历史文化街区道路交通流的研究发现, 街区位于南宁市交通流最大的区域, 从早上8 时起到晚上22时, 都会有道路发生交通拥堵, 是整个南宁市交通流最密集的区域, 研究发现, 机动车交通是造成该区域交通拥堵的主要因素, 在后期中应注意对机动车交通进行疏导, 根据分析对一些道路进行潮汐车道的设置。历史街区道路交通状况统计见图1。
3) 城市管理的监控。
通过GPS、移动设备信号等对交通流进行监控, 可以及时了解交通流向, 对一些可能产生大量交通流的区域提前进行疏导和控制。对一些人流可能大量聚集的地点提前准备安全措施, 以免发生意外。
4) 运用大数据技术的局限性。
大数据的出现给历史文化街区的更新带来了更多流动性数据, 通过对建筑、地块、商业活动热度等因素综合分析, 构建一个具有活力的数据库。但是当前网络数据的信息量大而杂乱, 一般情况下对这些数据的收集分析比较困难, 并且对网络数据的可靠性论证没有相应的方法体系, 导致分析结果可能出现偏差。
其次, 当前大数据的应用与规划是近几年才兴起的, 与一些大量数据持有者之间的合作关系并没有很好的形成, 出现了物不尽其用的现象, 并且大数据应用于历史文化街区的深度和广度还有待深入。
3 结语
在大数据时代, 历史文化街区的改造面临着新的机遇:
1) 大数据的出现增加了基础资料的数量和种类, 同时动态、微观数据增加。
2) 模型分析与数据分析相结合增加了决策的科学依据。
然而, 大数据也给我们带来了挑战:
1) 超大规模的数据需要功能更强大的数据库对多源数据进行处理与储存。
2) 如何将模型分析与数据分析两种方法相结合成为数据应用的关键。
参考文献
[1]胡明星, 董卫.GIS技术在历史文化街区保护规划中的应用研究[J].建筑学报, 2004 (12) :63-65.
[2]胡明星, 董卫.基于GIS的古村落保护管理信息系统[J].武汉大学学报, 2003, 36 (3) :53-56.
[3]许业和, 董卫.基于GIS的历史文化街区规划设计方法初探[J].华中建筑, 2005, 2 (23) :86-88.
[4]胡明星, 金超.基于GIS技术在南京历史文化名城保护规划中划定历史文化街区的应用[J].建筑与文化, 2010 (7) :106-107.
[5]吴国强, 张乐益.历史文化街区调查方法初探[J].东南大学学报 (哲学社会科学版) , 2006 (8) :171-173.
[6]李苗裔, 王鹏.数据驱动的城市规划新技术:从GIS到大数据[J].UPI, 2014, 29 (6) :58-65.
[7]吴一洲, 陈前虎.大数据时代城乡规划决策理念及应用途径[J].规划师论坛, 2014, 8 (30) :12-18.
[8]黄晓春, 龙瀛.基于大数据开展规划决策支持的技术方法探讨[Z].2014.
[9]甄峰, 秦萧.大数据在智慧城市研究与规划中的应用[J].UPI, 2014, 29 (6) :44-50.
8.大数据理念与图书馆大数据 篇八
关键词图书馆大数据数据挖掘数据处理知识服务
分类号G250.76
Big Data Notion and Library Big Data
Li Tian
AbstractThe key of Library reform lies in the innovative ideas above the technical support. The focus on big data not only makes people realize the significance of the data itself, but more importantly, provides a new way of thinking, that is the big data notion of finding data, analyzing resources with the angle of data, and mining new value of data. Digitization work of the library in long term has accumulated and continuously generated a large number of data, including collection knowledge data, bibliographic data, user data and job data. Utilization of these data can not only promote the development of knowledge service, but also play an important role in the big data research and the innovation of library work.
KeywordsLibrary big data. Data mining. Data processing. Knowledge service.
1大数据和大数据理念
1.1数据到大数据的演变
其实,数据的存在由来已久,人类自从诞生以来就在源源不断地创造着数据,各行各业的发展都离不开对数据的处理,当数据量增长到一定程度就形成了海量数据(达到TB级别的数据),但一般认为海量数据还不足以称作“大数据”[1]。在飞速发展的数字信息环境中,数据成本的下降促使数据量急剧增长至PB级别(1024TB)甚至更多,根据IDC作出的估测,预计到2020年,全球将总共拥有35亿GB的数据量[2];数据类型除了结构化数据外,还有半结构化数据和非结构化数据,而且有调查发现,85%的数据属于广泛存在于社交网络、物联网、电子商务之中的非结构化数据,这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术应用的不断涌现[3]。
事实上,在“大数据”这个概念产生以前,一些商家就已经发现了大规模数据的价值。早在20世纪70年代末,沃尔玛公司就开始通过挖掘数据来改善自己的供应链,陆续采用了条形码扫描系统和公司内部卫星系统,使得总分部之间可以实现实时、双向的数据和声音传输,在此基础上于2007年建立了一个超大的数据中心,其存储能力高达4PB以上[3]。通过对数据中心内消费者的购物行为等非结构化数据进行分析,沃尔玛成为了最了解顾客购物习惯的零售商,并创造了“啤酒与尿布”的经典商业案例[4]。同样,在医疗、交通、电信、城市管理等其他领域,移动终端、社交网络的全民化应用以及信息化程度的提高,也使数据有了巨大的应用空间。也就是说,大数据是伴随着信息技术和数字信息环境的发展,信息量呈指数级增长、数据类型及数据结构的日趋复杂化的情况下产生的。
对于大数据的定义目前还没有明确的界定,得到公认的是大数据的“4V”特性,即容量(Volume)、速度(Velocity)、价值(Value)和类型(Variety)。其中容量(Volume)指收集和分析的数据量巨大;速度(velocity)指数据处理速度要足够快;价值(Value)指数据中蕴含着潜在的价值转化;类型(variety)指数据类型多样复杂。所以,有人总结大数据是“海量数据+复杂类型”的数据,包括分析、带宽、内容三个要素,其核心因素是蕴含价值[5]。
1.2大数据理念
大数据的广泛存在已经得到从企业界与政府层面越来越多的重视,人们看到了其中隐藏的价值和非同寻常的机会,但大数据只有在数据、技术、思维三个条件同时具备时才会发挥它的价值。谷歌的首席经济学家哈尔·范里安(Hal Varian)说“数据非常之多而且具有战略重要性,但真正缺少的是从数据中提取价值的能力”[6],这种能力除了技术能力外,也包括运用大数据的思维能力,随着计算机业的发展,技术上的困难终将被克服,大数据能否发挥作用,最终取决于分析数据的思维能力。而且,大数据概念的出现本身就给人们提供了一个思维方式,即可以从很多看似平常的数据或资源中挖掘有用的信息,通过对海量数据的分析,获得更多有价值的产品和服务。从这个意义上说,大数据不仅是一种资源,更是一种理念,其最大的价值不是数据本身,而是通过对数据的分析来改善和提高工作质量和水平,这就是大数据理念,其具体内涵有以下几方面。
(1)从数据的视角分析问题。大数据是复杂类型的数据,这里的复杂可以是结构上的,也可以是形式上的,包括结构化、半结构化和非结构化的数字、文字、图片、声音、影像等一切存在形式都可以作为数据进行分析和研究。如谷歌对翻译功能的改进,就是将互联网上的语言视为能够判别可能性的数据,而不是语言本身,甚至它所发布的上万亿语料库囊括了互联网上的很多废弃内容和错误的数据,依此推算出英语词汇搭配在一起的可能性。
(2)重视数据整体。一般认为只有当数据规模达到一定程度才算得上大数据,但有些情况下,小规模的数据也能帮助人们发现问题和解决问题,那么它便也具备了大数据的意义。其实,这里的“大”只是相对意义上的,它更强调数据的整体,而非部分或样本。尽可能多地掌握所有数据,这是大数据与一般数据的区别之一,只是数据规模越大,越有可能准确地考察细节和全面地分析问题。
(3)从数据中寻找关联关系。即从大量的数据流中发现异常,通过寻找数据之间、数据与其他事物的关联关系发现事物发展的规律和预测趋势。大数据的核心就是“建立在相关关系分析法基础上的预测”[7],亚马逊的个性化推荐系统就是通过分析大量的用户浏览记录和购买记录的关联关系,预测用户的需求和兴趣点,从而有针对性地推荐相关产品。
2大数据理念下的图书馆“大数据”
图书馆在长期的工作中积累了大量数据,虽然在规模和数据处理速度上远未达到大数据的标准,但在图书馆变革和向知识服务转型的实践中仍有很高的利用价值,它们就是图书馆的“大数据”。运用大数据理念,我们有必要充分挖掘图书馆“大数据”的价值来拓展工作和服务方向。
2.1馆藏知识数据——文献信息服务到知识服务
图书馆最大的优势就是拥有大量包括纸质资源、电子资源、网络资源、图片、音频、视频等各种内容和载体形式的馆藏资源,这是图书馆开展服务工作的基础。但根据帕累托定律,用户主动获取的、利用率较高的资源主要集中于20%的馆藏资源上,即图书馆的大部分馆藏资源没有物尽其用,而且随着人们获取知识的方式和途径日益网络化,越来越多的图书馆资源处于闲置状态。产生这个问题的根源是传统的图书馆服务是被动式的文献提供,而人们需要的是能快速高效地获取具体的知识,现代图书馆应该更多地侧重于发展“在复杂创新需求下的知识组织、知识集成、知识融汇、知识发现、知识创造”[8]的知识服务。毫无疑问,知识正是图书馆的主体资源,用大数据思维看,图书馆的馆藏实质是知识数据的集合。相对于零散、无序的网络资源,图书馆馆藏资源已经通过科学的方法和特定的标识符(分类号、主题词)进行了初步的整序,形成了一个个有序的知识块,但知识服务不仅是对知识存储的整序,更是基于知识内容的融合分析与归纳,即通过分析各种知识因子及相互之间隐含的关联关系,从中找出与用户需求相匹配的知识。因此,开展知识服务的关键环节是从馆藏知识数据集中寻找关联,揭示规律或发现新知识。但目前知识服务仍限于口号,缺乏实质性的转变,除了图书馆在认识上对知识服务缺乏理解外,在实践中也没有从“大”图书馆资源观和数据的角度对馆藏资源进行分析和处理,这使得知识挖掘与整合的力度远远不够。随着信息技术的发展,包括电子图书、电子期刊、数据库、音视频资源、网络资源在内的图书馆数字资源也在急速增长并占据了相当大的比例,这将为图书馆运用大数据技术和大数据理念进行知识挖掘提供了便利条件。
2.2书目数据——开放、共享、关联
上世纪90年代初,美国就通过启动“完全、开放、无偿”的科学数据共享计划[9]鼓励民众把数据流动过程中和数据应用过程中的各种价值充分挖掘出来,既提高了科学数据的利用率,又为人们发挥才华创造了良好环境,并促进了整个社会的经济发展。
书目数据,作为图书馆界的科学数据,是海量的、高度规范的结构化数据,图书馆每年投入大量人力物力建设的这些数据却长期以来处于非常闭塞的环境中,未能充分发挥其潜在价值。2010年,大英图书馆宣布向研究人员和其他图书馆免费提供书目数据,让用户超越传统图书馆的局限开发和利用这一重要的国际资源[10];2012年,哈佛大学图书馆也向公众开放了涵盖73所分馆的1 200万书目记录,希望以此来促进世界范围书目数据的开放以及对新型应用性产品的研发,正如哈佛大学图书馆实验室的副主任David Weinberger所说“这就是书的大数据”[11]。书目数据不仅用于检索,还可以发挥更多的价值,如大英图书馆提供给知识产权办公室(IPO)的八百万条书目记录,用于1650年以来出版行业的动态研究,并从中揭示出反对知识产权立法进程的种种模式。
与此同时,书目数据的关联化研究则成为书目大数据的另一开发领域。书目数据的关联化是指“使用URI作为书目记录的名称,通过使用HTTP、URI,可以定位到书目记录,并且通过相关的URI链接发现更多的对象”[12],包括书目记录的关联和书目数据的关联。前者是从一条书目记录链接到其他书目记录,在有相似或相关特征的书目或不同载体形态的资源之间建立关联;后者则首先将书目记录分解为书目数据(记录书目信息的最小独立单元,包括题名、责任者、主题词等),再将每一条书目数据作为独立资源建立URI链接,如责任者可链接到责任者个人信息、职业、其他著作、相关其他责任者。通过书目关联使用户不仅能更深入全面地了解馆藏,还能进行扩展查询和知识发现,实现多类型知识内容的整合和集成,也可从社会网络反向链接到图书馆馆藏信息,吸引更多的用户群,由此便会产生大量的书目关联数据,或者说书目关联的“大数据”。
以大数据理念处理书目数据,还可以促使我们进一步思考如何编制书目记录,以便于向关联数据转化,例如最早将书目数据发布成关联数据的瑞典联合目录(LIBRIS)所使用的词汇表就是包含了元数据、书目本体和简单知识组织系统的综合体,而并不局限于图书馆领域[13]。随着越来越多的图书馆开放书目数据和发布关联数据,书目大数据的开发利用存在着广阔的发展前景。
2.3用户数据——以用户需求为导向
由于长期受“以文献资源为中心”的思想束缚,图书馆一直将工作重心放在自身建设与技术开发应用等方面,忽视了对用户需求的分析。知识服务是基于用户需求的服务,需要从用户类型、群体特征、年龄、职业等各方面对用户的需求状态、特点、信息心理、行为及信息利用过程和效果等展开研究,这样才能针对不同的用户提供相应的知识信息,取得最佳服务效果[14]。因此,用户资源已成为现代图书馆最重要的战略资源之一,对用户数据的管理和研究则成为图书馆提高服务水平的关键问题。
图书馆获取的用户数据有两种,一种是传统的问卷调查数据,一种是用户使用图书馆服务系统所产生的交互数据。前者是目前用户研究的主要途径,但这种方法存在一定的弊端,如效率低、样本数量有限,调查效果取决于调查问卷的设计是否合理、是否充分准确地表达了调查者的意图、调查结果又是否充分反映了用户意见、被调查者的态度是否真诚等各种因素,使调查结果存在误差或无法充分表达用户的真实想法和具体需求,事实上,用户有时很难准确地表达自身需求;而交互数据是用户在使用图书馆的过程中所产生的自然数据,包括读者信息、访问数据(访问时间、路径、相关链接)、借阅信息、咨询信息、检索数据、下载数据,甚至RFID射频数据等,它们是直观、客观、实时和动态变化的,能迅速反映出用户需求的变化趋势,关注和分析这些数据,可了解和揣摩用户的心理和习惯,并根据变化及时调整服务策略,快速满足读者需求。但在实际中,图书馆对这部分数据的利用还远远不够。
大数据理念就是利用全部数据,没有偏见地关注更多的细节,从不同的角度更细致入微地观察和研究数据的方方面面。图书馆可以从读者访问路径中了解读者的阅读倾向;根据读者常用的检索方式改进检索系统;从检索结果为“0”的数据中发现资源购买漏洞。大数据可以帮助人们从数据之间的关联关系中分析某一现象产生的原因,例如:为什么图书馆的利用率越来越低?通过数据则只需关注图书馆在资源供给和服务上出现了什么问题;当学科馆员因遭受冷遇对自己的价值产生怀疑时,可以通过图书馆网页上“学科馆员”的访问数据了解究竟有多少人关注学科馆员,从访问数据和咨询数据的对比中,分析用户是根本对学科馆员不感兴趣,还是对学科馆员的服务不满意。
很多时候,大数据正是把研究者的视角从表面延伸到真实的内核,更客观准确地洞察用户,不仅及时发现问题,还能发展受用户欢迎的新业务和新功能。
2.4工作数据——利用数据提升工作效率
工作效率受工作理念、工作制度、工作模式、技术效率等多方面因素的影响,依赖于管理者在掌握现有工作数据的基础上对资源的合理调配。图书馆工作的自动化和数字化在技术上提高工作效率的同时,也产生了大量使管理者可以掌握工作人员及业务处理的相关数据。
(1)流通数据。包括读者到馆的时间、次数、到馆率、文献借阅率、借阅记录、流通率等,这些数据一方面能反映读者利用图书馆的情况,另一方面能客观反映读者阅读倾向、及时了解读者需求的变化和各类图书的供求状况。对流通数据的分析可作为图书采购和馆藏建设的依据,从而利用好购书经费,有效合理地补充藏书,有针对性地改善文献服务,开展文化阅读活动。
(2)采访数据。采访工作是图书馆资源建设的基础,其过程中产生的大量包括书商提供的书目数据、订购数据、入藏数据、到馆周期、到馆率、入藏利用率等采访数据,如果加以充分利用将在很大程度上影响着后来的采访工作,也是图书馆用户考察图书馆供货商(又称“书商”)的重要依据。可以说,采访数据是采访工作研究的着眼点,不仅能为图书馆的管理者和决策者提供经费预算的执行情况,评估采访计划及合理性,预测资源建设及经费支出发展趋势,还能了解各学科资源建设状况、不同载体文献占用资金的比例,从而制定图书馆资源建设发展方向和最佳采购方案,尽最大努力满足全校师生的学习、教学和科研需求。
(3)编目数据。除了指书目数据外,还包括编目工作相关数据,尤其当编目大量外包以后,对外包编目员的管理和书目数据的质量控制就成了编目工作的重点。外包编目员的个人信息、工作经历、业绩、流动更替等数据可帮助图书馆根据需要考察和选择合适的编目员;编目数据来源、审核记录、出错率、错误类型等数据能帮助领导者分析和评估外包工作的质量和效率,从而制定科学合理的人员管理和质量控制策略。
(4)咨询数据。互联网和通讯技术的发展使图书馆的参考咨询工作呈现出形式多样化的局面,FAQ、BBS、电子邮件咨询、IM咨询、社交网络(微博、博客) 咨询等产生了大量非结构化的咨询记录,有的图书馆还开发了咨询管理信息系统[15],通过记录和统计功能形成了结构化的咨询数据。无论是非结构化的咨询记录还是结构化的咨询数据,从大数据的视角去思考和分析,对研究用户、评估咨询质量和效果、开发咨询新业务等方面都大有裨益。
3结语
图书馆变革的目标就是为了适应在信息量不断增长的情况下更好地满足人们获取有效信息和知识的需求。当人们抱怨信息过量,需要借助一些媒介从海量的信息中筛选出有用信息甚至直接获取知识时,正是图书馆发挥作用的时候,但服务水平仍亟待提升。毫无疑问,大数据为图书馆提供了新的视角,不仅更细致准确地洞察用户,而且能更深入地剖析业务工作,引导图书馆向更人性化、专业化的层面发展。即使目前还无法预测大数据在实际工作中将会产生何种具体效用,但其独特的魅力和理念将吸引研究者们进行更多的探索。
参考文献:
[ 1 ]樊伟红,李晨晖,张兴旺,等.图书馆需要怎样的“大数据”[J].图书馆杂志,2012(11):63-68.
[ 2 ]云计算环境下大数据及其智能处理技术[EB/OL].[2013
-07-12].http://wenku.baidu.com/view/b20357b065ce0
50876321384.html.
[ 3 ]大数据蓝海[EB/OL].[2013-07-12].http://content.busi-
nessvalue.com.cn/post/6687.html.
[ 4 ]啤酒与尿布[EB/OL].[2013-08-30].http://baike.baidu.
com/view/1978239.htm.
[ 5 ][英]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013:176,75.
[ 8 ]李麟,初景利.国外文献信息服务机构知识服务实践研究[J].图书情报工作,2012(15):5-8.
[ 9 ]数据开放与国家振兴[J].科技成果纵横.2002(4):4-15.
[10]大英图书馆宣布开放数据服务[EB/OL].[2013-10-12].http://www.nlc.gov.cn/newtsgj/gtqk/tyck/2010nzml/120/120dt/201012/t20101202_23991.htm.
[11]Andrey Watters.Strata Week:Harvard Library releases big data for its books[EB/OL].[2013-07-24].http//strata.oreilly.com/2012/04/harvard-book-data-cloudera-hadoop-splunk-ipo.html.
[12]张海玲.图书馆书目数据的关联数据化研究[J].图书馆论坛,2013(1):120-125.
[13]杜敏.图书馆书目数据关联化浅议[J].科技信息,2013(6):204.
[14]杜也力.知识服务模式与创新[M].北京:北京图书馆出版社,2005:96.
[15]宋洁,张敏.大学图书馆参考咨询服务数据的管理和利用实践[J].农业图书情报学刊,2011(6):186-189.
李 恬北京工业大学图书馆馆员。北京,100022。
【重庆市大数据管理局】推荐阅读:
重庆市防御雷电灾害管理办法08-11
重庆市乡镇自用船舶安全管理规定08-26
重庆市出租汽车客运管理暂行办法10-06
重庆市高层建筑消防安全管理规定08-08
重庆市江南职业学校学籍管理规定09-04
重庆市永川区科技计划项目管理办法06-23