大数据关键技术

2024-11-10

大数据关键技术(精选8篇)

1.大数据关键技术 篇一

摘 要:本文基于当前发展趋势,从众包软件服务工程技术、软件服务公正和群体软件工程技术、密集型数据科研第四范式技术、计算机信息处理技术四个方面对大数据时代下软件工程关键技术进行了探讨,希望为广大读者提供有价值的建议。

关键词:大数据时代;信息处理技术;群体软件工程;密集型数据

引言:互联网技术的兴起和计算机科学技术的革命为社会打来了新颖的技术:大数据。从此人们的生活方式和生活理念发生了翻天覆地的变化。以下是对大数据时代下软件工程关键技术的讨论。

一、众包软件服务工程技术

第一,众包软件服务的创新发展形态。众包软件服务工程在国际上重视密集的数据处理,尤其是在线服务过程中产生的数据。如何将这些密集数据进行分析和评价是当前软件工程师所要研究的重点内容。需要从服务方到服务的开发方和运营平台管理方。这些流程中充满了离线密集型数据和在线流量数据。众包用户的在线数据可达到PB级别,在线沟通的数据可以达到TB级别。直接推送的这些密集数据对软件服务有着重要的影响。第二,开发和生产运营管理。密集型数据本身对它们的动态分布形式和价值隐藏等都是大数据的原始形式。从根本上来说缺乏内容含义和语义化单位矢量。要想在研究中有所创新,就需要将思维和研究方法当作研究主体。大数据所在的主体兼具制造并传播密集型数据的功能以及负责消费者和群体运营的功能。将群体的智慧进行汇集形成专业化的知识。并及时处理相应的信息同时进行软件工程的推送。

二、软件服务功能和群体软件工程技术

面向服务的软件工程发展越来越迅速,它以服务为建设目标再具体的实践应用过程中需要面对具体的需求进行相应的调整。维护软件工程主要可以借助虚拟化管理手段。这种手段既可以对软件进行虚拟化使得操作性得到一定的强化,同时又能解决分布和动态变化等问题。同时,该技术也在云计算和大数据等领域应用广泛。软件工程师可以通过网络进行数据共享和学术交流,并进行软件的合作开发计划,结合用户的数据和反馈信息设计出满足用户需求的、性价比高的软件系统。现在的软件开发系统中比较成功的是开源软件,也是学术研究的重点。遗憾的是现在的常规研究方法没能取得突破性的.进展,部分学者尝试用社会网络进行数据分析,并取得了一定的收效。同时开发组成员中外围开发的人员相对较多,模块化的特点较为突出。而且群体软件工程的发展趋势越来越明显,更多的提倡众包形式的开发,因此,众包可以解决大多题。

三、密集型数据科研第四范式技术

数据密集型科研第四范式在首次提出,它表明在进行数据的研究整理时,需要建立一定的理论和研究方法,重视大数据储存应用的重要性。在实践中对传统的第一、二、三范式研究方法的缺陷进行了分析和改进。认为绝大多数的软件没有能在短时间进行有效存储的能力。我国在在对大数据进行研究时发现,不应仅仅局限于计算机的模拟系统,需要加入第四范式来进行对数据的分析。这是由于密集型的数据所要求的研究方法和以往有显著区别。需要在研究方法和思维方式进行一定的改变。因此要建立科学的第四范式,建立完整有效的体系后在转变为第三范式。同时,在对第四范式进行建设的过程中,首先需要对大数据的软件服务价值进行彻底的分析,此时要避免采取原有的分析方式。要从数据和模型的过程变为数据、知识、价值服务的第四范式[1]。

四、计算机信息处理技术

大数据的特点是结构复杂和容量大。在大数据时代下,它比传统的数据形式相比,能更好的联系不同的数据。这些关联的结构特点让计算机信息处理技术难以发挥预期效果。计算机网络由于建立在硬件基础上所以具备着一定的局限性。对互联网的发展造成了一定的制约。所以,这需要相关人员进行技术的更新和对计算机网络架构的创新,从而实现大数据的有效处理。计算机网络需要研究更加开放式的网络传输功能和结构,这要求把计算机的网络处理系统和硬件分离,然后定义特定的网络结构,推动软件朝向更完善的方向发展。

五、计算机软件技术在发展过程中的应用情况

很多企业利用计算软件实现各种功能,除了基本的客户信息资料获取之外,还要对企业工作风险进行分析和评估,统计公司工作人员的流动性问题。在大数据时代下,企业数据开发要经过一个较为复杂的过程。第一,抽样,所谓抽样就是在公司想有的产品中选取出代表性的产品作为样本;第二,开发,开发就是要求公司对相应的数据进行导入、选择、合并等需一系列的处理步骤;第三,修改,修改就是指在数据开发的基础上,对数据进行有效的的选择和创建,保证数据的合理性,需要注意的是,在修改过程中不能够排除产品的编码和变量等内容。第四,模型,模型的主要作用在于对企业决策进行预测,根据具体的数据设计形成不同的模型,保证预测结果科学准确,验证企业决策、方案的可行性。第五,评定,就是将其和模型进行对比,以此通过数据分析和整合,保证信息的准确性。

总结:总而言之,大数据的时代已经到来,社会的各个领域都不同层次的渗透大数据的思想,并积极的进行着软件技术的创新应用。因此大数据将为社会带来巨大的变迁。

参考文献:

[1] 沈海波,周如旗,朱雄泳.大数据时代软件工程专业建设的思考[J].计算机教育,(23):98-100.

[2] 何雷. 大数据时代下软件工程关键技术探究[J]. 信息系统工程, (2):47-47.

[3] 尹顺鹏. 大数据时代下软件工程关键技术分析[J]. 数码世界, 2017(7):16-16.

2.大数据关键技术 篇二

随着物联网、移动互联网和云计算技术及应用的蓬勃发展, 人类产生的数据量不仅以指数级增长, 而且数据的结构变得日趋复杂, 超越了传统数据库的管理能力。大数据问题 (Big Data Problem) 近两年成为信息技术学术界和产业界热论的焦点。普遍舆论认为, 大数据问题已经成为信息科学技术领域的重要前沿课题之一。

2011年5月, EMC公司在美国拉斯维加斯举办了第11届EMC World年度大会, 设定的主题为“云计算相遇大数据”, 大会正式提出了“大数据” (Big Data) 概念。随后, IBM和麦肯锡等众多国外机构发布了“大数据”相关研究报告, 阐述了大数据的特征, 给社会经济发展带来的机遇和对当前信息技术的挑战。可以预测, 大数据将成为继云计算和物联网之后, 信息技术产业又一次颠覆性的技术变革。

在学术界, 国际顶级期刊《Nature》和《Sciences》近期针对大数据分别出版了专刊《Big Data》[3]和《Dealing with Data》[4], 从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论了大数据处理面临的各种问题。2012年8月12~16日在北京举办的第18届知识发现与数据挖掘 (KDD) 国际会议, 大数据成为重要议题, 其暑期培训班 (KDD Summer School on Mining the Big Data) 和专家论坛 (Panel Discussion) 都是集中讨论大数据问题。2011年11月26日, 中国软件开发联盟 (CSDN) 在北京成功举办了中国大数据技术大会。为推动大数据这个交叉学科的发展, 中国计算机学会 (CCF) 成立了大数据专家委员会 (CCF Big Data Task Force, 简称CCF TFBD) 。

大数据的机遇与挑战已经从商业领域上升到国家战略层面。2012年3月29日, 美国政府发布了“大数据研究和发展倡议”。随后, 美国国家科学基金委员会 (NSF) 、美国国家卫生研究院 (NIH) 、美国能源部 (DOE) 、美国国防部 (DOD) 、美国国防部高级研究计划局 (DARPA) 、美国地质勘探局 (USGS) 六个部门联合推出了大数据计划, 旨在提升从大量复杂数据中获取知识和洞见的能力。

为探讨中国大数据的发展战略, 由中国科学院计算技术研究所牵头, 2012年5月22~24日在北京成功举办了以“网络数据科学与工程─一门新兴的交叉学科?”为主题的第424次香山科学会议, 与会国内外知名专家学者为中国大数据发展战略建言献计。2012年8月14~15日, 中国科学院启动了“面向感知中国的新一代信息技术研究”战略性先导科技专项, 任务之一是研制用于大数据采集、存储、处理、分析和挖掘的未来数据系统。

信息时代万物数化, 大数据的重要性已成行业共识, 针对大数据技术和应用的创新, 其发展趋势不可阻挡。如何对大数据进行充分和有效的分析和挖掘, 使之转换为有价值的信息和知识, 用于解决各种各样的科学和应用问题, 成为大数据时代信息技术发展的重大挑战, 同时也是信息技术创新的新的制高点。

本文首先对大数据的概念、特征及其价值作简要概述, 然后阐述大数据分析与挖掘的三个科学问题, 最后介绍中国科学院“面向感知中国的新一代信息技术研究”战略性先导科技专项“海云数据系统关键技术研究与系统研制”课题的一些前期研究成果。

2 大数据

2.1 什么是大数据?

对于什么样的数据是大数据目前还没有明确的定义, 对数据的使用者来讲, 如果数据集超出了使用者所拥有的信息处理和分析的能力, 就给使用者带来了大数据问题。

根据麦肯锡预计[5], 至2009年, 美国超过1000雇员的公司, 平均每个公司存有200TB的数据, 很多行业的公司, 如银行、电讯、互联网、政府部门等, 平均存储的数据超过1个PB。尽管大量的数据存储在各大公司和政府机构的数据中心, 但数据的价值都没有充分发挥出来。缺少有效的数据整合和数据分析与挖掘技术及方法是其主要的技术障碍, 更深层次的原因是对数据潜在价值的认识不足和缺少可以挖掘出数据价值的技术手段及人才。

2.2 大数据特征

在2011年10月美国拉斯维加斯举办的IOD2011大会上, IBM给出了大数据的“3V”特征[6], 即多样性 (variety) 、体量 (volume) 、速度 (velocity) 。多样性是指数据来自多种数据源, 并且数据类型包含结构化和非结构化数据。体量是指整合在一起供分析与挖掘的数据量非常庞大的。速度则是指数据生成和处理的速度必须很快, 也包含数据内容的变化也快。

大数据的这些特征对现有的数据分析与挖掘方法、技术、算法和软件带来新的挑战, 使基于传统服务器进行数据挖掘的方式产生极大的瓶颈。用户为提高大数据分析与挖掘的能力, 必须提高服务器的性能, 包括存储、内存和CPU, 造成机器成本和能耗不断提高。当前大部分数据分析与挖掘软件不具备TB级以上大数据的复杂分析和建模能力。

随着对大数据价值认识的深入, 大数据的典型特征又加入的一个价值 (Value) 维度, 用以描述大数据的价值。在现实应用中, 数据量大的数据并不一定有很大的价值。例如, 很多数据在没有有效整合之前, 重要的分析与挖掘无法开展, 因此不具有很大的应用价值, 而数据整合本身就是大数据的一大挑战。不能及时有效处理分析的数据也没有很大的应用价值, 如大量的视频数据, 目前还没有有效分析和挖掘大量视频数据的技术, 很多应用还要靠人来监控。

2.3 大数据的价值

大量数据的生成和累积是信息化的必然结果。现代企业在采购、仓储、运输、产品设计、生产、销售和客户服务等诸多环节都采集并积累了大量的供应商、服务提供商和客户的交易数据, 生产和经营数据, 产品研发数据, 财务及人力资源管理数据等, 因此可以说现代企业是运营在数据之上, 诸多生产和经营的决策问题必须通过数据分析才能解决。

麦肯锡的研究表明, 随着消费者、企业和各经济部门充分发挥大数据的潜力, 由大数据驱动的创新、生产力提高、经济增长、以及新的竞争模式和价值取向变革的巨大浪潮将达到巅峰。与过去不同的是, 随着一系列新技术趋势发展的加速和凝聚, 大数据所带来的变化规模和范围已经达到新的拐点, 将会迅速膨胀。比如, 有效利用大数据可以提高健康护理的质量和效率, 潜在为美国每年创造3千亿美元的价值, 其中三分之二是来自于降低健康护理的成本, 相当于每年减少全国健康护理花费的8%。零售业充分利用大数据可以提高运营效益60%。在欧洲发达国家, 充分利用大数据提高政府管理效率, 每年可以减少政府运营费用1千亿欧元。相信未来大数据的产业规模将会至少以万亿美元来进行衡量, 大数据将会给信息技术领域带来一个新的增长点。

大数据带来的潜在经济价值和社会价值巨大, 但这些价值必须通过数据的有效整合、分析和挖掘才能释放出来。数据的整合是建立数据仓库的必要工作, 对于结构化数据的整合有很多解决方案和软件工具。目前的挑战是非结构化数据的融合和整合, 如:文本数据、图像数据、信号数据、音频数据、视频数据等, 由于这方面的技术挑战较多, 本文不作详细论述。下节针对大数据分析的科学问题和方法问题作一简要介绍。

3 大数据分析的科学问题

数据分析与挖掘的数据基本表达形式是对象—属性矩阵或表格, 如图1所示。其中每一行表达一个对象, 如一个客户。每一列表达对象的一个属性, 如客户的年龄或性别。整个属性的集合确定了对象表达的维度, 而行数代表对象样本的个数。大多数数据分析和挖掘算法以对象—属性矩阵为输入数据格式, 对这些算法来讲, 大数据的挑战具体体现在对象—属性矩阵的属性数量和对象数量都很大, 使得这些算法难以处理或得到的结果不满足应用要求。

3.1 超高维问题

大数据带来的变化之一是对象的属性越来越多, 虽然表达对象的信息越来越丰富, 但成千上万的属性也造成巨大的维度灾难 (curse of dimensionality) 。

与此同时, 这种超高维数据也带来其他一些问题, 如:复杂数据类型问题, 噪声和缺省值问题, 分布不平衡问题, 属性相关问题等。这些问题虽然在一般性数据分析中普遍存在, 但超高维数据使得这些问题更难处理。网络社会化文本数据, 如微博数据, 就属于这类大数据, 表达微博内容的关键词属性可以有几万个, 而处理的微博数量也是百万或千万级。

超高维数据不适合用传统的全空间方法来分析, 因为超高维数据带有很大的稀疏性, 对象簇和类别的表达体现在部分属性子集, 较有效的分析方法是采用子空间方法。同时, 由于数据的复杂性, 单一的数据挖掘模型, 如决策树模型, 难以满足应用的精度要求, 必须采用多个模型的集成学习方法建立聚类或分类的集成模型, 通过多个单一模型的综合结果做出最后的决策。目前子空间方法和集成学习方法在国内外已经有大量研究[7,8]。

3.2 数据量问题

大数据分析的另一科学问题是当图1的对象—属性矩阵的行数超过千万或亿的数量级后, 其整个矩阵的数据量将达到上百个GB至TB级, 这样大的输入数据远远超出大多数服务器的内存, 更不用说在单一服务器上用复杂的迭代或递归数据挖掘算法进行建模和挖掘。因此, 现有的数据挖掘软件和大多数传统的分类和聚类等算法无法处理这个规模的数据。

解决TB级规模输入数据建模问题的一个可行方法是将对象—属性矩阵切分成大量的子矩阵, 然后将子矩阵文件分布到多个服务器节点上。同时对数据挖掘算法作并行分布式改造, 使每次迭代运算分两步进行, 第一步是在每个计算节点上对子矩阵进行运算, 取得子矩阵的局部结果;第二步是将所有子矩阵的局部结果集中运算, 计算出整个对象—属性矩阵的全局结果, 然后进入下一次迭代直到得出最后模型。Hadoop平台上的Map-reduce计算模型通常用来实现上述分布式算法。

对复杂的数据挖掘算法进行分布式改造需要解决一个算法上的数学问题, 即证明这种分解计算再综合的两步式方法得出的结果要同直接对整个矩阵一步运算的结果等价。如果采用近似计算方法, 需要证明两步式方法得出结果的偏差在可控范围内。在Hadoop上实现分布式数据挖掘算法的一个技术问题是Mapreduce计算模型本身的局限性。Map-reduce最初是为词频统计设计的, 适合数据一次性处理, 而多数数据挖掘算法具有迭代、递归、层次等特性, 用Map-reduce实现分布式算法经常产生很多额外开销, 极大影响运算效率。因此, 设计适合大数据分析与挖掘分布式算法的新型计算模型也是一个重要的科学问题。

当前, 许多常用的机器学习和数据挖掘算法都有了Map-reduce分布式版本, 最流行的是Apache的Mahout开源系统[9], 但其算法的执行效率还远远达不到TB级大数据的水平[10,11]。

3.3 大数据分析方法

大数据分析与挖掘的另一科学问题是分析方法和分析手段落后。当前普遍采用的数据挖掘建模方法是样本–>建模–>测试三步骤方法, 建模的过程由算法自动完成, 模型建好后, 用户对模型进行测试, 结果不满意, 改变训练数据和算法参数, 由算法自动产生新的模型。这种方法不适用于大数据分析, 因为数据大, 算法建模的时间较长, 多次重复建模步骤使计算成本和能耗加大。因此, 必须研究新的大数据分析方法。

提高大数据分析与挖掘的效率和效果的方法之一是改变建模的全自动过程, 实现大数据建模人机交互, 让专业分析人员的领域知识融入到建模过程中, 通过人机交互获得优化模型。实现大数据建模过程人机交互需要解决两大关键技术, 交互式数据挖掘算法和数据及模型可视化。交互式算法在建模过程中生成大量中间结果, 用可视化技术展现给分析人员, 分析人员可以通过观察分析建模的阶段性结果, 调整算法参数或输入数据, 指引交互式算法向优化模型的方向计算。

大数据可视分析已经成为图形学和可视化领域的研究热点, 目前大规模超高维数据可视化方法和技术还不多, 数据挖掘模型和知识可视化研究也在起始阶段, 可用的成果很少。

4 海云数据系统

海云数据系统是中国科学院“面向感知中国的新一代信息技术”战略性先导科技专项“海云数据系统关键技术研究与系统研制”课题研究的重要内容。其目标是研制面向海量数据存储与挖掘的互联网服务平台, 为“海云创新实验环境”用户提供大规模数据存储、处理、挖掘与可视化分析服务, 创新数据挖掘互联网服务模式。

4.1 系统架构

海云数据系统的设计理念是以区域性智能数据中心和高速互联网为基础设施, 以互联网服务体系为架构, 以大规模海量数据存储、处理、挖掘和可视化分析等关键技术为支撑, 通过多样化智能终端及互联网为用户提供数据存储、管理及分析服务。

海云数据系统的拓扑架构如图2所示。区域智能数据中心提供基于云计算的大规模数据存储及数据挖掘平台, 通过平台服务器对外接口提供数据存储、分析与挖掘服务。用户使用Web浏览器或智能终端应用程序提出数据存储和分析的服务请求, 经Web服务器通过互联网将服务请求发送给数据中心平台服务器, 平台服务器对服务请求进行解析, 发送给工作流引擎调度执行, 执行结果通过互联网发送给用户终端。

4.2 关键技术

为支持海云数据系统的研制, 课题组已经搭建了由110台高性能服务器组成, 具有500TB存储能力和840CPU核运算能力的云存储系统和云计算平台。海云数据系统的研制主

要包括下面6个关键技术:

(1) 云存储系统。为海云数据系统的大数据分析提供海量数据存储与管理服务;

(2) 云计算平台。为大规模海量数据处理、挖掘与分析提供高性能计算服务;

(3) 海量数据挖掘算法库。为海量复杂数据处理、挖掘与分析提供高可扩展算法;

(4) 可视化交互分析引擎。启发式、人机交互、可视化数据挖掘新技术, 提供海量数据挖掘高度人机交互功能;

(5) 工作流引擎。为用户创建海量数据处理、分析流程提供图形化流程设计工具, 自动执行用户创建的数据处理分析流程, 提供资源调度及优化服务;

(6) Open API。提供数据挖掘平台与第三方应用系统的扩展接口。

4.3 算法创新

分类与聚类是数据分析与挖掘的两大主要任务, 大数据的超高维问题对现有的分类和聚类技术造成很大的挑战, 很多经典算法, 如决策树、k-means等, 已经不能满足应用需求。针对超高维数据的分类和聚类问题, 课题组对著名的随机森林分类算法和属性加权的k-means子空间聚类算法作了改进, 取得了很好的效果, 新算法对超高维数据的分类和聚类精度有了显著提高。

4.4 可扩展分类算法

针对大数据建立分类模型的挑战, 课题组采用Map-reduce编程模型对随机森林算法作了分布式改进。建立随机森林模型的核心是生成大量决策树模型, 经典的决策树建模方法采用深度优先的递归式算法, 如图3所示。但是, Map-reduce编程模型并不支持递归机制, 决策树递归算法只能在Map内部操作实现, 致使运行Map的单个节点内存消耗随着决策树深度不断递增而增加, 内存溢出风险高, 不适合大数据。目前流行的基于Map-reduce的开源项目Mahout采用这种方式实现随机森林算法。针对这一问题, 课题组采用了广度优先的建树机制[16], 如图4所示。这种方法的优点是构建的决策树在节点分裂后, 生成更多的并行的子任务, 实现高效的并行, 避免了内存过快消耗, 具体执行流程见图5。

采用广度优先决策树生成方法实现的分布式随机森林算法, 课题组在30台服务器的云平台上实现了100分钟内对100个属性、1000万个纪录的输入矩阵, 规模达到110 GB的数据建立随机森林模型的能力。

4.5 交互式可视化

为探索交互式可视化数据挖掘新方法, 课题组针对随机森林建模设计开发了随机森林交互视可视化分析平台。给定一个输入训练数据和一组随机森林算法参数, 该平台启动随机森林算法生成最初随机森林模型, 然后计算树与树之间的相互关系, 确定树的空间坐标并用模拟树的形式在三维空间展示, 如图6所示。

随机森林模型精度和每棵树的精度在右边的窗口用数字展示。用户可以根据每棵树的精度, 用鼠标选择其中任何一棵树, 并将选择的树在新的窗口显示, 如图7所示。在所选择的树中, 顶部端点的球表示决策树叶结点对象的数量, 对象越多, 球越大。球的颜色表示叶结点的主要类别, 深蓝色表示NO类, 浅蓝色表示YES类。根据决策树的特点, 用户可以通过鼠标对树进行如下操作:剪切树叶, 使叶结点归并到更低的节点, 相当于树剪枝操作;如果树的精度很低, 用户可以将树砍掉, 重新启动决策树算法, 用不同的输入参数生成新的树, 并更新随机森林模型, 重新计算树与树的关系, 产生新的随机森林可视化模型;用户也可以将树砍掉, 重新生成训练数据, 调用决策树算法生成新的决策树。通过对决策树的交互操作, 用户可以逐渐逼近最优的随机森林模型, 充分利用交互式可视化的分析功能, 提高大数据挖掘的建模效率。

5 结束语

3.大数据关键技术 篇三

关键词 大数据 图书馆 数据采集 知识服务

分类号 G250.7

DOI 10.16810/j.cnki.1672-514X.2016.07.014

Research on the Application and Key Problems of Big Data Technology in the Library

Liu Xingxing

Abstract This paper discusses five sources of data mining for knowledge services of the library by using big data technology, and puts forward such issues as human and financial resources, large data analysis and visualization, data collection, third party data management, the readers’ privacy protection in the application of big data technology in the library.

Keywords Big data. Library. Data collection. Knowledge service.

“互联网+”时代的到来使得传统产业和互联网相结合迸发出惊人的能量。图书馆传统业务在“互联网+”时代如何转型成为学界讨论热点。百度和谷歌在满足用户信息需求方面显示出巨大的优势,终其一点,在于其拥有的数据优势及数据处理能力,使用户能够方便获取所需的信息资源。大数据内含的巨大经济社会价值得到各界重视。数据成为一种重要的资产和资源,运用数据和数据挖掘技术实现图书馆在“互联网+”时代读者知识服务转型是图书馆发展趋势。

1 图书馆大数据技术应用体系

大数据(Big data)是指无法在可容忍的时间内运用传统IT技术和工具对其进行处理和管理的数据资源。维基百科对于大数据的定义是指一些使用目前现有数据库管理工具或传统数据处理应用很难处理的大型而复杂的数据集,其挑战包括采集、管理、存储、搜索、共享、分析和可视化。“大数据”可以认为是“分析”的另一种表述,它是寻求从数据中萃取知识,并将其转化为商业优势的智能化活动[1]。大数据不是传统数据的物理叠加,而是数据逻辑的统一。

1.1 图书馆大数据采集来源

每项新技术的发展一般都会引起图书馆界的关注,大数据技术也不例外,比如Harvard已经将“大数据”服务引入到图书馆中[2]。有效获取读者身份、阅读行为、阅读爱好、阅读社会关系等数据是大数据时代图书馆提升服务,实现文献服务向知识服务、数据服务转型的重要因素。图书馆大数据可以来源于现有的图书馆信息系统、图书馆内部的电脑、读者手机、移动终端、网络上的各种评论,以及与图书馆有关的视频、网络等方面的信息。

(1)文献管理系统。图书馆文献管理系统是大数据的重要来源,其记录了读者的阅读历史和行为,可反映读者的阅读偏好和习惯及其学习和研究方向。这方面数据的挖掘是充分利用大数据技术实现图书馆已有数据价值提升的重要体现。近年来图书馆面临着严重的阅读危机,读者借阅量下降明显,归根到底是因为图书馆在大数据时代不能有效满足读者知识服务需要。通过大数据技术深入挖掘文献管理系统数据,同时利用可视化技术方便有效地了解读者及其行为,了解其阅读习惯与阅读圈,及时跟踪其学习与研究需要,进而提供更加切合读者需要的知识资源。在互联网+时代,读者需要获取的资源更多的是知识,而不是资源线索,图书馆需要打造“在复杂创新需求下的知识组织、知识集成、知识融汇、知识发现、知识创造”[3]的知识服务。运用大数据技术获取馆藏文献管理系统数据,能够深入挖掘知识主体、客体资源及其之间相互关系,从而为实现知识服务创造条件。

(2)传感器技术。近年来,传感器技术应用广泛,交通运输、医疗健康、环境保护等各个领域和场所都有传感器的应用,传感器的应用为大数据的获取提供了重要的来源。传感器将物理环境(如运动)信号转换成数据并连续进行传输,智能传感器可以根据数据价值进行数据的传输,从而避免因数据量大造成拥塞。图书馆目前应用的传感器较多,如为解决占座位现象而运用的红外传感器。利用分布于图书馆内的各种传感器,进行数据收集和存储,对于研究读者阅读行为,有针对性地调整读者服务策略,调整馆舍布局具有参考价值。

(3)Web2.0技术。“Web2.0”的概念始于出版社经营者O’Reilly和MediaLive International之间的头脑风暴论坛。它是指互联网上每个用户的身份由单纯的“读者”进化为“作者”,由被动的接收信息,变成主动的创造互联网信息。图书馆利用Web2.0技术通过微博、维基、RSS、博客等途径采集读者数据,使读者主动参与到图书馆的知识服务中[4],可以更好地获得读者和读者之间互动数据,促进知识传播和知识服务,从广度和深度方面促进知识资源开发。读者微博、微信每天都产生大量数据,运用大数据技术对这些数据进行收集、处理,能够获得读者的阅读偏好和知识需求。

(4)RFID技术。与传统的条形码相比,RFID(Radio Frequency Identification,射频识别)技术扩展了操作距离,且标签的使用比条形码容易,携带一个可移动的阅读器便可收集到标签的信息[5]。RFID技术由于具有操作范围广、技术性能稳定和高存储能力成为物联网时代最重要的一种信息感知技术,在未来图书馆的运用具有广阔的空间。利用RFID射频数据,能够实现图书馆有关资源和服务的跟踪、分析,实时获得知识资源利用和传输情况,分析资源的利用效果,并且及时跟踪读者需求,进行知识资源服务的推送。该技术将会成为大数据时代图书馆数据分析的利器。

nlc202309091107

(5)移动终端技术。“互联网+”时代普及了移动终端的应用,手机、笔记本、平板电脑随处可见,移动信息的摄取成为人们主要的信息来源。移动终端具有较强的信息处理能力,如通信定位和扫描功能,移动图书馆、二维码技术和微信图书馆都已在图书馆服务中得到运用。移动终端通过移动社区网络随时都在产生庞大的数据量,大数据技术能够实现数据收集和处理。图书馆移动终端数据采集主要分为三种:一是读者通过移动终端进行阅读而产生的大数据;二是通过移动阅读终端设备内置的传感器而采集到的数据;三是通过移动互联网产生的阅读个体的阅读评论、微博、微信等互动形式的大数据。利用大数据技术收集读者移动社交网络数据,形成海量的数据资源,对于图书馆了解读者行为和需求,开展信息分析、信息推送[6]等知识服务具有重要意义。

1.2 图书馆大数据逻辑层次结构

Hadoop数据系统是利用谷歌MapReduce技术开发的开源平台,目前被大量的机构、组织和人员研究和利用,全世界数以万计的Hadoop系统被安装和使用[7]32-33。Hadoop系统拥有两项关键的技术基础:一是HDFS项目,提供高吞吐量的分布式文件系统,可以处理海量的非结构化和半结构化数据;二是MapReduce技术,是基于谷歌MapReduce的大型分布式数据处理模型。图书馆采集的数据很多是非结构化的图片、音频、视频、日志、网页等对象,因此Hadoop系统可以很好地用来解决图书馆大数据平台问题。

图书馆大数据系统在逻辑结构上可以设计为外部系统层、数据处理层、数据计算层、数据管理层和数据资源层五个层次,层次之间是从上到下的依赖关系。外部系统层主要是现有的图书馆文献管理系统、图书馆网站、移动图书馆、微信图书馆、图书馆微博等对象。数据处理层包括图书馆数据资源采集、用户数据可视化呈现和数据调用三个子项目。数据计算层是图书馆大数据系统分析模块,涵盖计算、分析和数据仓库等子模块。数据管理层是对整个图书馆大数据系统节点子系统和任务节点子系统进行控制和调度的模块。数据资源层是图书馆文件和数据储存的地方[8]。

外部系统层与数据处理层存在互为调用关系[7]25-26,外部系统层的数据输入来源于图书馆数据采集子系统采集到的数据资源,外部系统层通过用户可视化系统和数据调用系统可以将数据传输给读者提供数据计算结果。数据处理层负责将图书馆各种结构化和半结构化数据予以采集,并且负责外部系统层各子系统的数据访问需求,通过用户数据可视化系统将结果呈现给用户。数据计算层负责为数据调用系统提供数据实体,负责向数据管理层触发各节点子系统的计算功能。数据管理层是整个图书馆大数据系统的中枢,统一处理各任务节点子系统之间的管控与调用关系。

2 图书馆运用大数据技术面临的问题

2.1 图书馆人力和财力问题

大数据文件系统有谷歌开发的分布式文件系统GFS,Hadoop的文件系统HDFS,SUN公司开发的Lustre,Facebook公司推出的文件系统Havstack等[9]。图书馆数据库管理人员较少,能够深入研究这方面技术的馆员十分稀缺,图书馆数据管理人才缺少已成为制约图书馆知识服务转型的因素。数据管理人才是基于数学、统计学和机器学习于一体的复合型人才,目前培养较少。图书馆解决大数据人才问题,可以通过委培的方式,与有关高校签订协议,将馆员安排到高校进修大数据存储技术和数据挖掘课程,尽快解决数据管理的人才可用性问题。大数据的采集和存储,必然需要投入大量的基础设施,图书馆在做财务规划时,需要充分考虑到大数据技术的优势,增加大数据设施投资,如何解决大数据的投入问题将是图书馆管理者需要衡量的重要议题。

2.2 图书馆大数据分析与可视化技术

信息分析是大数据技术应用的根本目标,对于图书馆而言,针对读者的特殊信息需求,运用大数据技术对信息进行深度分析、加工与融合,为之提供有用的情报和服务,是根本目的。图书馆利用大数据分析读者需求,首先需要创新信息分析思维方式。信息分析思维方式是人们进行信息分析思维活动所采取的方式,具体是指信息分析思维主体在一定理论、观念、方式和手段的基础上所形成的反映和把握信息分析对象的方法[10]。大数据技术改变了人们获取信息的方法、手段和工作模式,因此,适应大数据技术下的思维方式是图书馆数据管理人员需要面对的问题。信息可视化技术主要是用图形技术对大规模的数据进行可视化表示,以增强用户对于数据更深层次的认知[11]。如何帮助图书馆便捷有效地从大量数据中提取出有用的信息为读者提供知识服务成为大数据可视化技术的核心任务。传统的树形目录方式查询效率和效果受到很大限制,而如Graz理工大学设计的名为Infosky的可视化工具,用户可以对于层次结构中成百上千的文件进行可视化查看。随着大数据技术的发展,越来越多的将大数据以图形化、图像化以及动画化等方式予以展现的技术和方法必然出现,如上海图书馆到馆读者的即时数据通过可视化方式展现在大屏幕上,数据动感直观醒目,能够引起读者的注意[12]。

2.3 图书馆数据采集对象问题

对于图书馆而言,大数据技术是一门全新的学科知识,对于该技术了解甚少。图书馆在做数据资源采集时,首要面临的问题是是数据来源问题,采集哪些数据,通过何种手段采集,采集的数据是否有用,数据能否对于分析读者阅读行为,提升读者知识服务起到良好的作用等,都是图书馆需要考虑的问题。在做大数据采集与分析时,必然需要考虑到成本和效益问题。对于一些如数据量大、时效性很强、生存周期短的数据,需要制定数据采集的标准。研究确定数据资源采集对象的过程需要与建设大数据系统的目的相结合,需要明确大数据系统对于图书馆知识服务的推进具有哪些具体的作用。如美国Hiptype公司将大数据分析技术用来分析电子书读者阅读习惯和喜好[13],目的是利用大数据技术建设知识服务的智能分析模式。

2.4 第三方数据管理的应用问题

nlc202309091107

大数据技术的出现改变了传统的计算机生态环境和产业链,会出现更多专门提供数据支撑和数据存储服务的大型网络服务公司,传统的靠自身存储、传输和处理数据的时代将逐渐消亡。大数据时代,图书馆运用自身服务器管理数据和服务变得十分困难,更多的图书馆应该选择租用第三方开放平台来运营数据管理业务。互联网市场将会出现专门服务于图书馆大数据管理的第三方服务平台,图书馆负责收集和处理读者行为、读者服务等数据,而数据的实际存储地点在第三方平台。第三方平台负责对图书馆用户的各种数据请求打包,利用大数据分析将结果反馈给图书馆。对于图书馆而言,可以以最少的人力和财力投入获得最好的服务效果。

2.5 图书馆读者安全隐私保护问题

大数据时代面临着严重的安全和隐私问题。随处可见的摄像头和传感器会监视和记录读者的位置信息,海量数据的分析可以清晰了解读者的行踪,同时海量数据的收集,增加了破解读者各种密码的可能性。而且,大数据的收集与管理平台一般在第三方的分布式存储系统,因此增加了读者数据被盗用的可能性。图书馆利用大数据分析技术分析读者的阅读行为,跟踪和预测读者的阅读倾向,本身是为了更好地服务于读者,为读者提供高效、满意的个性化阅读服务。但是,在一些特定环境和阶段下,图书馆为了获取最大的服务效益、提高竞争力和保证较大的读者群所制定的管理、经营、服务和发展策略,可能会损害部分读者的个人隐私[14]。因此大数据时代,图书馆在提供数据搜集和分析服务时,必须注重读者隐私权的保护问题。一方面,可以通过立法的方式,规范读者数据的采集和利用,避免第三方平台对于读者数据的非法使用;另一方面,图书馆作为责任主体,需要制定数据采集的标准,根据数据价值确定哪些数据在采集范围之内,避免采集过度问题。

3 结语

大数据技术的出现,对于图书馆而言虽是机遇,更是挑战。过去图书馆追求的深入挖掘读者需求提供个性化服务的目标将容易实现,图书馆能够更方便地分析馆藏资源,提供有针对性的资源服务。同时,图书馆也将面临严峻的困难。一方面,大数据技术的应用需要图书馆在数据采集、分析、存储、管理、利用等环节投入更多的人力、财力和技术力量。另一方面,数据服务商拥有技术、资源和丰富的数据优势,必然侵蚀传统图书馆的业务空间。当用户的大多数数据请求能够通过数据服务商获得,图书馆的社会地位将不断下降,社会认知度将边缘化,这需要引起图书馆界广泛的注意。大数据和云计算技术的出现,只是计算机网络技术快速发展的一个方面,图书馆需要深入借助新技术力量,实现由管理文献信息资源向管理数据资源、知识资源的转型。

参考文献:

[ 1 ] MCAFEE A, BRYNJOLFSSON E. Big data: the man-

agement revolution[J].Harvard Business Review,2012, 90(10):3-9.

[ 2 ] The New York Times. Harvard Releases Big Data for Books[EB/OL].[2012-08-11].http://bits.blogs.nytimes.com/2012/04/24/harvard-releases-big-data-for-books/.

[ 3 ] 李麟,初景利.国外文献信息服务机构知识服务实践研究:以LANL研究图书馆、CISTI、MPDL为例[J].图书情报工作,2012(15):5-8.

[ 4 ] 姚毅.掘金大数据:图书馆面临的几个问题探讨[J].新世纪图书馆,2014(6):32-35.

[ 5 ] ZHAI J, WANG G N. An anti-collision algorithm using

two-functioned estimation for RFID tags[C]//Procee-dings of the International Conference on Computat-

ional Science and Its Applications(ICCSA’05):Vol4.May 9-12,2005,Singapore.LNCS 3480.Berlin,Germany:

Springer-Verlag,2005:702-711.

[ 6 ] 李可风,沈扬.大数据环境下移动数字图书馆信息推送策略研究[J].图书馆学研究,2015(21):66-70.

[ 7 ] 杨巨龙.大数据技术全解:基础、设计、开发与实践[M].北京:电子工业出版社,2014.

[ 8 ] 张兴旺,李晨晖,麦范金.变革中的大数据知识服务:面向大数据的信息移动推荐服务新模式[J].图书与情报,2013(4):74-79.

[ 9 ] 窦万春,江澄.大数据应用的技术体系及潜在问题[J].中兴通讯技术,2013,19(4):8-16.

[10] 官思发,朝乐门.大数据时代信息分析的关键问题、挑战与对策[J].图书情报工作,2015(3):12-18.

[11] 樊伟红,李晨晖,张兴旺,等.图书馆需要怎样的“大数据”[J].图书馆杂志,2012(11):63-68.

[12] 徐强,杨佳.阅读大数据:图书馆联合体的创新型数据服务探索[J].图书馆理论与实践,2015(5):1-4.

[13] Digital Book World.New Start-Up Aims to Be Google Analytics for E-Books[EB/OL].[2012-08-13].http://www.digitalbookworld.com/2012/new-start-up-aims-to-be-google-analytics-for-e-books/.

[14] 马晓亭.大数据时代图书馆个性化服务读者隐私保护研究[J].图书馆论坛,2014(2):84-89.

刘星星 南京交通职业技术学院图书馆馆员、采编部主任。江苏南京,211188。

(收稿日期:2016-01-19 编校:方玮)

4.大数据关键技术 篇四

王世学 助理工程师

中铁九局集团第七工程有限公司 辽宁沈阳

【摘要】结合盘营客专盘锦特大桥跨沟海铁路128m连续梁成功转体的实践,简述大跨度连续梁在转体施工中的相关技术问题,为同类转体施工提供技术支持,将我国大跨度转体连续梁的设计、施工水平推向更新的高度。

【关键词】连续梁平转法 转动体系 称重配重 线形监控 转体施工

一、转体工程概况

盘营客专盘锦特大桥(80+128+80)m现浇连续梁跨既有沟海铁路,与其交角为167°10′,该梁平面位于半径5500m的圆曲线上,纵面位于半径25000m的竖曲线上,线路纵坡由3.072‰变为-12.7‰。由于施工工期及施工条件制约,采用常规挂篮悬浇施工方法,对既有线运营存在重大安全风险,因此该桥采用平衡转体的施工方法。即先在铁路一侧浇筑梁体,然后通过转体使主梁就位、调整梁体线形、封固球铰转动体系的上、下转盘,最后进行合拢段施工,使全桥贯通。转体段T构梁长63m+63m,转体重量达12000t。

二、转体理论依据

转体的基本原理是箱梁重量通过墩柱传递于上球铰,上球铰通过球铰间的四氟乙烯滑片传递至下球铰和承台。待箱梁主体施工完毕以后,脱空砂箱将梁体的全部重量转移于球铰,然后进行称重和配重,利用埋设在上转盘的牵引索、转体连续作用千斤顶,克服上下球铰之间及撑脚与下滑道之间的动摩擦力矩,使梁体转动到位。

三、转体施工关键技术及难点

平转法的转动体系主要有转动支承、牵引系统和平衡系统。本转体工程特点具有转动球铰承重大、牵引制动力大、曲线连续梁施工存在纵横向不平衡弯矩等特点。难点在于该梁平面位于小曲线半径和竖曲线上,难以控制梁体线形。因此在施工过程中,必须严格控制要求,进行转动支承、牵引系统及平衡系统的试验研究,并加强线形监控及模型分析,确保转体施工的顺利实施。

1、转动支承

转动支承是平转法施工的关键设备,由上转盘和下转盘构成。上转盘支承整个转动结构,下转盘与基础相联。通过上转盘与下转盘的相对转动,达到转体目的。转动支承可分为磨心支承、撑脚支承、磨心与撑脚共同支撑三种。

该连续梁转体采用的是磨心支承方式。磨心支承即由中心撑压面承受全部转动重量,在磨心插有定位销轴,为了保证安全,在支承转盘周围设有6对撑脚,正常转动时,撑脚不与滑道面接触,一旦有倾覆倾向则起支承作用,因此撑脚也称作保险腿。本工程撑脚与滑道间隙为10~15mm。一般要求此间隙为2~20mm,间隙越小对滑动面的高差要求也越严格。我们从T构梁卸架开始至完全拆除临时受力砂箱,上转盘的最大沉降仅为1.82mm,撑脚与滑道仍留有足够的间隙,从而验证该支承方式完全由磨心支承及球铰面的光洁度极小,达到理想效果。

在球铰制作及安装过程中,必须严格控制技术要求,保证球铰制作质量及安装精度要求,其位置和精度将影响全桥合拢精度和转体过程的安全,对每个四氟乙烯滑片必须按厂家编号对号安装并涂黄油四氟乙烯粉,在球铰安装完成后进行上下球铰试运转,保证涂抹的黄油四氟乙烯粉均匀分布,试运转完成后必须用石蜡将上下盘周边封闭,以免润滑材料干燥或流进杂物。

2、牵引系统

平转法施工中,能不能转动是一个很关键的技术问题,一般情况下设计启动摩擦系数为0.06~0.08之间,有时为保证有足够的启动力,按0.1配置启动力。因此,减小摩阻力,提高转动力矩是保证平转法施工顺利实施的两个关键。转动力通常安装在上转盘的外侧,以获得最大的力臂。在安装牵引索钢绞线时,为保证在转体时牵引索之间互不干扰的工作,要安装一半正旋和一半反旋钢绞线进行施工。

本工程转体系统由4台QDCLT2000型连续顶推千斤顶、4台YTB液压泵站和2台LSDKC-8主控台通过高压油管和电缆线连接分别组成2套转体牵引系统。每套连续顶推千斤顶公称牵引力2000KN,额定油压25MPa,由前后两台千斤顶串联组成,每台千斤顶(前、后顶)前端均配有夹持装置。

每2套连续顶推千斤顶分别水平、平行、对称的布置于转盘两侧的反力座上,千斤顶的中心线必须与上转盘外圆(钢绞线缠绕的位置)相切,中心线高度与上转盘预埋钢绞线的中心线水平。千斤顶用高强螺栓固定于反力架上,并与反力座固定。反力座必须能承受200t压力的作用。

上转盘埋设的两束牵引索经清理锈迹、油污后,逐根对钢绞线预紧,再用千斤顶对该束钢绞线整体预紧,使同一束牵引索各钢绞线持力基本一致。

3、平衡系统

平转过程中的平衡问题是一个关键问题,对于T构桥梁,上部恒载在墩轴线方向基本对称的结构,一般以桥墩轴心为转动中心,为使重心降低,通常将转盘设于墩底以下。此工程转盘设置于上承台和下承台之间。

该连续梁由于位于圆曲线和竖曲线两种曲线上,必将有不平衡力矩和偏心距问题。我们通过称重试验,反复测试,计算出不平衡力矩和偏心距的相关数据,研究其数据是否符合转体设计要求,否则采取相应配重措施。并在T构梁卸架过程中,随时观测转盘处的百分表读数(沉降),观察梁体是否有倾斜变化,若变化较大时,应在梁体对应侧加配重方法使其基本达到平衡,保证其安全卸架。

平衡转体施工必须保证转体上部结构在转动过程中的平稳性,尤其是大型悬臂结构且无斜拉索情况。在实际转体施工中,转体上部悬臂结构绝对平衡会引起梁端转动过程中发生抖动,且幅度较大,这不利于转体的平稳性要求,为此,采用梁体纵向倾斜配重方案,通过称重和配重使实际重心偏离理论重心5-10cm,配重后使转体桥前进端有一微小翘起,并使得转体桥的6对撑脚只有两对撑脚与滑道平面近似发生接触,从而增加转动体在转动过程中的平稳性和安全性。

因此称重平衡试验是桥梁平衡系统施工中至关重要的一步,在试转前,必须进行称重平衡试验,测试转体部分的不平衡力矩、偏心矩、摩阻力矩及摩擦系数等参数,实现桥梁转体的配重要求。

4、线形监控

转体梁在悬臂阶段时是静定结构状态,合拢过程中如不施加额外的荷载,成桥后内力状态一般不会偏离很大,因此连续梁施工控制的主要目标是控制梁体线形。

线形控制最主要的任务,就是根据每个施工阶段的测量结果,分析测量数据,同时与模型预测值进行对比,找出差距并分析误差产生的原因,从而确定下一阶段施工时合理的预拱度。每一阶段施工完毕,对结构模型中实际的混凝土养护龄期、节段施工周期、混凝土实际的弹性模量、容重等相关参数进行修正。修正之后,对结构模型进行重新计算,将新的计算结果与实测结果进行比较。比较的主要内容包括混凝土浇筑前后的标高变化、预应力束张拉前后的标高变化以及梁底、梁顶的标高变化。通过比较结果,可以对测量数据进行分析。从每节段混凝土浇筑前至预应力钢束张拉完毕是本连续梁施工监测的一个周期。

线形控制的关键是:每节段施工周期的结束都必须对已完成所有节段进行全面的测量,分析实际施工结果与预计目标的误差,从而及时地对已出现的误差进行调整,在达到要求的精度后,才能对下一施工循环做出预测。

5、转体施工(1)试转体

桥梁正式转体前,应进行试转。目的是全面检查转体的指挥组织系统、牵引动力系统、防倾保险体系是否状态良好,检测整个系统的安全可靠性。同时由测量和转体监控人员对转体系统进行各项初始资料的采集,测试启动、正常转动、停转重新启动及点动状态的牵引力、转速等施工控制数据,建立转动角速度与梁端转动线速度的关系,以便在正式转体前发现、处理设备存在的问题及可能出现的不利情况,并为正式转体速度提供依据,保证转体的顺利进行。

结合以往转体工程施工实践,试转工序不能因施工时间紧、任务重而取消。原因有以下几点:

1)、通过试转,可发现转体准备工作是否充分及协调好各岗位、转体各环节的关系,确保转体一次性高标准高质量高效率的完成;

2)、通过试转工序中的点动操作步骤,取得每点动一次梁端头最大弧长数据,可确保合拢时桥梁轴线精确定位;

3)、由于转体前各工序的交叉作业,已安装调试好的转动系统,易在后期的转体准备工作期间受到损伤,通过试转可发现损伤部位,保证牵引设备处于正常工作状态。

(2)正式转体

1)、先让辅助千斤顶达到预定吨位,启动动力系统设备,并使其在“自动”状态下运行。

2)、每个转体使用的对称千斤顶的作用力始终保持大小相等、方向相反,以保证上转盘仅承受与摩擦力矩相平衡的动力偶,无倾覆力矩产生。

3)、设备运行过程中,各岗位人员的注意力必须高度集中,时刻注意观察和监控动力系统设备和转体各部位的运行情况。如果出现异常情况,必须立即停机处理,待彻底排除隐患后,方可重新启动设备继续运行。4)在转体就位处设置限位装置,并安排技术人员在两个转盘附近负责读转盘上标识的刻度,随时与总指挥联系。为防止超转现象,在转体接近设计位置时,停止自动牵引操作,采用点动控制精确就位。(3)精确就位

轴线偏差主要采用连续千斤顶点动控制来调整,根据试转结果,确定每次点动千斤顶行程,换算梁体端头行程。每点动操作一次,测量人员测报轴线走行现状数据一次,反复循环,直至转体轴线精确就位。若转体到位后发现有轻微横向倾斜或高程偏差,则采用千斤顶在上下转盘之间适当顶起,反复进行调整直至高程符合设计要求。

四、结束语

本连续梁已于2011年5月18日12时20分成功转体,用时仅20min,未使用任何备用助推限位设备,直接依靠牵引系统实现转体并精确定位,最终合拢轴线误差仅为1.5mm。而且实际转动动力远小于设计计算值,说明了在转体施工中认真做好球铰的安装、维护及润滑材料的涂抹是减小摩阻力的有力保障。

该工程的成功转体,标志着我国大跨度预应力混凝土转体连续梁的设计、施工水平推向更新的高度。参考文献

5.大数据时代下数据挖掘技术与应用 篇五

【摘要】人类进入信息化时代以后,短短的数年时间,积累了大量的数据,步入了大数据时代,数据技术也就应运而生,成为了一种新的主流技术。而研究数据挖掘技术的理念、方法以及应用领域,将对我国各个领域的未来带来更多的机遇和挑战。本文就大数据时代下数据挖掘技术与应用进行探究。

【关键词】大数据,数据挖掘,互联网

数据挖掘是一门新兴的学科,它诞生于20世纪80年代,主要面向商业应用的人工只能研究领域。从技术角度来看,数据挖掘就是从大量的复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值和知识的过程。从商业角度来说,数据挖掘就是从庞大的数据库中抽取、转换、分析一些潜在规律和价值,从中获取辅助商业决策的关键信息和有用知识。

1.数据挖掘的基本分析方法

分析方法是数据挖掘的核心工作,通过科学可靠的算法才能实现数据的挖掘,找出数据中潜在的规律,通过不同的分析方法,将解决不同类型的问题。目前常用的方法有聚类分析、特征数据分析法、关联性分析等。

1.1聚类分析法。简单来说聚类分析就是通过将数据对象进行聚类分组,然后形成板块,将毫无逻辑的数据变成了有联系性的分组数据,然后从其中获取具有一定价值的数据内容进行进一步的利用。由于这种分析方法不能够较好的就数据类别、属性进行分类,所以聚类分析法一般都运用心理学、统计学、数据识别等方面。

1.2特征性数据分析法。网络数据随着信息时代的到来变成了数据爆炸式,其数据资源十分广泛并且得到了一定的普及,如何就网络爆炸式数据进行关于特性的分类就成为了当下数据整理分类的主要内容。此外还有很多方法都是通过计算机来进行虚拟数据的分类,寻找数据之间存在的普遍规律性完成数据的特性分析从而进行进一步分类。

1.3关联性分析法。有时数据本身存在一定的隐蔽性使得很难通过普通的数据分析法进行数据挖掘和利用,这就需要通过关联性分析法完成对于数据信息的关联性识别,来帮助人力完成对于数据分辨的任务,这种数据分析方法通常是带着某种目的性进行的,因此比较适用于对数据精准度相对较高的信息管理工作。

2.数据挖掘技术的应用

数据挖掘技术的具体流程就是先通过对于海量数据的保存,然后就已有数据中进行分析、整理、选择、转换等,数据的准备工作是数据挖掘技术的前提,也是决定数据挖掘技术效率及质量的主要因素。在完成数据准备工作后进一步对数据进行挖掘,然后对数据进行评估,最后实现运用。因此,数据挖掘能够运用到很多方面。如数据量巨大的互联网行业、天文学、气象学、生物技术,以及医疗保健、教育教学、银行、金融、零售等行业。通过数据挖掘技术将大数据融合在各种社会应用中,数据挖掘的结果参与到政府、企业、个人的决策中,发挥数据挖掘的社会价值,改变人们的生活方式,最大化数据挖掘的积极作用。以教育行业为例,探究数据挖掘技术在高校教育教学活动中的应用。

2.1在高校管理中的应用。数据挖掘技术在高校管理的内容主要包括:高校招生录取工作、贫困生选定以及优秀生评定等。高校每年的招生工作是学校可持续发展的重要环节,直接影响到高校教学质量以及发展情况。比如数据挖掘技术在高校管理中的应用主要是对学生高考成绩、志愿填报、以及生源来源地等多方面信息进行整理分类汇总。具体步骤是通过进行数据的收集和预处理,建立相关数据模型,采用分类算法,提取和挖掘对用户有用的信息,然后进行数据挖掘的数据存储形式。目前高校数据挖掘技术应用的范围比较广泛,由于高校管理内容比较复杂,因此在其管理内容的每个小部分也开始利用数据挖掘技术进行管理,比如学生成绩管理,课堂教学评价系统等。

2.2在高校课堂教学评价中的应用。数据挖掘技术在高校课堂教学评价系统中的应用主要也是利用关联分析法。首先先对数据进行预处理工作,数据的预处理是数据挖掘技术的关键步骤,并且直接影响着数据挖掘技术的应用效率。数据预处中要将教师的基本信息、教师教授课程以及教师的职称、学历、学生信息以及学生课表相关信息进行数据初始记录。对于教师的评价内容根据高校自身的条件和需求而定,学校教学评价管理部门登录学校教务系统后,将学生所选择的选项对应转换为教师的分值,通过计算机计算总分后得出教师的学期得分。学生对于教师教学的评价在一定程度上也反映了自己的学习情况,如对教师的评价为零分,则说明学生也否定了自己的学习效果。2.3在高校学生信息管理系统中的应用。高校学生信息管理系统中管理要素主要是学校的领导、任课教师、学生以及家长。系统的功能要包括:对不同的用户设置不同的使用权限;对学生的基本信息以及学生浏览管理网站的记录要做到明确记录;各个学院不同专业的学生课程要能准确公布并允许学生根据实际情况修改;成绩管理要能实现大批量添加及修改;还有比如评优活动、党务管理等具体功能。数据挖掘技术在高校学生信息管理系统中的应用主要是利用决策树的方法。学生信息管理的基本数据就是学生入学时填写的基本信息表,内容包括学生的姓名、学号、考勤以及学习成绩等,这些都是学生特有的属性,学生信息管理利用决策树方法就是将学生的这些属性作为决策元素,监理不同的决策节点,实现对学生全方位的考核和评价,完整的了解到每位学生的具体信息。

2.4高校图书馆信息系统中的应用。数据挖掘技术最基本的应用就是通过对现有的数据进行分析来了解学校图书馆现有资源利用情况,为图书馆的未来建设提供可靠数据。数据挖掘技术能够使图书馆资源得到极大程度的优化整合。比如数据挖掘技术可以对检索记录进行整理,将手工数据转变为电子数据记录。其最大的优势就是利用数据挖掘技术更加全面的分析总结数据库资源,帮助图书馆管理人员对于图书馆信息的补充和调整,还能够为高校图书馆的馆藏工作建设提供有效的引导。数据挖掘还能应用于图书馆的多媒体数字资源,多媒体数据挖掘技术能够更为快捷和准确的为读者提供相应的服务。

3.结语

数据挖掘技术是近几年新产生的网络技术,可是它的广泛应用性受到了很多公司以及研究人员的喜爱。这些年来,伴随着时间的推移以及网络技术的不断发展大数据挖掘技术不断的被更新,开发,而且在金融、管理、教学等行业中都得到了广泛的应用。我相信随着网络技术的不断发展,大数据挖掘技术的应用面将会越来越广。

【参考文献】

6.大数据关键技术 篇六

成都大数据技术培训学校哪家好?学大数据就业前景怎么样

成都国信安大数据培训由副教学总监,优秀讲师带队并亲自授课,秉承成都国信安一贯的专业品质态度,在课程质量,学生素质,就业服务上相当严格要求,并以学业满意就业为目标,打造国内优秀大数据培训班,感兴趣的同学不妨关注国信安教育基地了解一下吧。

为什么越来越多的90后偏爱互联网行业呢?他们的择业观与80后有哪些区别呢?

有诱人的福利

90后对于“软福利”的重视程度已经超过了“硬福利”。在90后受访者看来,五险一金的硬福利应该属于公司的“标准配置”,因此并不算关键的竞争力因素,能够提供弹性工作时间、额外带薪年假、配备固定班车等“软福利”更容易获得90后的青睐。创新文化的氛围

Google内部将午餐时间看作同事间宝贵的交流机会,和美国大多数互联网公司一样,Google的员工中午普遍不睡午觉,通过协同工具来实现“约饭”的流程化,而只要是员工,制度上是可以实现任何级别之间的会餐,这也是其公司扁平化文化的一个体现。符合自己兴趣的发展空间

90后普遍认为工作不只是满足生计这么简单,能够满足兴趣、实现人生意义更重要。有62%的90后表示择业时更看重是否有符合自己兴趣的发展空间,仅有38%的受访者在择业时优先考虑薪资待遇。

四川地处中国大西南,肥沃的土地,丰富的自然资源,悠久的历史和绚烂多彩的少数民族文化,构成了多样性的自然和文化旅游资源。“只有高中学历,做个保安、服务员、挣的不多、干活还累,在酒店后厨大勺一挥,弄出几个菜,就能月薪上万,我有机会成为他们吗”,这是众多高中毕业生共同的心声。2017年高考已经结束,毕业后学什么好呢?选择哪个学校呢?

我们正身处信息爆炸的时代,网上各类信息充斥着我们的生活,要想找到准确实用的信息更是难上加难,不过没关系,经过小编的收集整理,马上让您免除烦恼!好了,废话少说,下面来看看小编为大家带来的IT培训相关资讯吧~ 国信安教育基地

近年来,高不成低不就、先就业再择业、与企业需求脱节等大学生就业问题日益凸显,甚至可以说已经成为了严重的社会问题。据悉,2013年全国普通高校毕业生总人数将达到699万人,而相关数据显示2013年应届毕业生签约率不足3成。如何突破瓶颈,顺利实现就业?不仅是学生要思考的问题,更是社会需要迫切解决的难题。对此,成都国信安认为,实现顺利就业,大学生需要回归到职业发展的原点——职业规划。为什么要做职业规划

不可否认的是,无论是何种职业,都需要完整的知识架构体系作支撑,而知识架构体系的构建需要长时间的积累。理论上,现阶段的高校教育虽然在培养完全符合企业需求的人才方面存在一定困难,但其课程体系可以使学生具备企业需求的基本能力素质。而现实中我们发现,很多大学生显然没有具备这一能力。

之所以这样,一个重要原因是很多大学生缺乏准确的自我定位。在高校中,一个普遍的现象是学生自身爱好与所学专业存在严重错位。这类学生在学习过程中往往是抱着“六十分万岁”的心态,学习效果可想而知。同时由于缺乏自我规划,这类学生也很难系统掌握自身爱好所属的知识架构体系,因此在毕业时就容易遭遇本专业能力缺失、业余爱好能力不强的窘境。自身素质能力与企业需求不匹配也就不难理解。何时做职业规划

正如上面所讲,知识架构体系的构建需要长时间的积累,因此对大学生而言,大一期间就需要进行职业规划并不断完善。笔者了解到,虽然像中软卓越这样的培训机构会对每一位参加培训的学员进行人才测评,根据其特点进行就业指导,但这样的就业指导应该是锦上添花而非雪中送炭。可喜的是,现在很多高校都在开设就业指导的选修课,也会邀请一些知名公司或机构的管理人员给学生做职业规划的讲座,这些都是非常有意义的举措。怎样做职业规划

职业规划是一个综合性问题,涉及学生、学校、企业等多个方面。当难以有效 国信安教育基地

改变外界因素时,大学生需要更多发挥主观能动性。笔者建议大学生从以下三个方面做出努力:

首先,树立正确的职业规划认知。很多学生认为做职业规划就是要确立未来工作的职位,其实则不然。总体而言,职业规划是对未来职业发展方向的规划,大学生在此过程中需要确立自身的职业方向、系统掌握职业发展所需的基础能力架构。以中软卓越所在的IT培训行业为例,无论是培训开发还是测试,都需要掌握软件工程、开发语言、数据库、数据结构等基础知识。

7.大数据关键技术 篇七

云存储是在云计算技术的基础上发展形成的,其将数据的存储及管理看作是核心任务,云存储能够在集群应用、网格技术及分布式文件系统的基础上,利用相关软件将网络中各种类型的存储设备结合在一起,为用户提供相关数据存储和业务访问功能[1⁃3]。随着科技的逐渐发展,数据量越来越大,研究面向大数据云存储系统具有重要意义,已经成为相关学者研究的重点课题[4⁃6]。

目前,关于云存储系统的研究主要有Amazon EC2,Amazon EBS和Google File System(GFS)等。相关研究也取得了一定的成果,其中:文献[7]介绍了一种Virtual Block Store(VBS)云存储系统的关键技术,其不仅能够独立作为一个云存储系统进行使用,也能够为一些云计算系统(如Openstack)提供云存储管理服务,但该系统很容易出现单点故障问题,影响了整个云存储系统的性能;文献[8]介绍了一种Orthrus云存储系统的关键技术,该系统采用了多服务器形式,依据变种遗传算法实现各服务器的负载均衡,但该系统因缺少变异过程,容易陷入局部最优,无法实现对系统负载的最优化分配;文献[9]介绍了一种P2P云存储系统的关键技术,将之前较为分散的互联网资源集合起来,为用户提供相应服务,但该系统往往会受到一些网络因素的限制,性能不高;文献[10]介绍了一种Kuhn云存储系统,对相关文件进行分块和建立元数据,将元数据保存在文件中,新的文件对象均存储于文件的目录结构之中,该云存储能够明显提高元数据的存储性能,然而其需要引入目录,约束了应用的发展及使用。本文介绍了面向大数据的云存储系统的关键技术,依据定向随机游走规则对分布式云存储技术进行分析,通过RAS加密算法对数据进行加密,利用数据检索技术使云存储系统更加可靠,数据的访问效率更高。通过云存储技术、数据加密技术和数据检索技术的组合方式达到高效整合、管理网络存储资源的目的。经实验验证,采用所提关键技术的云存储系统不仅运行时间和整体耗能低,而且可用性极高。

1 面向大数据云存储系统的关键技术

云存储是依据云计算技术发展而来的,将大数据的存储及管理作为核心任务,为外界提供相关的数据存储和业务访问功能。云存储系统的基础是分布式云存储技术、数据加密技术及数据检索技术,上述关键技术的组合方式不但能达到高效整合、管理网络存储资源的目的,还能够对外提供友好的连接窗口,使云计算网络数据的发布方式更加快速,为使用者提供便捷的存储服务。下面详细介绍面向大数据云存储系统的关键技术。

1.1 基于定向随机游走规则的分布式云存储技术

面向大数据云存储系统的分布式存储技术就是利用网络服务商提供的不同存储设备上的存储空间对数据进行传输存储,同时将上述分散的存储资源组成一个虚拟的存储设备。本文依据定向随机游走规则对分布式云存储技术进行分析。

依据定向随机游走规则,在云存储系统源数据包抵达所访问的网络节点v后,从v的所有邻居节中随机选择一个节点u继续进行访问。

假设N(o) 为云存储系统下一个节点o的邻居节点集合;δ(o) = | N(o)| 为节点o的邻居节点个数;c(o) 为定向随机游走此刻已经访问节点o的总次数,则邻居节点u的选择过程如下:

(1)从正在访问节点v的邻居节点集合N(v) 中随机选出2 个节点,将其看作是备选节点,其构成的集合用N′ 表示;

(2)依据给出的条件从2 个备选节点中选择继续访问的节点。

本文面向大数据云存储系统分布式云存储技术的基本原理如下:

面向大数据进行云存储前:每个节点均存储有一个初始值为0 的存储数据包Yi,同时所有数据节点仅存在一个源数据包Xj。

开始进行云存储后:从任意数据节点开始一个步数为cnln n的定向随机游走,对该数据节点的源数据包进行传递;源数据包抵达一个新的节点后,新节点将以概率a lnk k接收源数据包,并且将得到的源数据包储存在自身的存储数据包中;新节点按照定向随机游走规则继续发送源数据包。源数据传递次数达到定向随机游走的给定步数cnln n后,即N > cnln n ,源数据包会被删除。所有k个源数据包均被删除后,即实现了大数据的云存储。详细实现过程如下:

输入:k个源数据包Xv,v = 1,2,⋯,k 。

输出:n个存储数据包Yu,u = 1,2,⋯,n 。

(1)假设数据节点为v ,v= 1,2,⋯,k 。将信息IDv号与定向随机游走步数计数器N = 0 加入源数据包Xv中;

(2)假设云存储系统节点为u ,u= 1,2,⋯,n 。对所有存储数据包的值及所有源数据包已访问节点的次数进行初始化处理;

(3)以概率alnk k接收Xv,并且完成对自身存储数据包的更新。

(4)通过定向随机游走原则将源数据包Xv传输到其相邻节点中。

(5)针对所有抵达节点u的源数据包Xj,若Xj第一次访问节点u ,则节点u以概率a lnk k接收Xj,并利用步骤(2)对自身的存储数据包进行更新,源数据包Xj对头信息进行更新:N = N + 1 。若N < cn ln n ,则节点u按照定向随机游走规则将源数据包Xj传输到其相邻节点中;否则,节点u将删除Xj。

1.2 数据加密技术

因为本文采用的是分布式云存储技术,数据存储在多个数据中心中,所以数据安全成为亟需解决的问题,本文通过RAS加密算法对数据进行加密。

RSA加密算法是一种典型的公钥密码算法,在RSA加密算法中,公钥与密钥均可用于数据的加密。而另一个可以作为对应的解密密钥。

RSA加密算法属于一种依据大整数分解的算法,其过程可描述成n = p × q ,对素数p与q的值进行计算,详细程序代码如下:

RSA加密算法对参数的选择有一定的要求,主要需遵守下述条件:

(1)素数p与q需足够大,同时为强素数。RSA算法的安全性主要是依据p与q因子分解的,因此,需保证p和q是强素数。除此之外,为了保持因式分解的难度,加强RSA算法的安全性,p与q的取值需足够大。

(2) p与q的差不能太小,也不能太大。如果p与q的差过小,则可采用下述方法对n进行分解。若p与q的差过大,即可通过尝试法完成对n的分解。

(3) d不能够过小。解密密钥的值越小,RSA的机密效率越高,然而,若d过小,则可以较小的代价,利用己知明文求出密文。RSA算法中通常。

(4) e不能够过小。 e越小,RSA算法的效率越高,对密钥的管理容易,但e过小则能够利用加密算法c ≡ memod n对密文c进行破解。

为了保证形成的数的素性,需对素数进行检验,详细过程如下:

(1)完成对p-1的分解;

(2)完成对F的分解;

(3) a= 1 ;

(4) a= a + 1 ;

(5)若存在等于1 的情况,则继续进行下一步;反之,进行第七步,结束迭代;

(6)若p为素数,进行下一步,结束迭代;反之,重新进行第四步;

(7)结束迭代。

1.3 数据检索技术

数据检索技术是云存储系统的关键技术之一,检索性能的好坏不仅决定着系统的可靠性,还决定着数据的访问效率。

用户在对云存储数据进行检索时,通过访问n个云服务器中任意k个服务器实现对原始数据的还原。通过下式对用户检索所选k个云服务器上的全部编码向量与编码标记进行验证。

若某编码标记验证失败,则用户将向第三方服务器发送报告,同时对替代云存储服务器进行访问。若k个存储服务器编码标记均验证成果,则用户仅对编码向量进行置信传播解码算法,同时对有利于解码的编码向量ID进行统计。同时,数据用户从相应的存储服务器处检索对应的编码分组和检索标记,完成对编码分组完整性的验证。通过对编码分组进行和编码向量相同的计算过程,能够恢复文件M的全部原始分组。最终,对文件进行M解密操作,同时得到明文数据,以完成云存储系统的检索。

2 仿真实验结果分析

本文实验在真实的网络环境下进行,拓扑结构如图1 所示。

图1 中的拓扑结构由10 个数据节点Data Node、1 个中心路由节点Center和1 个客户端节点Client构成。软件环境为Windows 7.0。实验将Hadoop系统作为对比进行分析。

2.1 运行时间分析

在数据量较小的情况下,随着存储数据的逐渐增加,将本文系统和Hadoop系统消耗的时间进行比较,这里消耗的时间主要包括读取时间、存储时间和写入时间。

分析图2、图3 可以看出,当数据量较小时,本文系统和Hadoop系统所消耗的时间相差不大,而当数据量较大时,本文系统所消耗的时间明显低于Hadoop系统,这是因为本文系统专门面向大数据而设计,时间优势非常明显。

2.2 系统可用性分析

当数据节点数为100 个时,对本文系统和Hadoop系统数据分布情况进行统计,得到的结果分别见图4、图5。

分析图4、图5 可以看出,和Hadoop系统相比,本文系统的数据分布情况更加均匀说明本文系统具有很高的可用性。数据的分布情况对整个系统性能的影响很大,如果数据分布不均匀,会导致负载不均衡,使节点宕机,造成数据迁移,大大降低系统的可用性。

2.3 网络的整体能耗

对本文系统和Hadoop系统的网络整体能耗进行比较,得到的结果如图6 所示。

分析图6 可以看出,当存储数据数量不同时,两种系统的整体能耗变化不同。本文系统的总消耗明显低于Hadoop系统,这主要是因为Hadoop系统需要在整个云存储系统中来寻找存储点,大大增加了存储所需的时间,提高了网络的总体能耗。

3 结语

本文介绍了面向大数据的云存储系统的关键技术,依据定向随机游走规则对分布式云存储技术进行分析。为了保证数据安全,通过RAS加密算法对数据进行加密,利用公钥或密钥均对所需存储的数据进行加密,将另一个作为对应的解密密钥对数据进行解密。为了保证系统的可靠性和数据的访问效率,详细分析了数据的检索技术。通过云存储技术、数据加密技术和数据检索技术的组合方式达到高效整合、管理网络存储资源的目的,对外提供友好的连接窗口,使云计算网络数据的发布方式更加快速,为使用者提供便捷的存储服务。仿真实验结果表明,采用所提关键技术的云存储系统不仅运行时间和整体耗能低,而且可用性极高。

参考文献

[1]林丽,种大双.高校数据中心私有云存储系统研究[J].软件导刊·教育技术,2014(4):85-87.

[2]杜芸芸.一种面向纠删码技术的云存储可靠性机制[J].计算机应用与软件,2014(2):312-316.

[3]闫智,詹静.面向行为可信的大数据安全系统形式化描述[J].电信科学,2014,30(7):32-38.

[4]孙燕飞.大数据场景下基于HDFS的云存储服务系统设计[J].数字技术与应用,2014(2):172.

[5]毛文彬.面向大数据的分布式系统设计关键技术研究[J].无线互联科技,2014(11):150-151.

[6]傅颖勋,罗圣美,舒继武.安全云存储系统与关键技术综述[J].计算机研究与发展,2013,50(1):136-145.

[7]孙勇,林菲,王宝军.面向云计算的键值型分布式存储系统研究[J].电子学报,2013,41(7):1406-1411.

[8]赵铁柱,邓见光.面向大规模数据备份的云存储网关研究[J].计算机光盘软件与应用,2013(12):43-44.

[9]费贤举,王树锋,王文.一种海量大数据云存储系统框架设计[J].常州工学院学报,2014(3):38-42.

8.大数据,变革世界的关键资源 篇八

大数据既是一类数据,也是一项技术。作为数据,它呈现容量大、增长速度快、类别多、价值密度低等特征;作为新一代信息系统架构和技术,它能够对数量巨大、来源分散、格式多样的数据进行采集、存储,并进行关联性分析。大数据通过数据整合分析和深度挖掘,发现规律、创造价值,进而建立起从物理世界到数字世界和网络世界的无缝链接。大数据时代,线上与线下、虚拟与现实、软件与硬件重叠交错、跨界融合,将重塑我们的认知和实践模式,开启一场新的产业突破与经济转型。

我们正处于大数据变革的时代。移动互联网、智能终端、新型传感器快速渗透到地球的每一个角落,人人有终端、物物可传感、处处可上网、时时在链接,数据增长速度用几何式增长甚至爆发式增长都很难形容得贴切。有机构预计,到2020年全球数据使用量将达到约44ZB(1ZB=10万亿亿字节),将涵盖经济社会发展各个领域。由此产生的革命性影响将重塑生产力发展模式,重构生产关系组织结构,提升产业效率和管理水平,提高政府治理的精准性、高效性和预见性。毋庸置疑,大数据将创造下一代互联网生态、下一代创新体系、下一代制造业形态以及下一代社会治理结构。

大数据还将改变国家间的竞争模式。世界各国对数据的依赖快速上升,国际竞争焦点将从对资本、土地、资源的争夺转向对大数据的争夺,重点体现为一国拥有数据的规模、活跃程度以及解析、处置、运用数据的能力,数字主权将成为继边防、海防、空防之后又一个大国博弈领域。各主要国家已认识到大数据对于国家的战略意义,谁掌握数据的主动权和主导权,谁就能赢得未来。新一轮大国竞争,在很大程度上是通过大数据增强对世界局势的影响力和主导权。

经过多年努力,我国已拥有全球最多的互联网用户和移动互联网用户、全球最大的电子信息产品生产基地、全球最具成长性的信息消费市场,培育了一批具有国际竞争力的企业。庞大的用户群体和完整的经济体系积累了丰富的数据资源,而工业互联网将进一步激发大数据发展的潜力,不断拓展信息产业新蓝海。

当前和今后一个时期,创新、变革、融合成为产业发展主旋律,蕴藏巨大发展机遇。随着我国经济发展进入新常态,无论保持经济中高速增长、促进产业迈向中高端水平,还是营造大众创业、万众創新的发展环境,大数据都将充当越来越重要的角色,在经济社会发展中的基础性、战略性、先导性地位也将越来越突出。

2015年是我国建设制造强国和网络强国的关键之年,国家制定发布了《中国制造2025》和“互联网+”行动计划,极大地激发了全民创新创业的热情,也明确了大数据发展的战略方向。日前,国务院常务会议通过了《关于促进大数据发展的行动纲要》,强调开发应用好大数据这一基础性战略资源。应按照建设制造强国和网络强国的战略部署,加强信息基础设施建设,提升信息产业支撑能力,构建完善以数据为核心的大数据产业链,推动公共数据资源开放共享,加快推动核心技术、应用模式、商业模式协同创新发展,将大数据打造成新常态下经济提质增效升级的新引擎,为经济发展和社会进步提供更加有力的支撑。

上一篇:令人伤感的唯美经典语录下一篇:一段话经典励志的语录