大数据平台创业团队(共9篇)
1.大数据平台创业团队 篇一
密级:内部公开
环境数据中心
大数据平台分析
Big data platform analysis
SOFTWARE PRODUCT
聚光科技(杭州)股份有限公司
内部资料 注意保密
目 录
1.大数据背景...............................................................................................................1
1.1.什么是大数据................................................................................................1 1.2.发展现状........................................................................................................1 1.3.大数据的应用................................................................................................2 2.大数据平台介绍.......................................................................................................4
2.1.定位................................................................................................................4
2.1.1.产品概述............................................................................................4 2.2.功能................................................................................................................4 2.3.设计................................................................................................................4 2.4.技术..............................................................................错误!未定义书签。2.5.总结................................................................................................................4 3.环境数据中心...........................................................................................................5
3.1.背景定位........................................................................................................5 3.2.功能................................................................................................................5
3.2.1...............................................................................................................5 3.2.2.............................................................................错误!未定义书签。3.3.设计................................................................................................................6 3.4.技术..............................................................................错误!未定义书签。4.总结...........................................................................................................................6
I
内部资料 注意保密
1.大数据背景
1.1.什么是大数据
大数据最早在上世纪90年代被提出,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
现在,业界普遍认同所谓“大数据”具有明显的“3V特征”:量级(Volume),速度(Velocity)和多样性(Variety)。大数据普遍具有量级大,要求处理速度快,数据本身具有丰富的多样性。在甲骨文公司和中国移动研究院的相关研究文档里,都追加了第四个V——Value,价值;而IBM在其相关文档中给出的第四个“V”则是真实性(Veracity)。
大数据的价值:在海量的规则或不规则数据之中,用新的数据处理手段,以很快的速度计算或分析出潜在规律性、根本性的判断、趋势或预见。
1.2.发展现状
随着移动互联网的带宽的增加和智能设备销售量的上升,互联网业迎来了“云计算”和“大数据”。世界经济论坛一份有关大数据的研究报告称,每天全球几十亿人使用计算机、GPS设备、电话和医疗设备,产生海量的数据信息。这些用户大部分来自发展中国家,他们的需求和习惯尚未被真正理解,如果能够借助大数据相关技术分析和挖掘数据背后的信息,将有助于认识需求、提供预测和防范危机。
大数据的真正意义并不在于大带宽和大存储,而在于对容量大且种类繁多的数据进行分析并从中萃取大价值。采用大数据处理方法,生物制药、新材料研制生产的流程会发生革命性的变化,可以通过数据处理能力极高的计算机并行处理,同时进行大批量的仿真比较和筛选,大大提高科研和生产效率。数据已成为矿物和化学元素一样的原始材料,未来可能形成“数据探矿”、“数据化学”等新学科和新工艺模式。大数据处理的兴起也将改变云计算的发展方向,云计算正在进入以AaaS(分析即服务)为主要标志的Cloud 2.0时代。
内部资料 注意保密
项目使得卫生单位及早研制预防疫苗,及早控制疫情的扩散,大幅降低了流感的传播。
3、飞机票价高低和多早预购的关系
也许大家会直觉地认为越早买机票就越可以买到较便宜的机票。一家叫Farecast公司的创始人从他的亲身经验启发了一个新的服务。他发现坐他旁边的人比他晚好几天购买机票却比他的购买价格还低。于是他搜集了所有航空公司的票价与提前订购时间的数据关系,并建立了数学模型。现在我们任何人可以上到他的网站:farecast.com,输入你的出发地和目的地,加上你要出发的时间,马上这个网页能告诉你是现在就赶快买票还是再等几天才买。
内部资料 注意保密
3.环境数据中心
3.1.背景定位
环境管理部门每天要面对大量的数据,如环境监测数据、排污收费数据、排污申报数据、环境统计数据、环保信访数据、行政处罚数据、总量减排数据等。这些数据,往往存在来源复杂、格式多样、不一致、不准确、不完整、存放分散等问题,给环境管理带来诸多困难。各业务系统也彼此独立,从而形成了一个个信息孤岛,数据难以共享,环境决策缺乏有效的数据支持,难以做到科学决策。因此,需要建立统一的环境数据中心,全面整合各类环境资源数据,实现数据的集中管理。使之成为环保各业务科室之间协同工作的数据中心,成为多媒体、文档资料和政策法规的存储中心,成为环保决策所需的数据仓库中心。
3.2.功能
3.2.1.数据的管理
数据中心的数据来源主要于:
1.国家下发的软件系统,如污染源普查软件、环境统计软件; 2.已有的业务系统,如排污申报与收费管理系统、12369环保热线等。3.Excel表格、电子文档、图片、视频、扫描件等;
4.数据直报系统:系统提供定制的录入界面,用户手工填报。
对于这些来源复杂、格式多样、不一致、不准确、不完整、存放分散的数据进行统一的标准建立,实现信息共享,数据交互
3.2.2.数据的管理
1.文件的上传、修改、删除 2.元数据的编辑
2.大数据创业样本 篇二
大数据是近两年来爆发的最热门IT概念之一。进入2012年,这个领域的风潮逐渐从专业IT人士和数据分析师,扩散到所有关注科技、互联网以及营销领域的人群中,甚至还包括政界人士。这种背景下,在商业、经济及其他领域中,决策行为将日益基于数据和分析而作出,而并非基于经验和直觉;而在公共卫生、经济预测等领域中,“大数据”的预见能力也已经崭露头角。
数据背后潜藏着巨大的商业机会。以前只有Google、微软这样的公司能做大数据的深挖,现在已经有越来越多的创业公司进入,不同公司在不同层面的数据分析和服务领域正创造出新的商业模式。这些专注于数据挖掘和数据服务的公司将成为电子商务乃至互联网第三方服务业中的新兴力量。
对于IT厂商来说,这是一个自身从传统IT产品跨越到商业智能的绝佳机会;而对有志于这个领域的新型创业者来说,更是一个不可错过的新兴机会。以2012年的趋势看,有六个模式值得关注:基于Hadoop的分析工具和产品、数据收集再加工服务、数据可视化产品、社交媒体数据分析工具与方案、基于数据挖掘的商业智能与情报咨询服务。
基于Hadoop的分析工具和产品
越来越多企业开始使用Hadoop平台处理大量数据。基于Hadoop做面向开发者的分析工具集,或者直接面向企业IT部门的分析管理工具,越来越成为一种流行趋势。
很多传统的数据库管理系统开始整合Hadoop服务,以便更好地为企业服务,如惠普、戴尔、甲骨文、IBM等知名公司都分别有针对自家需求的Hadoop服务。此外,云端上的Hadoop服务让大数据分析和处理更加方便快捷。同时这也证明,目前开源的Hadoop相关的技术分析也存在明显缺乏相应的技术、环境、数据安全以及可行性,而这正是新商机。
Cloudera、Hortonworks和MapR是目前最被看好的“Hadoop三驾马车”,它们属于那种“纯大数据”公司——核心业务围绕Hadoop发行版和Hadoop应用展开。由于大数据核心技术Hadoop属于免费的开源技术,用户无需付费就可下载使用,所以Hadoop创业公司的盈利模式与Oracle这样的传统数据库巨头大不相同,它们主要靠提供Hadoop增值产品(软件授权费)和增值服务挣钱。
目前,规模最大的Hadoop企业当属Clouderao简单来说,Cloudera提供企业直接使用的企业版Hadoop,它开发了自己的工具包,让通过Hadoop搜索数据变得更加容易。同时,Cloudera还在努力建设更广泛的合作生态系统,从而让更多不同应用能使用Hadoop服务。
出身Facebook的创始人Jeff Hammerbacher在创办Cloudera前就使用Hadoop来分析社交用户行为,后来他将相应的技术转移到了Clouderag之中,目前Cloudera获得了7600万美元的融资。
Cloudera目前比较受关注的领域是医疗健康行业。简单来说,Cloudera采用大数据来改善大众的健康,而整个卫生保健行业也会因为受到大数据的驱动而催生更好的创新和服务。Hammerbacher指出,公司一个重要的客户就是Explorys Medical。他们通过采集病人数据,从而揭示疾病治疗、护理和药物测试等方面的见解。“我们要处理各种各样的医疗数据,比如说医生处方、图像、医生笔记等。消费者可以通过分享这些数据而推动医疗行业的变革。”
社交媒体数据
社交媒体所产生的海量非结构化数据一直以来都被作为大数据时代来临的标志。人们已经承认,随着像Twittter、Fcacebook等社交网络媒体的爆发,越来越多的商业活动和信息会受到他们的影响。目前,基于社交媒体的创业公司数不胜数,但从大数据角度进行商务挖掘和营销战略的,是最有前景的一类。毕竟,奥巴马利用大数据在美国大选中获胜的经典案例也是出自社交媒体分析领域。
另一方面Twitter开放其数据管道Firehose对于社交大数据分析来说无疑是一个晴天大利好。利用Twitter实时数据你几乎能进行各种数据分析,从奥斯卡电影人气到美国总统支持率,再到产品用户满意度分析,可谓一座不设防的数据大金矿。
但是掘金Twitter“快数据”也对分析系统提出了很高要求,Datasift是少数能吃下Twitter数据的顶级社会化分析工具之一。
Datasift是一个社交数据分析平台,向企业市场人员提供twitter、Facebook、Youtube、博客、甚至Wikipedia等社交媒体的数据可视化分析技术和服务,监测社交营销成效,并帮助品牌公司掌握突发新闻的舆论点,并制定有针对性的营销方案。它甚至创建了一个自己的互联网规模的关键词过滤系统,能够快速评估热门关键词。
另一个优势是Data Sif从Twitter购买了多年的数据同步授权,能够访问所有Twitter管道数据,并将子集卖给第三方,主要是企业客户。目前只有Gnip获得了同样的授权。举个简单的例子,Data Sift可以根据Twitcer的数据对两届奥运会进行横向对比,从中了解并分析公众对当时新闻和事件的反应。Data Sift的前景逐渐明朗,现在客户数已经超过了10000个。Data Sift目前已经拥有超过200个客户,其中不乏财富500强企业,Data Sift的收入主要来自向客户收取的每月200美元的服务费用。
数据收集在加工服务
数据的商业价值越来越被挖掘,但Hadoop并不能代表一切。一家著名的大数据公司Par Accel则颠覆了Hadoop的神话。ParAccel的CEO Chuck Berger指出,太多创业公司陷入了“大数据=非结构化数据的大数据=Hadoop”的逻辑。除了非结构化数据和半结构化数据以外,结构化数据也在快速增长。
nlc202309011925
ParAccel在数据领域也是久负名气的。它们最成功的案例之一是向美国执法机构提供数据分析能力——ParAccel通过了一些渠道获得不少犯罪数据,并对18000个有犯罪前科的人进行跟踪,从而向执法机构提供了参考性较高的犯罪预测。所以ParAccel也被成为“犯罪的预言者”。
今年登陆纳斯达克的“大数据概念股”SpIunk也是这方面的佼佼者。由于Splunk是以MapReduce架构为基础的软件,在普通的硬件上安装Splunk和Splunk转发器,就能构成大量字节,形成庞大的系统数据,这个量级可以达到每天数TB并逐渐向PB数量级扩大。而他们的软件可以为机器生成的海量数据建立索引,将其整理成可以搜索的链接。公司们则像使用Google那样来搜索这些链接,用来实时分析消费者行为。
具体来看,Splunk属于商业智能软件提供商,其软件可用于监控、分析实时的机器数据以及TB级的历史数据,且数据来源不限,可以是本地也可以来自云。比方说,Splunk可以实时对任何app、服务器或网络设备的的数据进行索引并提供搜索,这些数据可以是日志、配置文件、消息和告警等。据了解,Splunk的客户包括瑞士信贷、美国银行、Comcast、Salesforce、Zynga,LinkedIn、T-Mobile以及美国劳工部和能源部等。其客户数量超过3700,财富100强的大部分成员皆为其客户。比如社交游戏公司Zynga通过该公司的软件监测游戏功能,用来确定玩家卡在什么地方,离开游戏,然后就可以即时调整游戏,挽留玩家。
数据可视化等简化数据使用的服务
另一个不可忽视的现象是,大数据虽然对于计算机工程师来说并不是很陌生,但是它一直将营销人员等非专业人士拒绝于门外。不过这种状况会逐渐得到改善,因为很多大数据领域的创业公司在不断崛起,他们很多都是致力于让更多的人以更简单的方式“消化”这些数据。
Origami Logic就是一家让营销人员便于利用大数据的创业公司。通过数据可视化以及自助分析的方式,这个平台能够帮盼营销人员作出更有效果的策略。
这家公司打算在明年的早期发布相应的产品,现在还是处于内测阶段。根据联合创始人兼CEOOpher Kahane表示,Origami Logic的目的就是让销售和市场人员把CRM、社交媒体、邮件营销和调查报告等不同平台的数据汇合在一起,并做出相应的整理和分析,利用有效的数据帮助他们做进一步的营销活动或者衡量整个营销效果,让大数据不再是专业人士的私家工具。
QlikTech也是致力于这—领域的明星公司之一。值得注意的是这家公司是在90年代后期建立的,并从互联网危机中存活下来。QlikTech在2010年的时候顺利上市,目前用户数量为2600万,公司估值超过20亿美元,旗下的Qlikview是一个商业智能领域的自主服务工具,能够应用于科学研究和艺术等领域。
最近Google发布了Google BigQuery,方便开发者获取大量数据。QlikTech则和Google合作,以便于开发者更好的利用大数据。为了帮助开发者对这些数据进行分析,QlikTech提供了对原始数据进行可视化处理等功能的工具。
数据分析与商业咨询服务
全新的、更具竞争力的商业智能服务,这也是大数据最为吸引人的地方之一。传统数据仓库的性能已无法应付庞大的信息,但是大数据(Big Data)技术使我们能够访问和使用这些宝贵的、大规模数据集以应对越来越复杂的数据分析和更好的商业决策制定——大数据将改变商业智能(BI)的布局,并能为企业提供一种有价值的数据源,这在当下已经成为了一种趋势。
颠覆传统的BI模式,Good Daca的愿景很庞大,它们提供的是基于云的数据分析服务。
GoodData提供的软件即服务(SaaS)数据分析解决方案适应性十分强大,使用也更方便。但其竞争对手都是一些业界巨头,包括IBM、SAP和oracle等。不过,GoodData的优势正是商业模式。跟那些巨头提供的套件式解决方案不同的是,GoodData向广大的Saas提供商提供技术集成服务(可以称之为SaaS提供商的SaaS提供商),让他们在自己的平台中集成其数据分析技术,从而使得这些Saas提供商可以向最终客户提供诸如仪表盘、报表等功能。
最近几年,由于社会化媒体的兴起,数字营销逐步成为营销业者关注的焦点,但是营销人员对这个领域仍缺乏有效的介入手段。因此GoodDat胡苗准了这一点,利用集成服务为营销人员提供对微博、社交网络及在线营销活动的深度分析功能,并将此作为商业智能的入口,并成功的成为了一家商务情报和资讯公司。
3.大数据平台创业团队 篇三
创业培训数据查询平台主要是应用数据查询应用平台,不仅仅有着软硬件设施, 同时也要做好数据服务器的平台运行保障管理。通过安装浏览器的PC 机, 并构建硬件环境和服务器管理平台。
1.1平台设计方案
平台架构的设计, 结合Windows 环境下进行开发, 结B/S架构进行设计, 用户借助于Web 浏览器进行在线查询创业培训的数据, 一旦查询完毕并返回到用户最原始的界面。
1.2平台体系结构
4.大数据平台创业团队 篇四
面向全国客户:省、市、县政府、财政局、地税局、管委会等政府综合治税部门。系统可根据客户需求定制开发,以下功能仅供参考。
综合治税是由地方政府多部门通力合作的税收征管及监控活动。推进政府税收保障工作、加强综合治税力度是提高财政收入质量,增强财政实力的重要保证,尤其从目前征管现状来看,由于涉税信息传递不畅,部分行业、部分税种特别是一些地方零散税源跑冒滴漏现象还较为突出,一定程上造成了税收流失。充分依托各相关部门、单位的职能,建立健全税收保障工作机制,对于实现涉税信息共享、推进综合治税工作、培植壮大税源、依法加强税收征管、堵塞税收漏洞、有效防止税收流失,促进税收与经济协调增长具有非常重要的意义。
综合治税平台是一个跨部门、跨系统的电子政务系统,涉及到市财政局、市国税局、市地税局、市工商局、市质监局、市规划局、市建设局、市水利局、市交通局、市房管局、市供电公司、市公安局、市司法局、市中级法院、市教育局、市科技局、市经贸委、市人事局、市残联、市国资委、市物价局、市文化局、市体育局、市国土局、市环保局、市外经局、市发改委、市劳动保障局、市民政局、市卫生局、市统计局、市城管局、市审计局等(以下简称涉税部门)相关市直部门的数据采集、数据交换、数据整合、应用开发。
客户使用案例:山东济南、济宁、青岛、德州、菏泽等地区;河南郑州地区;江苏徐州地区;湖北恩施州地区;湖南常德地区;贵州遵义、毕节地区; 系统部分功能点介绍(以下仅是系统部分功能,详细方案联系客服)
一、数据上报、采集、查询(涉及40 个部门左右)
二、绩效管理
三、指标报送详情、统计等
四、数据比对(包含地税分析系统、国税分析系统、营改增分析系统等)
1、户籍比对
2、国地税、国税公司信息比对
3、地税工商信息比对
4、出租房屋(房地产税收管理)
5、根据国税的增值税和消费税,地税的营业税,三者税款根据税款缴纳比率,计算出三个附征税款的缴纳数,同附带的三个附征税进行比对。同时进行比对,计算出差额。从而找出遗漏的税款。
6、土地信息比对
7、用电、用水、用气信息比对
8、医保刷卡信息比对
9、酒店、住宿业信息比对
10、交通行业信息比对
11、驾校信息比对
12、房屋销售信息比对
13、股权变更信息分析
14、房产税分析
15、商品房销售情况分析
16、车船税分析
17、其它行业、税种信息比对,可根据地方需求定制开发。
五、疑点欠税问题分配处理、绩效考核等
六、税收查询分析
1、一户式分析、规模企业分析、高新企业分析、重点税源分析等
2、数据综合查询统计分析
3、纳税排名
4、重点企业重点税种同比分析
5、国地税收入行业税收对比
6、分行业、区域、税种、级别、机关单位等税收统计分析
7、柱状图、折线图、饼状图等图形展示税收情况。
七、财政收入分析 1 金库报表查询分析 收入报表查询(一般预算收入分析、全口径、分行业、区域、税种等分析,同
比、环比等分析)3 非税收入分析 4 重点项目查询分析
八、税源电子地图(地理信息系统)功能
1、纳税企业标注功能
2、纳税企业地图查询
3、纳税企业一户式查询、统计等功能
九、掌上应用平台app
1、纳税排名
2、税收情况分析
5.大数据平台创业团队 篇五
2. 管理和优化Hadoop、Spark等集群,计算作业的调优,保证集群和平台的高效和稳定;
3. 负责Hadoop、Spark、Flink的功能、性能和扩展,解决并实现业务需求;
4. 负责大数据产品的自动化、离线与实时计算、即席计算、数据质量、数据安全、机器学习等平台的设计和开发;
6.当精准广告平台遇上大数据 篇六
随着数据规模越来越大,如何将数据资源转化为有效生产力是一个重要的课题。《互联网周刊》特别采访到聚效广告董事长兼CEO杨炯纬,和我们分享对大数据的看法,以及在大数据之路上的探索历程。
大数据从哪里来?
谈起大数据的前世今生,已在数字广告业耕耘多年的杨炯纬深有体会:“整个大数据营销的发展都是围绕着数据资源基础以及广告主的需求而展开的,可以说聚效本身就是一个为满足客户对效果的要求,而去不断寻找和获得数据以及提高数据使用能力的过程。”
目前在精准营销中已经普遍被认同的企业第一方数据应用,也就是访客找回或者说“再营销”、“重定向”等手段,杨炯纬认为这是公认最有价值的数据来源之一。针对曾经访问过广告主网站人群的定向投放,一直是DSP们最重要的精准投放手段。而聚效广告在这一块的运用尤其出色。众所周知,聚效广告和诸多电商网站有着深入合作,基于电商网站每个访客对于每件商品的访问行为数据进行商品级别的个性化智能广告推荐,每天利用第一方数据组装展示的广告达到千万级别。正是基于对海量数据的实时收集和计算能力,实现了海量访客行为和海量商品之间的精准推荐匹配,产生了惊人的广告效果。
但是,第一方数据的应用存在着瓶颈:“有几个问题不能解决。首先如果是一个全新的、从来没有访客的网站,就是所谓的冷启动状态,无法用重定向。其次,一些用户需求特别细分、需求频次很低,一旦被满足,很长时间内都不会重新有需求,比如汽车、教育、机械等行业,这些用户做重定向展示广告的效果就不佳,但这些行业如果用搜索词来定向,效果就会很好。”
聚效也寻找过第三方数据供应商以获取数据,但实际检验下来效果差强人意。杨炯纬表示,主要还是这些数据的商业价值过于稀疏。市场上最好的数据是购物数据和搜索数据,社交数据的价值次之。这类最有价值的数据均掌控在百度、阿里、腾讯等大型企业手中,且并不开放,即使能拿到,数据粒度也很粗,用于效果营销还很不够。第三方广告平台商拿到的數据,一般靠安插网页代码或者从广告交易平台获得,大多为用户的媒体浏览行为,价值相对较低。
“为了拿数据我连控股权都卖了”
“我们服务了几千家的电商,电商的数据量非常足够,也很精细化。几乎可以说,中国对于用户购物行为的拥有量阿里第一、京东第二、聚效第三。但是,除此之外,在很长时间一段里,我们依旧是在沙里挖金子。”杨炯纬在肯定聚效实力的同时,也表现对数据的制约的苦恼,这也是聚效选择将控股权交给360的深层次原因。
在原本的购物数据优势之下,聚效获得了中国第二大搜索引擎360非常多的数据。杨炯纬笑言:“我是一个特例,为了拿数据我连控股权都卖了。我们拿到的是360最细粒度的数据,包括最有价值的搜索数据。我们这几月一直在研究360的数据,360的人群有很特殊的特征,有的用户从浏览器到导航、搜索引擎到安全软件再到手机卫士全部都用360的。我们对这部分人群的认知和画像就非常丰满和精确。”
交谈中,杨炯纬提出了一个很有意思的词——厚数据。在他看来,大家都在讲大数据,百度有搜索数据,淘宝有购物数据,别人都是“摊大饼”,比拼的是在一个维度上的数据优势,而聚效更像在一摞饼上切了一个角,讲究抓住特定人群多个维度的数据。
目前,在聚效上投放广告的广告主已经超过三、四万家,其中数万家来自于360点睛平台,所以聚效已经不仅仅是一个原有意义上的DSP,从广告主规模上已经是跟百度网盟,谷歌网盟类似360的全网营销平台。
聚效目前也在跟那些注重效果的品牌广告主共同搭建一些针对目标用户的营销模型,推出了消费者洞察模块。只要获得曾在网站里深度访问过的用户样本,聚效就能够运算出这些访客样本的Cookie在整个平台的人群画像是什么样,继而以这几万个人的人群画像特征为基础,在全网以更大的规模把最相似的消费者挑出来。
聚效与360合作之后,甚至可以不需要样本,只抓住搜索过品牌词和关键词的人的行为特征,再去寻找全网跟这些行为特征最相似的人群,就解决了受众是谁的问题。
效果导向的精准广告平台
在记者看来,聚效广告平台有三个关键词:自助、效果营销、中小广告主,这让聚效在各种广告平台中显得有一些特别。
聚效广告平台是全自助式的。对于海量的中小广告主而言,由于预算有限、对效果要求又高,加之没有庞大的专业服务团队来进行广告投放,因此一个平台的透明、简洁、以及智能化,对于广告主而言就尤为重要。在什么样的广告位上挑选什么样的受众?给他们看什么信息?出价多少是合适的?这对广告主而言并不全都能投放正确。而聚效对于一些特定行业的广告主,比如电商,广告主只需要将商品库上传,在后台选择营销目标是流量、注册还是订单,聚效就能够实现智能地挑媒体、智能出价以及实时生成个性化动态广告创意,这展示了聚效极强的技术能力。
为什么选择做效果营销,而不是品牌广告?杨炯纬表示,并非不愿意做品牌广告主,其实在聚效平台上,也不乏像耐克、西门子、洲际酒店等等知名广告主。但从聚效的立场和定位出发,聚效还是会坚持自己的效果导向定位,而目前的品牌广告并不完全适合他们进入。
在现在的市场环境下,大量的品牌广告主本质上对过程是没法控制的,程序化购买市场上对品牌广告主存在的作弊现象严重到令人发指。在不少做品牌广告主业务的DSP的收入模型中,有很多钱都花在了市场费用、销售费用、渠道成本上,真正的投放花费则少之又少。这时候,当广告主向广告公司要效果的时候,一部分公司就只能通过做假数据或者到其他渠道购买效果来蒙混过关。而正是由于这种主要依赖于关系和包装的商业模式,也使得实际的技术产品显得根本没那么重要。
对于中小企业主来说,这股风气从来没有刮起过。因为这个群体对效果很敏感:“这也是聚效选择从中小广告主入手的原因,越小的客户越重视效果,我做的越得心应手。尽管毛利低很多,但是客户获取成本和客户维护成本也是极低的。聚效对作弊零容忍、电信拦截和电信弹窗坚决不做。”自助的使用方式也使得这个平台完全透明,投放记录不可更改,只要登录后台就一目了然。
“我们相信品牌广告主不会永远被忽悠,欢迎品牌广告主到我的系统来玩,哪怕通过代理公司,只要广告主自己有聚效的账号,能登录平台看到真实的投放效果就行。我们目前只是专注做自己的事情,以后慢慢市场会发现有这么一家公司从没有作弊丑闻,会建立起信任。”事实上,当聚效的市场品牌慢慢建立起来之后,客户中已经不乏年投入过千万的品牌客户。
做效果广告需要极大的底气。杨炯纬透露,目前聚效广告的模式是,广告主按CPC出价,聚效的系统再转换成CPM到广告交易平台出价,这种模式下广告主的利益得到了最大的保证,如果没有实力,是绝对不可能用这样的模式,因为控制不好就会亏损。
记者从聚效的玩法中看到了互联网的思维,作为第三方的平台,不是仅仅服务大客户,而是解决长尾的这部分人群,用双赢的的办法服务好每个领域里中小型客户,而当产品越来越成熟之时,大中型客户也会接踵而至。
让大数据流动起来
杨炯纬表示,数据的采集是数字广告业最大的壁垒。目前还看不出来数据的流动性,也不知道什么时候才能让没有数据的公司买到足够有价值的数据。从数据壁垒上已经形成了一些拥有优势的公司,百度、腾讯、阿里都在其中,360和聚效也算是一家。
7.大数据平台创业团队 篇七
工作方案(草案)
现代社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。阿里巴巴创办人马云就提到,未来的时代将不是IT时代,而是DT(Data Technology)的时代,有人把数据比喻为蕴藏能量的矿,大数据价值并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。大数据产业面临非常好的发展机遇:一是在国家大数据战略以及大众创业催化下,大数据领域迎来产业风口; 二是物联网、人工智能、智慧城市等智慧产业的背后都是大数据应用的身影;三是以大数据、人工智能为代表的新兴科技驱动了大多数产业开始进行产业革新,行业秩序开始重塑。
与此同时,数据驱动的智能时代正在到来,如何利用机器学习,统计分析的方法,从数据中发现规律,将真正体现大数据应用在数据的深度挖掘上。为此,举办大数据和人工智能双创大赛,发现并支持优秀的大数据和人工智能创业团队,推动其在金融、零售、教育、医疗、人工智能等多个行业及领域的市场主体顺利完成大数据应用整合,并促进大数据和人工智能产业的健康发展。
【宗旨】--------------------------
1、打造有影响力双创赛事平台,集聚国家和区域创新重要元素,推动我国大数据和人工智能产业健康发展。
2、组织相关投资机构和行业专家共同探讨、预判中国未来相关产业的投资机会,发现具有爆炸性成长机会的创业团队和好项目。
3、以“数据驱动,智见未来”为本次大赛的主要目的,将发现投资机会与社会的需求协同起来,挖掘培养大数据,人工智能领域创新人才。【主办单位】---------------------深圳软件园管理中心
深圳市创赛基金投资管理有限公司 上海大数据联盟 示范性软件学院联盟 深圳市大数据产业促进会 深圳市信息职业技术学院
【承办单位】------------------------南方创投网 松禾创新孵化器 数据猿 鹏城IT人 【支持院校】
深圳市信息职业技术学院 清华大学深圳研究生院 北京大学深圳研究生院 哈尔滨工业大学深圳研究生院 深圳大学信息学院
南方科技大学计算机系
【协办单位】 深圳软件园龙华分园 天安数码城 蛇口网谷 招科高智 深圳软件产业基地 大运软件小镇 【投资机构】 待列出
------------------------【主办单位分工】----深圳软件园:
1、对接深圳市相关政策支持;
2、协调国内外相关软件院校推荐专家和项目; 深圳市信息职业技术学院:
1、对接大学师生创业资源;
2、对接国内相关高校支持;
3、工作团队和孵化器支持; 上海大数据联盟
1、对接上海市相关政策支持;
2、引导大数据生态环境建设,为参赛企业对接产业扶持和产业配套;
3、举办上海专场赛事推介会或项目路演会。
深圳市大数据产业促进会
1、引导大数据生态环境建设,为参赛企业对接产业扶持和产业配套;
2、推荐专家、项目,举办专场赛事推介会或项目路演会。创赛基金:
1、牵头组建评审组负责项目筛选;
2、分工联系主承办单位及投资机构;
【承办单位分工】---------南方创投网:
1、媒体宣传及南方创投网媒体发布;
2、推荐投资机构和项目源;
3、专人后台咨询及事务组织工作。松禾创新孵化器:
1、落实优秀项目入孵孵化器;
2、协调后续投资事项。数据猿:
1、行业领域媒体支持;
2、引导大数据生态环境建设,为参赛企业对接产业扶持和产业配套;
3、举办北京专场赛事推介会或项目路演会。各协办单位:
推荐项目,根据情况举办专场推介会或项目路演会。主办、承办、协办单位权利:
1、共享赛事平台资源,以本赛事平台名义对外宣传;
2、可推荐项目直接晋级复赛;
3、可依托本赛事平台谋取赞助,赞助经费在提留给赛事平台20%以后,剩余款项由具体承接赞助方全权负责各项开支事项。
注:在本赛事平台没有取得经费支持之前,主承办单位义务承担上述各项工作,包括会务组织、媒体宣传、项目推荐和赛事组织等。
【媒体合作】---------------------------全景网 深圳商报 南方创投网 数据猿
【组织机构】---------------------------
【组委会】---------------------------成员:徐绍禹 张云鹏(各主办单位领导)【组委办】
成员:王辉 孙立清 时炜 赵春雷 牟蕾 吕艳丽 戴婉容(各主承办单位工作负责人)【工作小组】
项目组、赛事组、宣传组、会务组、合作组。【大赛优势】---------------------------
1、直接获利:一是就是大赛胜出项目,第一名将获得不少于1000万元的投资,第二名不少于500万元的投资,前十名将给予最直接有效的投融资对接;二是推动创业需要的产业或者客户资源的对接;三是胜出奖金。
2、产业扶持:针对大数据、人工智能产业链条比较长,创业团队往往是有技术,没资源的实际情况,在产业配合资源上能对接进一些有影响力的资源,比如数据环境、产业引路等,大赛将推动金融、零售、教育、医疗等领域大客户及招标需求与获奖企业的对接。
3、产业配套,大赛积极寻求数据交换平台,提供一些产业数据环境,让参赛项目直接对接资源,建立数据生态伙伴体系,创造跨界数据的融合创新。
【大赛工作流程】--------------------1---赛事立项及基本工作,对接深圳市大赛政策接口,确立大赛启动时间为2016年11月,在南方创投网上开设报名窗口准备接受报名项目;
2---建立评审库,确立合作投资机构,投资人评委30人以上,要求投资机构主投方向为大数据和人工智能,推荐投资该方向1-2位评委,推荐参赛项目3个以上;征集行业专家评委10人以上;共同组成评委库,评委需要做出承诺,服从组织安排,尊重创业团队,有组织纪律性和奉献精神,不单独对参加项目做出投资意向安排;
3---报名动员,主、承办组织报名:通过路演推介会议、新媒体宣传等多种方式要求参赛项目提供电子版商业计划书和相关附件,赛事后台需要登记相关主、承办单位组织报名的成效,鼓励各单位围绕赛事平台组织规范化路演,对路演安排3名以上评委库评委按照本赛事评审标准打分的,可按照20%的比例直接推荐晋级复赛。
4---初赛,与深圳市大赛接轨,大赛报名截止后组织初赛评分,由2位评委根据参选企业或团队提供的资料进行打分。
5---复赛,采用现场答辩的方式进行,安排5位评委,按照统一标准
进行,根据项目数量,可在北京、上海等地安排赛区赛事;复赛以后根据复赛成绩推荐晋级深圳市半决赛。
6---深圳市赛及国家赛事流程,深圳大赛统一组织半决赛,并推荐晋级行业决赛和国家赛事,相关工作给予配合。
7---决赛,决赛安排在2017年11月份进行,可以与深圳市高交会对接,也可经由主、承办单位安排,在相关赞助单位支持下,落地支持单位举办。
8---投资事宜,本着“先到先得、合作共赢”的原则,坚持先推荐项目并向其他合作机构通报情况确认的投资机构的优先投资权,同时,在合作机构内部多交流、沟通与分享,创造合作机会,杜绝盲目抬高估值、哄抢项目的情况发生。
9——后续推介,南方创投网将在网站上开辟专门板块,展示优秀获奖项目,并推动投资机构、孵化器等的各方资源与获奖项目合作;上海大数据联盟和深圳市大数据协会及产业发展促进会对接相关资源,数据猿对获奖项目给予连续推介。
附件:2017年中国(深圳)大数据与AI创新创业大赛前期准备工作及时间计划
一、前期准备工作1、2、3、4、5、二、时间计划
2016年10月初-------------------确定初步方案
2016年10月底------------------确定方案(含赛事流程)2016年10月底------------------确定合作伙伴、建立评委库 2016年11月------------------大赛启动
2016年11月-2017年6月----------推介会、项目路演、项目申报 2017年7月----------------------初赛 2017年8月----------------------复赛
2017年8月-10月-----------------深圳市赛及科技部赛事 2017年11月---------------------决赛。
8.大数据平台创业团队 篇八
性研究报告
编制单位:北京智博睿投资咨询有限公司
第一章 新能源大数据平台项目总论 1.1 新能源大数据平台项目基本情况 1.1.1 新能源大数据平台项目名称 1.1.2 新能源大数据平台项目选址 1.1.3 新能源大数据平台项目承担单位 1.1.4 新能源大数据平台项目建设目标及定位 1.1.5 建设内容及规模 1.1.6 投资估算与资金筹措
1.1.7 新能源大数据平台项目建设期限 1.1.8 新能源大数据平台项目效益 1.1.9 主要技术经济指标 1.2 可行性研究依据与范围 1.2.1 报告编制依据 1.2.2 报告研究范围
1.3 可行性研究结论、问题及建议 1.3.1 研究结论 1.3.2 问题及建议
第二章 新能源大数据平台项目背景与建设的必要性 2.1 新能源大数据平台项目提出的背景 2.1.1政策背景
2.1.2 新能源大数据平台项目提出理由 2.2 新能源大数据平台项目建设的必要性
2.2.1 新能源大数据平台项目的建设符合国家和地方相关政策 2.2.2 新能源大数据平台项目的建设有利于保障经济圈建设的需要 2.2.3有利于提升XX市产业科技含量 2.2.4是增加当地就业机会的需要
第三章 新能源大数据平台项目建设地址和建设条件 3.1 新能源大数据平台项目选址 3.1.1 选址原则 3.1.2 场址选择 3.2 建设条件 3.2.1地理位置 3.2.2 自然气候条件 3.2.3 外部交通条件
3.2.4 新能源大数据平台项目施工条件
第四章 新能源大数据平台项目市场分析 4.1我国XX市场概况
4.1.1我国新能源大数据平台发展现状 4.1.2我国新能源大数据平台市场发展前景 4.2我国XXX市场概况 4.2.1我国XXX市场应用情况 4.2.2 XXX市场情况 4.2.3 XXX市场前景 4.3 XXX行业现状
4.4 新能源大数据平台项目定位分析 4.4.1 新能源大数据平台项目整体目标 4.4.2 新能源大数据平台项目服务群体 4.4.3 新能源大数据平台项目辐射商圈 4.5 新能源大数据平台项目SWOT分析 4.5.1 新能源大数据平台项目优势-S 4.4.2 新能源大数据平台项目劣势-W 4.4.3 新能源大数据平台项目机会-O 4.4.4 新能源大数据平台项目威胁-T
第五章 新能源大数据平台项目建设方案 5.1 建设原则 5.2 规划方案
5.2.1 新能源大数据平台项目发展思路 5.2.2 新能源大数据平台项目的产业业态规划 5.3 工程设计 5.3.1 建筑设计 5.3.2 结构设计 5.4 总图布置 5.4.1 总图布置原则 5.4.2 总平面布置 5.4.3 给排水工程 5.4.4 电气工程 5.4.5 暖通工程 5.4.6 消防设施 5.4.7 道路系统 5.4.8 绿化系统
第六章 环保、劳动安全与节能 6.1 环境保护
6.1.1 建设地点环境现状 6.1.2 主要污染源及污染物 6.1.3 环境保护标准
6.1.4 施工期主要污染源及治理措施 6.1.5 运营期主要污染源及治理方案 6.1.5 环境保护结论 6.2 劳动安全卫生 6.2.1 设计依据
6.2.2 职业安全卫生主要措施 6.3 节
能 6.3.1 设计依据 6.3.2 设计原则
6.3.3能源消耗与能耗分析 6.3.4 节能措施 6.3.5 节水措施
第七章 组织机构与人力资源配置 7.1 组织机构
7.2 人力资源配置与管理 7.2.1 人力资源配置 7.2.2 人员培训
第八章 新能源大数据平台项目管理、实施进度及招标 8.1 建设项目管理 8.1.1 实施原则与步骤 8.1.2 组织机构与分工 8.2 建设项目实施进度 8.2.1 施工进度安排 8.2.2 建设与运营的衔接 8.3 招标方案 8.3.1 概述 8.3.2 招标组织形式 8.3.3 招标方式 8.3.4 招标范围
第九章 投资估算与资金筹措 9.1 投资估算
9.1.1 投资估算依据和范围 9.1.2 投资估算构成分析
9.1.3 新能源大数据平台项目投资估算 9.2 资金筹措 9.3 资金投入计划
第十章 财务分析
10.1财务评价依据、范围及假设条件 10.1.1财务评价依据及范围 10.1.2假设条件
10.2基础数据及参数选取 10.2.1计算期及生产负荷 10.2.2基准收益率 10.2.3取费标准 10.2.4折旧和摊销 10.2.5税率 10.2.6公积金
10.3财务效益与费用估算 10.3.1销售收入估算 10.3.2生产总成本估算 10.3.3利润及利润分配 10.4财务分析
10.4.1财务盈利能力分析 10.4.2财务生存能力分析 10.5不确定性分析 10.5.1盈亏平衡分析 10.5.2敏感性分析 10.6财务评价结论
第十一章
社会影响评价 11.1社会影响分析 11.2互适性分析 11.3社会风险分析 11.4社会效益分析 11.5社会评价结论
第十二章
风险分析 12.1风险识别与评价 12.1.1主要风险 12.1.2其它风险 12.2风险对策
第十三章
社会稳定风险分析 13.1编制依据 13.2风险调查
13.2.1调查的内容和范围、方式和方法 13.2.2拟建项目的合法性
13.2.3拟建项目自然和社会环境状况 13.2.4利益相关者及基层组织的态度 13.3风险识别 13.4风险估计 13.5风险防范化解措施 13.6风险等级 13.7风险分析结论
第十四章 新能源大数据平台项目结论和建议 14.1 新能源大数据平台项目结论 14.2 新能源大数据平台项目建议
财务表:
表1:财务评价指标汇总表 表2:建设投资估算表(概算法)表2-1:土建工程投资明细表 表2-2:设备投资明细表 表3:建设期利息估算表 表4:流动资金估算表
表5:新能源大数据平台项目总投资使用计划与资金筹措表 表6:营业收入、营业税金及附加和增值税估算表 表7:总成本费用估算表(生产要素法)表7-1:外购原材料估算表 表7-2:外购燃料动力估算表 表7-3:固定资产折旧费估算表 表7-4:无形资产和其他资产摊销估算表 表7-5:工资及福利费估算表 表8:项目投资现金流量表
表9:新能源大数据平台项目资本金现金流量表 表10:利润与利润分配表 表11:财务计划现金流量表 表12:资产负债表 表13:借款还本付息计划表
关联报告:
新能源大数据平台项目可行性研究报告 新能源大数据平台项目建议书 新能源大数据平台项目申请报告 新能源大数据平台资金申请报告 新能源大数据平台节能评估报告 新能源大数据平台市场研究报告 新能源大数据平台项目商业计划书
9.大数据平台创业团队 篇九
关键词 科学数据共享 国际科学数据服务平台 共享研究
分类号 G250.73
Abstract This paper introduces the scientific data sharing status at home and abroad, analyzes the basic elements of the scientific data sharing, including the resource elements, the protection of intellectual property rights elements, the shared schema elements, sharing and management mechanism elements. Further more, it presents the International Scientific Data Service Platform, analyzes its data resources, protection of the intellectual property rights, sharing mode, service contents, and browsing method.
Keywords Scientific data sharing. International scientific data service platform. Research of the Sharing.
科学数据是指在科技活动(实验、观测、检测、调查、研究等)中或通过其它的方式所获取的反映客观世界的本质、特征、变化规律等的原始基本数据,以及根据不同科技活动需要,进行系统加工整理的各类数据集[1]。科学数据集科学价值和使用价值于一体,并对于科技创新的发展产生了深远的意义。科学数据资源具有准确性、可靠性、非排它性、可无限复制等特点。这些特点和其重要性使科学数据的共享成为必然,只有让科学数据得到共享,才能实现其价值的最大化,同时,又通过科学数据的共享这一过程,发展出更高层次的科学数据,这是一个逐级递进的过程,最终为社会的发展贡献力量。
1 国内外科学数据共享现状
1.1 国外科学数据共享现状
20世纪40年代,国外的科学数据共享方面的研究开始起步,在20世纪80年代得到发展,在欧洲、英国、法国、德国、荷兰和瑞典等国家非常重视数据管理与共享,美国是科学数据共享的倡导者。1975年,美国开发了177个大型数据库,主要服务目标是政府决策和政府启动的重大科研项目[2]。欧盟数据库法律保护指令、英国布加勒斯特宣言和《信息自由法》等,在科学数据的产权归属、共享管理和开发利用等方面均有明确的规定,以保障科学数据共享活动的有序开展。
国际科学数据委员会(CODATA)于1966年成立,是全球最大的科技数据国际学术组织,其宗旨是推动科技数据应用、发展数据科学、促进科学研究、造福人类社会[3]。美国建立了美国航空航天局(NASA)分布式最活跃数据档案中心群(DAACs);日本产业技术综合研究所(AIST)科学数据公开数据库拥有70个主题数据库,全部数据库通过网络提供免费服务,服务于科研机构,也服务于一般工业企业[4]。2007 年3 月,英国发布了研究报告《发展英国科研与创新信息化基础设施》,提出数据资源数字化长期保存与共享建设规划,重点要建立大规模的国家科学数据中心[5]。
1.2 国内科学数据共享现状
我国的科学数据共享工作起步比较晚,2001年底我国科学数据共享工程启动气象科学数据共享试点,在资源环境、农业、人口与健康、基础与前沿等领域共24个部门开展了科学数据共享工作,已经启动了9个科学数据共享试点,开展了科学数据共享政策法规和技术标准体系的调研工作。先后完成了23项具体标准的编制以及一批管理办法;整合共享了跨部门跨领域超过250亿元国家投入产生的数据资源,建立了若干数据库;积极开展数据共享服务,为科学研究、政府决策提供了坚实的支撑,成效显著[6]。但是与发达国家比起来存在很大的差距,主要有:科学数据共享意识不强,目前科学数据共享工程试点的共享数据多为国家经费资助下科技活动形成的数据,各科研单位主动积极共享意识不强;相关的科学数据共享标准及技术规范没有统一的规定;科学数据类型集中于海洋、地理等少数学科领域。
2 科学数据共享基本要素分析
美国国家卫生研究院(NIH)要求申请资金超过50万美元的项目必须提供数据共享计划或者说明不共享的理由。并且,NIH通过分级方式共享数据,包括可公开获取的数据、通过协议获取的数据和限制使用的“冷冻数据”[7]。据调查显示,科研人员共享电子数据和使用他人数据的意愿都不高,主要因素有:没时间、没资金、没权利、缺标准以及资助者无要求等[8]。科学数据的共享最基本的是要有相关的科学数据,也即资源的来源,而共享工作的开展必然要面对科学数据的知识产权保护问题,其次要根据不同的情况选择不同的共享模式来开展共享活动,共享活动的有序、稳定的开展需要相对应的共享管理机制的保障,所以资源来源、知识产权保护、共享模式以及共享管理机制这四大要素构成了科学数据共享活动的基本要素,它们之间相互联系,缺一不可。
2.1 资源来源
科学数据指在科技活动过程中产生的原始数据,所以资源的来源就是科研活动过程,资源的内容主要有两种:一种是本单位或机构内科研活动过程中产生的数据,二是收集其他单位或研究机构的科研数据。本机构的科学数据,主要是来自于本机构研究人员的自愿自主提交以及数据服务人员提供咨询帮助,如中国气象科学数据共享服务网的科学数据来自于国内卫星通讯系统、全球通信系统收集的全球和国内各类实时和非实时的气象观探测资料[9];第二种主要是与政府机构、科研机构、高校等部门合作,提供途径鼓励这些机构的研究人员同意将他们的相关数据整合到数据中心共享.如基础科学数据共享工程整合中国科学院在物理、化学、天文、空间与生物领域20多个研究所长期以来的基础数据,同时,重点整合国防科工委下属的中国工程物理研究院、中国原子能科学研究院在核物理与原子分子物理方面基础数据,整合国家林业局所属青海湖国家级自然保护区多年来在青海湖区域监测与观测数据[10]。
nlc202309040905
2.2 知识产权保护
数据的共享首先要考虑的就是其所涉及到的知识产权问题。科学数据共享中的知识产权主要体现为科学数据的版权,版权就是著作权, 是指文学、艺术、科学作品的作者对其作品享有的权利, 包括财产权、人身权[11]。科学数据凝聚了数据开发人的智力劳动,是创造性的劳动成果,同样受版权法保护,具有重大的价值。实施科学数据共享是我国面对全球信息化和知识经济的发展,开展自主创新、建设创新型国家的必然要求[12]。刘闯认为通过数据库共享服务平台进行有偿数据服务而获得的收益,在数据库制作者和相关数据创造者之间按照合同约定进行分配,如无合同约定的自行协商解决[13]。
《全球变化研究数据管理政策声明》提出“联邦政府资助的科学数据,即公共性、基础性的国有数据,必须在没有歧视的基础上以不超过复制和发行成本的费用无限制地使用”[14]。科学数据的开发与获得需要责任人付出巨大的努力,包括精力、时间、金钱上的,不仅仅是数据开发人,还有相关的单位等等,他们对于科学数据做出了巨大的贡献,这些科学数据自然地成为各个单位的财产,受知识产权保护,另一方面这也在一定程度上限制了科学数据的自由共享。所以笔者认为,科学数据的共享需要国家相关法律的许可和一定的限制,对于那些在国家或是地方政府经费等非营利性机构支持下开发的科学数据,采用一定的奖金或是其它奖励的方式来鼓励开发人,如果不危及国家安全和个人隐私,则完全向公众开放或是使用时加以标注,以尊重劳动者的成果,但不能用于商业用途;对于那些由单位自筹经费或是个人、企业自行开发研究的不危及国家安全和个人隐私的科学数据,则要协调好利益的平衡,一般是采用收取一定的费用的方式来保护他们的权利;对于那些对科学数据进行了一定程度的加工的更深一层次的数据及提供的相关服务活动,收取一定的成本。
2.3 共享模式
科学数据共享为科学数据的使用提供了一条更为畅通的道路。科学数据具有无法估量的潜在价值,前人为科学数据的探索与创造做出了巨大的努力和贡献,传承与共享这些科学数据是对于他们的努力的最大尊重与认可。目前国内外采用的科学数据共享的模式主要有四种,分别是国际组织协作共建共享模式、政策驱动型共建共享模式、主题合作共建共享模式和地域协作共建共享模式。
2.3.1 国际组织协作共建共享模式
顾名思义,国际组织协作共建共享模式是指在某种约定或是条约的约束下,国际组织就某一研究方向或是研究主题,共同制定相关的共享策略的一种共享模式,该共享策略包括共享的范围、方式及相关的政策,可以促进同一领域内数据的交流与共享。国际组织协作方式包括国际政府间的合作和国际非政府间的合作,不管是哪种方式,都必须遵循共享的宗旨,为共同的约定所约束,以促进数据在全球的共享,提高各成员国的科技水平。经济合作与发展组织(Organation for Economic Cooperation and Development,OECD)是由30个市场经济国际组成的政府间国际经济组织,旨在共同应对全球化带来的经济、社会和政府治理等方面的挑战,把握全球化带来的机遇[15]。
2.3.2 政策驱动共建共享模式
这种模式是指在国家法律法规政策的强制驱动下推进科学数据的共建共享。美国是这一模式的最早试验者。美国的《信息自由法》和《版权法》是这一模式的法律基础。并在1991年发布了以“完全与开放”科学数据共享政策为核心的“全球变化研究数据管理政策”,通过这一政策来促进科学数据共享,从而为美国的科学研究提供强有力的保障条件,确保其在21世纪国家发展和科技发展战略目标的实现。
2.3.3 主题合作共建共享模式
该模式是根据主题的不同来进行共建共享科学数据,建立专题科学数据库。如印度科学和产业研究中心(Center for Scientific and Industrial Research,CSIR)及肯尼亚的医学信息共享。肯尼亚医学研究机构(Kenya Medical Research Institute,KEMR I)通过编制肯尼亚医学机构研究和使用的数据和目录来实现彼此联系,共享资源[16]。我国的地球系统科学数据共享平台承担单位是中国科学院地理科学与资源研究所,中科院资源、环境领域的研究所,国内地学领域的知名高校共40多家单位,世界数据中心(WDC)和国际山地中心(ICIMOD),美国马里兰大学等国际组织和机构参与本平台建设与运行服务[17]。
2.3.4 地域协作共建共享模式
该模式把那些参与到共建共享科学数据的单位限定在某一个地理范围内,与国际间组织协调共建共享模式相似,前者范围相对小一些,一般限定在某个地区或是某国内,将共享资源集中存储在某一特定的地点,并在相关单位的共同管理和共同资助下运转共同建设。2004年,科学技术部和财政部整合“国家科技基础条件平台专项经费”“中央级科研院所科技基础性工作专项经费”“科技文献信息专项经费”三个专项经费,统一用于国家科技基础条件平台建设[18]。
2.4 共享管理机制
科学数据具有科学价值、经济价值和社会价值,并且易于复制传播和共享等特点,不同的科学数据由于其属性或是归属性的不同,需要采取不同的管理机制来开展共享工作。目前,国际上采用的共享管理机制有三种:保密性管理机制、公益性共享机制和商业化管理机制。
2.4.1 保密性管理机制
顾名思义,该机制对于科学数据的共享采取不公开的方式。一般这种机制设计到的科学数据是有关国家安全、个人隐私的数据信息,公开这些信息对于国家的安全、人民的生活都会产生很大的影响。同时,参与这些数据信息的开发和管理人员都必须与单位签订保密协议,以进一步确保信息的不泄露,国家情报部门与各个单位安全主管负责检查科学数据和信息的安全性执行情况,同时严格和明确地规定这些数据信息的保密管理。
nlc202309040905
2.4.2 公益性共享机制
此种机制是采用完全开放的方式来共享科学数据,其中的数据是指除了上述属于保密性管理机制数据之外的政府所拥有的信息和科学数据,包括标准数据库、科技成果数据库等。这些数据都应该依法“公之于众”,采用网站或是其它的方式来向社会完全开放,让公众获取,用户无需支付相关费用或是仅仅支付低廉的复制成本费用。像美国的海洋大气局、国立卫生研究院等联邦政府拥有和生产的数据,中国科学院地理科学与资源研究所产生的地球科学数据,整合、集成科研院所、高等院校和科学家个人通过科研活动所产生的分散科学数据。
2.4.3 商业化管理机制
对于那些完全是为了盈利而投资生产的科学数据,则采用商业化管理机制,对于此类科学数据的共享收取一定的费用。例如, 美国政府批准了空间影像和数字地球两家企业从事高分辨率遥感数据的获取和发布业务, 然后采取鼓励平等竞争的政策, 通过市场竞争的方式降低数据价格, 达到促进数据应用的目的, 并同时通过税收进行调节和控制[19]。
3 国际科学数据服务平台分析
“国际科学数据服务平台”(见图1)(以下简称“平台”)启建于2008年,由中国科学院计算机网络信息中心科学数据中心建设并运行维护,面向中国科学院及国家的科学研究需求,逐渐引进当今国际上不同领域内的国际数据资源,并对其进行加工、整理、集成,最终实现数据的集中式公开服务。在保护国家安全,尊重知识产权的前提下,秉承完全开放的共享理念,尽可能为用户提供全方位的数据服务,包括在线数据浏览、数据搜索、数据访问与下载、软件工具及文档资料共享等通用数据服务,以及数据预定、委托查询、数据传递通道、在线模型计算、数据使用咨询等特色数据服务。
3.1 数据资源
国际科学数据服务平台收集的数据资源主要集中于地学、遥感、大气海洋等领域,引进了LANDSAT数据、MODIS数据、MODIS_L1B 数据、EO_1数据、DEM数据、NCAR数据等国际原始数据资源,采用国内外权威的数据处理方法或科学数据中心自行研发的数据处理方法对于上述数据开展了深度加工和数据模型的开发,形成了它们独具特色的一系列全国甚至全球领域的特色数据产品,面向多领域科研需求,基于通用的数据模型,充分利用本站超级计算资源,为用户提供可定制的数据产品加工,用户通过在线定制便可以得到自己需要的数据产品。
该平台期望能满足多领域的科研需求,但是资源集中在少数学科领域,深度加工的数据模型目前只限于少数几个,对于平台的宗旨来说有待发展。
3.2 知识产权保护
知识产权保护问题在共享工作的开展中被首先考虑到,国际科学数据服务平台的数据资源在进行镜像之前都和数据所有者进行了充分的沟通,并通过协议、合作或其他方式取得了对应数据的镜像权限,用户可以放心使用。用户复制使用平台中的数据,平台都做了详细的规定,在“完全与开放”的服务宗旨下,一方面尊重知识产权、保障数据作者和数据服务提供者的权益,要求数据使用者在发表成果时注明数据生产者及数据来源(国际科学数据共享平台http://datamirror.csdb.cn/),未经网站允许,用户不能有偿或无偿转让在该平台获取的数据;另一方面,为了更好地推动数据共享,凡使用“国际科学数据服务平台”数据的用户,需要在一定期限内将数据所支撑的项目或论文产生的相关成果材料提交到“中国科学院计算机网络信息中心科学数据中心”,并允许平台发布部分可公开成果。通过这样的“交换”方式来提供更深层次的科学数据给用户,一方面也减少了不必要的重复劳动,提高了用户的使用效率。
3.3 服务内容
科学数据的共享离不开数据的再利用,该平台充分考虑到不同用户在不同情况下的各种服务需求,除了提供通用的数据服务,像在线数据浏览、数据搜索等外,还提供数据预定、数据传递通道、数据申请等人性化的特色服务,切实地提高用户使用满意度。
3.3.1 数据预订
用户通过网站对应入口预定可以查询,但是不能在线下载数据,数据服务人员将会根据用户的数据预定清单提供服务。目前,该平台开放“数据预定”功能的只有Landsat数据,用户可以通过数据列表或者数据搜索功能,产生数据预定清单,并直接通过网站入口提交给系统。用户数据预定的所有历史记录以及当前预定的处理状态和下载链接都可以从“用户空间”内查询。
3.3.2 数据申请
这种服务是针对用户不能通过网站直接查询、下载数据,或因数据量巨大,用户不方便通过网站查询、下载的情况,该平台支持用户提出相应申请,数据服务人员进行处理并将结果反馈给用户,一般用户可以根据自己的情况以及数据的需求选择在线数据申请或离线数据申请。
3.3.3 数据传递通道
该服务属于高级数据服务方式,是该平台为大宗数据用户或特殊数据用户开通的,指对于因为各种原因不方便通过网站直接下载数据的用户(比如网络连接受限,数据量过大,或者用户有其他特殊要求等),可以直接通过网站提供的联系方式提出“数据传递通道”的需求,审核通过后将会为用户开通特殊数据传递通道(比如用户特殊授权,光盘邮寄、硬盘直接拷贝等),以便用户及时获取所需数据。
3.4 共享方式
该平台将数据分成一级到四级不等,用户也分成四级到一级不等,虽然倡导“完全与开放”的数据共享服务方式,但还是根据用户级别的不同以及所需数据所属级别的不同,采用不同的共享方式。大部分镜像数据集数据产品向用户完全开放,无偿共享;少部分数据需要用户申请并达成协议后共享;属于三级的数据,则面对不同级别的用户,需要付费获取某些数据;另外,针对院内科研人员或高级用户,该平台还推出了特色定制服务,根据用户具体需求,通过项目合作的形式进行定制共享。
3.5 浏览方式
nlc202309040905
由于国际科学数据服务平台收集的数据主要集中于地学、遥感、大气海洋等领域,这些数据采用地图的方式来检索查询更为方便和精确,所以提供的数据检索以地图查询为主,目前只有LANDSAT数据还提供文字查询,地图检索方式比较简单,无须知道所查地区的具体地理位置,只要在地图上找出即可,操作简单直观,非专业人员使用也很方便,而文字查询方式则对于专业知识要求比较高,并且对于所查地区的详细位置信息要有清晰的把握。
4 结语
科学数据的共享关系到人类智慧的传承,有益于提高资源的利用率,减少不必要的重复劳动。科学数据的共享工作也是一个大工程,需要国家和政府的宏观管理,制定统一的标准和规范,也需要提高公民的共享意识,促进共享工作的开展。
参考文献:
[ 1 ] 中国科学数据共享工程技术标准[S/OL].[2013-05-10].http://www.sciencedata.cn/pdf/2.pdf.
[ 2 ] 美国国有科学数据的“完全与开放”共享国策[EB/OL].[2013-07-01].http://www.qiji.cn/scinews/detailed/838.html.
[ 3 ] 国际科学数据委员会[EB/OL].[2013-07-01].http://baike.baidu.com/view/4640252.htm?subLemmaId=4640252&fromenter=%B9%FA%BC%CA%BF%C6%D1%A7%CA%FD%BE%DD%CE%AF%D4%B1%BB%E1.
[ 4 ] National Institute of Advanced Industrial Scienceand Technology[EB/OL].[2013-07-01].http://www. aist.go.jp/index-en.htm.
[ 5 ] science and innovation investment framework 2004-2014:next steps[EB/OL].[2013-07-01].http://www.hm-treasury.gov.uk./media/7/8/bud06-science-332v1.pdf.
[ 6 ] 科学数据共享工程[EB/OL].[2013-07-01].http://www.most.gov.cn/ztzl/kjzg60/kjzg60hhcj/kjzg60jcyj/200909/t20090911_72832.htm.
[ 7 ] NIH.Final NIH statement on sharing research data release date[EB/OL].[2013-06- 29].http://grants.nih.gov/grants/guide/notice files/NOT-OD-03-032.html
[ 8 ] Tenopir C,Allard S,Douglass K,et al. Data sharing by scientists:practices and perceptions[J/OL].PLoS ONE,2011,6(6).
[ 9 ] 国家科技基础条件平台-中国气象科学数据共享服务网[EB/OL].[2013-06-30].http://cdc.cma.gov.cn/gywm.do?method=getContent.
[10] 基础科学数据共享网[EB/OL].[2013-06-30].http://www.nsdc.cn/pronsdchtml/1.aboutus.introduction/pages/3014.html.
[11] 韦之.著作权法原理[M].北京:北京大学出版社,1998.
[12] 朱雪忠,徐先东.浅析我国科学数据共享与知识产权保护的冲突与协调[J].管理学报,2007(7):477-487.
[13] 刘闯.美国国有科学数据共享管理机制及对我国的启示[J].中国基础科学,2003(1):34-39.
[14] Policy statements on data management for global change research[EB/OL].[2013-06-29].http://www. gcrio.org/USGCRP/DataPolicy.html.
[15] 关于OECD [EB/OL].[2013-06-29].http://www.oecdchina.org/about/index.html.
[16] 袁曦临. 信息资源共建共享模式及其理论基础研究[J].图书情报工作,2008,52(9):102-105.
[17] 国家科技基础条件平台-地球系统科学数据共享平台[EB/OL].[2013-06-29].http://www.geodata.cn/Portal/aboutWebsite/aboutus.jsp
[18] 国家科学数据共享工程-海洋科学数据共享中心[EB/OL].[2013-06-29].http://mds.coi.gov.cn/bzjj.asp.
[19] 刘细文,熊瑞.国外科学数控开放获取政策特点分析[J].情报理论与实践,2009(9):5-7.
杨友清 南京大学信息管理学院2010级硕士研究生。江苏南京,210093。
陈 雅 南京大学信息管理学院教授。江苏南京,210093。(收稿日期:2013-08-15 编校:方 玮)
【大数据平台创业团队】推荐阅读:
创新创业大数据平台07-10
数据平台分析意见表09-30
数据平台更新计划书11-04
创新创业平台建设制度07-03
2017年对虾养殖行业大数据报告,对虾养殖产业大数据分析08-18
大数据讲座总结07-08
大数据读书笔记07-19
中国大数据发展07-30
大数据关键技术11-10
大数据 讲座总结11-13