大数据有多大
在当今信息网络时代,人们的网上操作,平时的一举一动,机器的运转活动,大自然的随时变化都会产生许许多多的数据。这些数据量大且复杂,用现有的计算工具难以处理,人们形象地称之为“大数据”。
我们来看看这些:互联网一天产生的全部内容可以刻满1.68亿张DVD;每天通过网络传输的电子邮件达2000多亿封,发出的社区帖子达200万个,卖出的手机为37.8万台;腾讯公司注册用户超过7亿,同时在线人数超过1亿;创建“平安城市”,一个摄像头运行一小时,产生的数据是3.6G;医院检查一次CT产生几个G的影像数据;在数字化工业设计的今天,设计一架飞机,几十万个零部件的尺寸、大小、形状均是数据;我们每个人每天打电话、刷卡支付,会产生很多数据;想象一下这些数据会是多么庞大?IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。大数据具有数据量大、类型繁多、数据变化快、价值密度低等四个典型特征,传统处理方法和软件工具已不能分析处理这些大量的数据,需要创新数据处理方法和软件分析工具。
产生这么多的数据不难理解。从智能手机的普及到二维码的流行,再到可穿戴设备的面世,我们的衣食住行基本都可以电子化了,海量的数据也随之而来;工业设备、汽车、电表上无数传感器,随时测量和传递着各种各样的信息,都会产生海量的数据;不断成熟的手机指纹识别传感器、嗅觉传感器甚至可以感知情绪的新技术接踵而至,这一切使得人类活动以及物理世界数据化变为可能。
这么“大”的数据,如何存放呢?当然,这得益于科技的发展:反映计算机硬件技术进步的摩尔定律是这样描述的——大约每隔18个月集成电路的集成度增加一倍,而价格下降一半。成本的不断下降促进了大数据的可存储性。同时,随着量子计算、光计算等新型介质研究与应用发展,数据存储能力将进一步大幅提升。
大数据的价值
如果你是亚马逊的会员,你可能早都发现“猜你喜欢”推荐的书常常是你感兴趣的;如果近期你打算网购一套空气净化设备,并在网上了解过相关信息,你会发现你的淘宝首页,有很多销售空气净化机的推送,甚至上其他网站,都会时不时弹出有关空气净化机的商品信息。
这些都归功于商家对“大数据”的开发应用。他们依靠计算机进行数据处理,根据你的浏览、搜索、购物记录等等,“猜测”出你的喜好,从而帮你选择可能会喜欢、可能会购买的商品。看看“百度”“微信”“淘宝”这些我们工作生活离不开的应用吧:百度数据是需求数据,需要什么搜索什么;腾讯微信反映出的是兴趣和关系数据,而淘宝网数据形成交易数据,如果同时掌握兴趣和关系、需求及交易数据,就能够把一个人的行为搞清楚。同样的道理,各行各业只要数据足够“大”,预见未来似乎也并不难。
有人说“预见未来”是大数据的核心价值。那么,这种预见未来的价值,能为我们的生活带来哪些改变呢?
以“百度迁徙”为例。1月26日,“百度迁徙”网站正式上线。网站主页的中国地图上,每一个跳跃的点,都是人们出发和到达的目的地。点击任一城市,就会出现过往8小时内这一城市迁出与迁入人次最多的数据。“百度迁徙”就是把手机网民的定位信息汇总成大数据进行分析,从而勾勒出人们的迁徙轨迹。这些信息对分析人口迁移的方向、城镇化进程、春运运输调配等方面有着重要的价值。[page]
毋庸置疑,对大数据的利用可以提升政府等管理部门的社会管理水平,例如对车辆运行数据的分析利用,可以使城市规划更加科学;流感高发季节,对疾病到来提前预测;旅游旺季,对热门景区高峰期游客数量提前预测,可以提升社会服务水平等等。
一项对国际大公司的数据应用研究表明:数据的使用率提升10%,零售业的效率将提升49%,咨询服务业提升39%,航空、食品加工、建筑、钢铁、汽车、出版、基础设施等行业都能提升20%左右。数据的巨大价值由此可见一斑。
当然,数据只是一堆冰冷的数字而已。大数据的价值是隐藏在数据之内的,要经过整合、分析、挖掘之后才会显现。同时,大数据的价值也是难以评估的。例如,现在看来没有任何价值的数据,可能以后会有价值;单个的数据没有价值,长时间的累积可能价值巨大;在一件业务中看似没有价值的数据,可能在另外的业务中会有大价值。因此,要不断提升大数据分析的方法和工具。数据再多,没有很好的整合和挖掘,其价值就不能得到体现。
刚刚起步的大数据
大数据的研究应用和产业形态已引发国际国内广泛关注。2012年,奥巴马政府宣布推出“大数据的研究和发展计划”,将投资两亿多美元,推动和改善大数据的收集、组织和分析技术,这标志着大数据从商业行为上升到国家战略层面。IBM、甲骨文、微软等跨国IT巨头也纷纷发布大数据战略,对大数据产品进行全面布局。在我国,科技部已经批准大数据重大基础研究项目,并将大数据作为国家未来重点发展的重大科技任务之一。工业与信息化部在“工业与信息化深度融合专项行动计划”中提出重视工业大数据的应用;电信、联通、移动三大运营商以及众多IT企业也积极开拓大数据市场。2014年春节期间的人口迁徙大数据分析、“两会大数据”就是大数据应用的生动实例。陕西省也把大数据作为战略性新兴产业重点发展方向之一,大力推动大数据应用基础研究和产业园区发展。
国际国内对大数据的广泛关注已呈现出一个良好的开始。迎接大数据时代,与之相关的很多问题还需要科研人员奋力攻关。如何对复杂的大数据快速完成价值“提纯”,是亟待解决的难题。与此同时,如何保证数据的完整性和真实性、数据的共享,如何解决大数据所带来的安全和隐私以及计算机系统硬件与软件适应大数据特点等挑战,都是随着“大数据”的到来要必须面对的。此外,采集、存贮和发掘大数据需要较大人力和经费投入,如何得到良好的回报率,也将是影响大数据发展的重要因素。总之,大数据对我们的科学技术和数据驾驭能力提出了新的挑战。
无论如何,大数据时代正在来临!

