39版:数字生活上一版下一版

新闻排行榜热点新闻

中青在线版权与免责声明：
　　在接受本网站服务之前，请务必仔细阅读下列条款并同意本声明。 1. 凡本网注明"来源：中青在线或中国青年报"的所有作品，版权均属于中青在线或中国青年报社，未经本网授权，不得转载、摘编或以其它方式使用上述作品。 2. 本网授权使用作品的，应在授权范围内使用，并按双方协议注明作品来源。违反上述声明者，中青在线将追究其相关法律责任。 3. 凡本网注明“来源：XXX（非中青在线）”的作品，均转载自其它媒体，转载的目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。 4. 本网站文章仅代表作者本人的观点，不代表本网站的观点和看法，与本网站立场无关，文责作者自负。 5. 如因作品内容、版权和其它问题需要联系的，请在30日内与本网联系。

2013年07月17日星期三

往期回顾

返回目录

中青报系

< 上一期下一期 >

大数据：超越最聪明的大脑

本报特约撰稿森堡《青年参考》（ 2013年07月17日 39 版）

女博士补修基础数据库课程

莎拉·利奥布曼是美国华盛顿大学天文学系的博士生，她的研究内容是寻找银河系中的暗物质。这工作听上去还蛮有趣的：她和团队的主要工作，是用看上去很酷的高科技望远镜观察天象，再根据获得的数据进行模拟分析。这几年的博士课程读下来，她碰到的最大问题，不是艰深的天体物理学公式，也不是旁人将她视作霍金式的科学怪人的困扰，而是浩如烟海的数据。她和同事们希望从海量的数据——星体的尺寸、距离、亮度、数量——抽取有用的数据，但无奈数据量实在太大，她们每拿到一组有效数据都得费尽千辛万苦。

在大伙都在对着电脑筛选数据，筛得眼睛都花了的时候，高年级博士生、已是一个孩子妈妈的莎拉做了一件令人吃惊的事情——她选修了一门研究生初级课程《数据库管理系统》。

最初，她的导师、同事以及一同选修课程的年轻学弟、学妹，都表示不解，原因似乎也很明显——艰深的天体物理学研究用得着这么基础的课程吗？

很快，她的“开小灶”有了效果，她将从课程上学到的编程、数据挖掘技巧应用于数据处理，大大优化了工作程序。莎拉不仅帮助她所在团队提高了工作效率，还以优异的表现获得了博士学位——她以第一作者身份在天文学权威刊物《天体物理学杂志》上发表多篇论文，还去以数据处理为主题的国际会议上打过几回酱油。正是这些打酱油的经历，帮助她后来成功地进入密歇根大学安娜堡分校做博士后研究。

莎拉所面临的情况，实际上就是正席卷科学界的大数据问题。这年头，在科学界各个领域，工程学、科学、社会科学、法律、医学甚至人文学科的人，都抱怨自己快淹死在数据的海洋里，他们期望找到解决良方。今天的科学已不再是牛顿或爱因斯坦当年优雅的数学推演，而正在变身成一种“数据科学”。科学的挑战，不再是牛顿苹果树下或阿基米德浴缸中的灵光一现，而在于从数据海洋中提取有价值的东西。像莎拉这样既在自己专业领域表现出众，又能熟练应用数据科学的研究人员，能很快脱颖而出，他们被称作“π型人才”。

大数据：数据太多？

对于学术界的大数据问题，一般人可能知之不多。但大数据并不仅仅是学术界所独有的，如今它已遍及社会生活各个领域。我们每天都能在网上、报纸上、电视上看到对大数据的讨论，与大数据有关的概念被一遍又一遍地提及。大数据起到了多大作用的话题，无论大事小事，都很容易成为热门新闻。什么奥巴马连任幸亏他邀请了一个大数据分析团队，西班牙服装品牌ZARA利用大数据分析调货成效显著，沃尔玛超市用大数据分析得出尿布与啤酒应该放在一起卖……

这么多大数据话题每天在耳边嗡嗡个不停，很多人仍然表示一头雾水。那么，什么是大数据呢？专业人士喜欢用4个v （volume、velocity、variety、

veracity，即体量、速度、种类、精确）来解释，但广大计算机小白们仍然作茫然状。用简单点的话说，大数据就是指数据太多了，无论从种类、数量、深度、广度上来讲。这些数据有多少呢？统计显示，最近两年所产生的数据量等同于2010年以前整个人类文明产生的数据量总和。2012年全球被创建和被复制的数据总量达2.7ZB（1ZB相当于10万亿亿字节），是2002年全球数据总量的2亿倍，其中文本、照片、音频、视频、医疗影像等非结构化内容比重超过85%。《中国计算机学会通讯》杂志在去年9月发布的一份报告显示，淘宝网每日新增交易数据达10TB，而购物网站eBay分析平台日处理数据量更是高达100PB（1PB=1024TB，相当于千万亿字节），超过了美国纳斯达克交易所全天的数据处理量。

大数据价值堪比石油

这么多的数据，恐怕看一辈子都看不完，难免让人发愁。但请注意，硬币都有两面，如此海量的数据确实很难梳出条理来，但它们本身也蕴藏着价值连城的宝藏。就像海盗寻宝一样，得搜寻多少沉船荒岛才能找到那个梦寐以求的百宝箱。世界经济论坛去年发布的报告就指出：“大数据就是新财富，价值堪比石油。”

不相信大数据价值的话，稍微举几个小例子就很清楚了。我们常用的Office拼写检查功能，是微软投入数十名工程师、花费20年时间、耗费数百万美元的大作，但谷歌只需要使用大量统计数据就能实现。现今不少流行的拼写检查软件，只靠一个汇集了各大主流报刊文章的范文库，就能轻易实现拼写检查。这并不是去刻意诋毁微软工程师们的智商，而是说海量数据的核心价值能轻易超越顶尖工程师的集体智慧。牛津大学教授维克托·迈尔-舍恩伯格在他的《大数据时代》一书中的评论，“人们在大规模数据的基础上可以做到的事情，在小规模数据的基础上是无法完成的”，一语中的。

大数据有了，但得想办法分类、排序、处理、加工、撷取形成有用信息，才能有效地利用这些价值连城的资源，这就有了当今流行的大数据产业。这些产业的核心理念还是：去掉大数据的“身”，挖出大数据的“心”，专业的话叫“数据挖掘”。其实我们每天都在体验这种挖掘过程，常用的搜索引擎就是在数据海洋中挖掘我们感兴趣的内容。但搜索引擎只能处理文本内容，对大数据中其他丰富的非结构化内容，如视频、图片等则无能为力。对后两种数据的挖掘，需要用到很强大的算法，如用于提取图像数据的人脸识别智能算法。

[词典]

“大数据”

“大数据”，简而言之，指的是当今信息化时代的海量数据，因为具有很重要的价值而备受关注。从科学界到社会生活的方方面面，艰深如天体物理学研究，市俗如整理超市存货，重要如美国总统大选，大数据的影子无处不在，人们想尽办法挖掘大数据中蕴藏的宝藏。大数据自身的复杂性令人望而生畏，但一旦找到寻宝良方，它们发挥出来的价值绝对能够超越人类最聪明的大脑。

分享到：

返回目录放大

缩小

全文复制下一篇