大数据:超越最聪明的大脑
本报特约撰稿 森堡
《
青年参考
》(
2013年07月17日
39
版)
女博士补修基础数据库课程
莎拉·利奥布曼是美国华盛顿大学天文学系的博士生,她的研究内容是寻找银河系中的暗物质。这工作听上去还蛮有趣的:她和团队的主要工作,是用看上去很酷的高科技望远镜观察天象,再根据获得的数据进行模拟分析。这几年的博士课程读下来,她碰到的最大问题,不是艰深的天体物理学公式,也不是旁人将她视作霍金式的科学怪人的困扰,而是浩如烟海的数据。她和同事们希望从海量的数据——星体的尺寸、距离、亮度、数量——抽取有用的数据,但无奈数据量实在太大,她们每拿到一组有效数据都得费尽千辛万苦。
在大伙都在对着电脑筛选数据,筛得眼睛都花了的时候,高年级博士生、已是一个孩子妈妈的莎拉做了一件令人吃惊的事情——她选修了一门研究生初级课程《数据库管理系统》。
最初,她的导师、同事以及一同选修课程的年轻学弟、学妹,都表示不解,原因似乎也很明显——艰深的天体物理学研究用得着这么基础的课程吗?
很快,她的“开小灶”有了效果,她将从课程上学到的编程、数据挖掘技巧应用于数据处理,大大优化了工作程序。莎拉不仅帮助她所在团队提高了工作效率,还以优异的表现获得了博士学位——她以第一作者身份在天文学权威刊物《天体物理学杂志》上发表多篇论文,还去以数据处理为主题的国际会议上打过几回酱油。正是这些打酱油的经历,帮助她后来成功地进入密歇根大学安娜堡分校做博士后研究。
莎拉所面临的情况,实际上就是正席卷科学界的大数据问题。这年头,在科学界各个领域,工程学、科学、社会科学、法律、医学甚至人文学科的人,都抱怨自己快淹死在数据的海洋里,他们期望找到解决良方。今天的科学已不再是牛顿或爱因斯坦当年优雅的数学推演,而正在变身成一种“数据科学”。科学的挑战,不再是牛顿苹果树下或阿基米德浴缸中的灵光一现,而在于从数据海洋中提取有价值的东西。像莎拉这样既在自己专业领域表现出众,又能熟练应用数据科学的研究人员,能很快脱颖而出,他们被称作“π型人才”。
大数据:数据太多?
对于学术界的大数据问题,一般人可能知之不多。但大数据并不仅仅是学术界所独有的,如今它已遍及社会生活各个领域。我们每天都能在网上、报纸上、电视上看到对大数据的讨论,与大数据有关的概念被一遍又一遍地提及。大数据起到了多大作用的话题,无论大事小事,都很容易成为热门新闻。什么奥巴马连任幸亏他邀请了一个大数据分析团队,西班牙服装品牌ZARA利用大数据分析调货成效显著,沃尔玛超市用大数据分析得出尿布与啤酒应该放在一起卖……
这么多大数据话题每天在耳边嗡嗡个不停,很多人仍然表示一头雾水。那么,什么是大数据呢?专业人士喜欢用4个v (volume、velocity、variety、
veracity,即体量、速度、种类、精确)来解释,但广大计算机小白们仍然作茫然状。用简单点的话说,大数据就是指数据太多了,无论从种类、数量、深度、广度上来讲。这些数据有多少呢?统计显示,最近两年所产生的数据量等同于2010年以前整个人类文明产生的数据量总和。2012年全球被创建和被复制的数据总量达2.7ZB(1ZB相当于10万亿亿字节),是2002年全球数据总量的2亿倍,其中文本、照片、音频、视频、医疗影像等非结构化内容比重超过85%。《中国计算机学会通讯》杂志在去年9月发布的一份报告显示,淘宝网每日新增交易数据达10TB,而购物网站eBay分析平台日处理数据量更是高达100PB(1PB=1024TB,相当于千万亿字节),超过了美国纳斯达克交易所全天的数据处理量。
大数据价值堪比石油
这么多的数据,恐怕看一辈子都看不完,难免让人发愁。但请注意,硬币都有两面,如此海量的数据确实很难梳出条理来,但它们本身也蕴藏着价值连城的宝藏。就像海盗寻宝一样,得搜寻多少沉船荒岛才能找到那个梦寐以求的百宝箱。世界经济论坛去年发布的报告就指出:“大数据就是新财富,价值堪比石油。”
不相信大数据价值的话,稍微举几个小例子就很清楚了。我们常用的Office拼写检查功能,是微软投入数十名工程师、花费20年时间、耗费数百万美元的大作,但谷歌只需要使用大量统计数据就能实现。现今不少流行的拼写检查软件,只靠一个汇集了各大主流报刊文章的范文库,就能轻易实现拼写检查。这并不是去刻意诋毁微软工程师们的智商,而是说海量数据的核心价值能轻易超越顶尖工程师的集体智慧。牛津大学教授维克托·迈尔-舍恩伯格在他的《大数据时代》一书中的评论,“人们在大规模数据的基础上可以做到的事情,在小规模数据的基础上是无法完成的”,一语中的。
大数据有了,但得想办法分类、排序、处理、加工、撷取形成有用信息,才能有效地利用这些价值连城的资源,这就有了当今流行的大数据产业。这些产业的核心理念还是:去掉大数据的“身”,挖出大数据的“心”,专业的话叫“数据挖掘”。其实我们每天都在体验这种挖掘过程,常用的搜索引擎就是在数据海洋中挖掘我们感兴趣的内容。但搜索引擎只能处理文本内容,对大数据中其他丰富的非结构化内容,如视频、图片等则无能为力。对后两种数据的挖掘,需要用到很强大的算法,如用于提取图像数据的人脸识别智能算法。
[词典]
“大数据”
“大数据”,简而言之,指的是当今信息化时代的海量数据,因为具有很重要的价值而备受关注。从科学界到社会生活的方方面面,艰深如天体物理学研究,市俗如整理超市存货,重要如美国总统大选,大数据的影子无处不在,人们想尽办法挖掘大数据中蕴藏的宝藏。大数据自身的复杂性令人望而生畏,但一旦找到寻宝良方,它们发挥出来的价值绝对能够超越人类最聪明的大脑。
女博士补修基础数据库课程
莎拉·利奥布曼是美国华盛顿大学天文学系的博士生,她的研究内容是寻找银河系中的暗物质。这工作听上去还蛮有趣的:她和团队的主要工作,是用看上去很酷的高科技望远镜观察天象,再根据获得的数据进行模拟分析。这几年的博士课程读下来,她碰到的最大问题,不是艰深的天体物理学公式,也不是旁人将她视作霍金式的科学怪人的困扰,而是浩如烟海的数据。她和同事们希望从海量的数据——星体的尺寸、距离、亮度、数量——抽取有用的数据,但无奈数据量实在太大,她们每拿到一组有效数据都得费尽千辛万苦。
在大伙都在对着电脑筛选数据,筛得眼睛都花了的时候,高年级博士生、已是一个孩子妈妈的莎拉做了一件令人吃惊的事情——她选修了一门研究生初级课程《数据库管理系统》。
最初,她的导师、同事以及一同选修课程的年轻学弟、学妹,都表示不解,原因似乎也很明显——艰深的天体物理学研究用得着这么基础的课程吗?
很快,她的“开小灶”有了效果,她将从课程上学到的编程、数据挖掘技巧应用于数据处理,大大优化了工作程序。莎拉不仅帮助她所在团队提高了工作效率,还以优异的表现获得了博士学位——她以第一作者身份在天文学权威刊物《天体物理学杂志》上发表多篇论文,还去以数据处理为主题的国际会议上打过几回酱油。正是这些打酱油的经历,帮助她后来成功地进入密歇根大学安娜堡分校做博士后研究。
莎拉所面临的情况,实际上就是正席卷科学界的大数据问题。这年头,在科学界各个领域,工程学、科学、社会科学、法律、医学甚至人文学科的人,都抱怨自己快淹死在数据的海洋里,他们期望找到解决良方。今天的科学已不再是牛顿或爱因斯坦当年优雅的数学推演,而正在变身成一种“数据科学”。科学的挑战,不再是牛顿苹果树下或阿基米德浴缸中的灵光一现,而在于从数据海洋中提取有价值的东西。像莎拉这样既在自己专业领域表现出众,又能熟练应用数据科学的研究人员,能很快脱颖而出,他们被称作“π型人才”。
大数据:数据太多?
对于学术界的大数据问题,一般人可能知之不多。但大数据并不仅仅是学术界所独有的,如今它已遍及社会生活各个领域。我们每天都能在网上、报纸上、电视上看到对大数据的讨论,与大数据有关的概念被一遍又一遍地提及。大数据起到了多大作用的话题,无论大事小事,都很容易成为热门新闻。什么奥巴马连任幸亏他邀请了一个大数据分析团队,西班牙服装品牌ZARA利用大数据分析调货成效显著,沃尔玛超市用大数据分析得出尿布与啤酒应该放在一起卖……
这么多大数据话题每天在耳边嗡嗡个不停,很多人仍然表示一头雾水。那么,什么是大数据呢?专业人士喜欢用4个v (volume、velocity、variety、
veracity,即体量、速度、种类、精确)来解释,但广大计算机小白们仍然作茫然状。用简单点的话说,大数据就是指数据太多了,无论从种类、数量、深度、广度上来讲。这些数据有多少呢?统计显示,最近两年所产生的数据量等同于2010年以前整个人类文明产生的数据量总和。2012年全球被创建和被复制的数据总量达2.7ZB(1ZB相当于10万亿亿字节),是2002年全球数据总量的2亿倍,其中文本、照片、音频、视频、医疗影像等非结构化内容比重超过85%。《中国计算机学会通讯》杂志在去年9月发布的一份报告显示,淘宝网每日新增交易数据达10TB,而购物网站eBay分析平台日处理数据量更是高达100PB(1PB=1024TB,相当于千万亿字节),超过了美国纳斯达克交易所全天的数据处理量。
大数据价值堪比石油
这么多的数据,恐怕看一辈子都看不完,难免让人发愁。但请注意,硬币都有两面,如此海量的数据确实很难梳出条理来,但它们本身也蕴藏着价值连城的宝藏。就像海盗寻宝一样,得搜寻多少沉船荒岛才能找到那个梦寐以求的百宝箱。世界经济论坛去年发布的报告就指出:“大数据就是新财富,价值堪比石油。”
不相信大数据价值的话,稍微举几个小例子就很清楚了。我们常用的Office拼写检查功能,是微软投入数十名工程师、花费20年时间、耗费数百万美元的大作,但谷歌只需要使用大量统计数据就能实现。现今不少流行的拼写检查软件,只靠一个汇集了各大主流报刊文章的范文库,就能轻易实现拼写检查。这并不是去刻意诋毁微软工程师们的智商,而是说海量数据的核心价值能轻易超越顶尖工程师的集体智慧。牛津大学教授维克托·迈尔-舍恩伯格在他的《大数据时代》一书中的评论,“人们在大规模数据的基础上可以做到的事情,在小规模数据的基础上是无法完成的”,一语中的。
大数据有了,但得想办法分类、排序、处理、加工、撷取形成有用信息,才能有效地利用这些价值连城的资源,这就有了当今流行的大数据产业。这些产业的核心理念还是:去掉大数据的“身”,挖出大数据的“心”,专业的话叫“数据挖掘”。其实我们每天都在体验这种挖掘过程,常用的搜索引擎就是在数据海洋中挖掘我们感兴趣的内容。但搜索引擎只能处理文本内容,对大数据中其他丰富的非结构化内容,如视频、图片等则无能为力。对后两种数据的挖掘,需要用到很强大的算法,如用于提取图像数据的人脸识别智能算法。
[词典]
“大数据”
“大数据”,简而言之,指的是当今信息化时代的海量数据,因为具有很重要的价值而备受关注。从科学界到社会生活的方方面面,艰深如天体物理学研究,市俗如整理超市存货,重要如美国总统大选,大数据的影子无处不在,人们想尽办法挖掘大数据中蕴藏的宝藏。大数据自身的复杂性令人望而生畏,但一旦找到寻宝良方,它们发挥出来的价值绝对能够超越人类最聪明的大脑。