33版:阅读上一版下一版

新闻排行榜热点新闻

中青在线版权与免责声明：
　　在接受本网站服务之前，请务必仔细阅读下列条款并同意本声明。 1. 凡本网注明"来源：中青在线或中国青年报"的所有作品，版权均属于中青在线或中国青年报社，未经本网授权，不得转载、摘编或以其它方式使用上述作品。 2. 本网授权使用作品的，应在授权范围内使用，并按双方协议注明作品来源。违反上述声明者，中青在线将追究其相关法律责任。 3. 凡本网注明“来源：XXX（非中青在线）”的作品，均转载自其它媒体，转载的目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。 4. 本网站文章仅代表作者本人的观点，不代表本网站的观点和看法，与本网站立场无关，文责作者自负。 5. 如因作品内容、版权和其它问题需要联系的，请在30日内与本网联系。

2013年03月20日星期三

往期回顾

返回目录

中青报系

< 上一期下一期 >

用“高技术之眼”看历史

○作者 [美] 史蒂夫·洛尔 ○译者韦盖利《青年参考》（ 2013年03月20日 33 版）

基于计算机技术的统计和分析工具，正向传统的人文社科研究领域进军，帮我们发现了许多此前未曾关注过的现象和规律。

今天，你随便找谁列举一下19世纪有影响力的作家，名单里几乎都会出现查尔斯·狄更斯、托马斯·哈代、赫尔曼·梅尔维尔和马克·吐温。然而，如果把时钟往回拨个两百年，榜单上并不会有这些名字。

新的研究发现，19世纪最具影响力的作家要数简·奥斯汀与沃尔特·司各特，两者在写作风格和主题等方面对同行产生的影响最大。

内布拉斯加大学人文学系数码研究中心专家、副教授马修·L·乔克斯，在去年的一份报告中指出，奥斯汀和司各特“相当于文坛上的直立人（老祖宗），或者，如果你愿意，可以称他们为文学上的亚当和夏娃”。这个结论是在对1780年到1900年出版的3592部作品进行分析后得出的，分析工作是用计算机进行的、深度的“数码化发掘”。

乔克斯的发现，在其新著《常量分析：数字化方法与文学史》中可以读到。这种分析法很有趣：“大数据”正稳步地把数字化技术和研究方法，推向人文社科的传统领地。

从文字间找出思想的基因

数字化时代的新潮工具提供了观察文化现象的新鲜视角。它像显微镜，让我们看到生活的细微之处；又似望远镜，使我们看到遥远的星河。

“从前，我们通过大量的文本去了解文学史，如今，技术进步则让你看到更宏观的图景——作者创作的背景、环境——从某种程度上说，我们以前从来没见过。”《常量分析》如此强调。

乔克斯今年46岁，在伊利诺伊州立大学获得文学博士学位，计算机也玩得很棒，成了一名自学成材的编程员。去年跳槽到内布拉斯加大学前，他在斯坦福大学工作了十多年，在那里，他建立了斯坦福大学文学实验室，专门研究实体读物的数字化。

大数据技术的厉害之处，在于其收集、估量和分析数据的能力特别强。在人文社科领域，扫描下来的图书、网站、博客文章和社交网络留言等，正汇聚成愈发汹涌的信息洪流。哈佛大学数量社会科学研究所主任加里·金指出：“有些人将其归入计算机科学，有些人称它为统计学分支，但从本质上讲，这类方法如今越来越成为所有学科的组成部分。”

文化数据分析师经常将自己的工作和生物学类比。比如，乔克斯称自己的研究呈现了“19世纪文学基因组的计算和想象”。这样的比喻听起来非常恰当，因为研究的大部分是对文字的定量审视——正如基因是生物学的底层架构一样，文字也是思想的原材料。

而在哈佛大学博士后让-巴普提斯特·米歇尔看来：“思想和思想的发展……对人类进化具有独特的、决定性的作用。”米歇尔和同事们基于“谷歌图书”，探索语言及文字习惯的流变。至今，谷歌图书已收录了公元16世纪以来的2000万本书，该网站每分钟被使用50次。比如，输入“女人”与“男人”，你会发现，很长一段时间里，关于“男人”的条目比关于“女人”的多得多，1985年开始才发生转变，和“女人”有关的条目逐渐占了上风。

2011年，在发表于《科学》杂志的论文里，米歇尔的团队结合谷歌图书的数据得出结论：我们的过去正飞快地从书里消失。比如，在1880年这个时间点，写过去的书按比例算最多，仅仅30年过后，写过去的书只有先前的一半了；同样的数字，1983年只有1973年的一半，间隔越来越短。难怪这篇论文写道：“我们对过去的遗忘一年比一年快了。”

定量分析法将不再有禁区

康奈尔大学的计算机科学家约恩·克雷恩伯格，则从不同的角度研究集体记忆。他的报告去年发表，主要项目是“电影台词里令人难忘的元素”。雷恩伯格把“语言的健康”比喻成“肌体的健康”，他说，“在人们的脑海中经久不去的台词是进化的成功范本”。

研究者们把从数据库中选择的“值得记忆的台词”以及它们在网上出现的次数作为衡量尺度。他们挑了大约1000部电影，将台词输入电脑，用统计学算法解析句子结构、词序和词语，最后发现，值得记忆的台词的语句结构往往平平无奇，只不过嵌入了惊艳的字眼。

譬如，电影《甜心先生》中有一句：“你一进来就征服我了。”克雷恩伯格说，这句台词所用的语序和词类都是司空见惯的，跟“我在波士顿遇见他”一样。战争片《现代启示录》中那句“我喜欢早晨的凝固汽油味”，跟“我喜欢早晨的咖啡味”亦不过一字之差。

这种分析方法可以应用到包括广告在内的各种媒介。据了解，克雷恩伯格便顺带研究了广告标语。从统计数字可见，好的广告标语与经典电影台词相似，多以简洁明了取胜，如利瓦伊牛仔裤的广告语“质量永不落伍”，以及万宝路香烟的“请来万宝路之国。”

与其他领域一样，人文社科学科中的定量分析工具，在被聪明人掌握的时候是格外有力的。我们需要精通某学科的专家提出恰当的问题，并认识统计模型的优点和不足。马修·乔克斯相信，“我们比过去更能接受用数据去分析文学了。迟早有一天，这种分析法会变成人文学科中最常见的工具，和它在经济学、自然科学范畴的情况别无二致。”

□美国《纽约时报》

分享到：

返回目录放大

缩小

全文复制下一篇