用“高技术之眼”看历史
○作者 [美] 史蒂夫·洛尔 ○译者 韦盖利
《
青年参考
》(
2013年03月20日
33
版)
|
|
基于计算机技术的统计和分析工具,正向传统的人文社科研究领域进军,帮我们发现了许多此前未曾关注过的现象和规律。
今天,你随便找谁列举一下19世纪有影响力的作家,名单里几乎都会出现查尔斯·狄更斯、托马斯·哈代、赫尔曼·梅尔维尔和马克·吐温。然而,如果把时钟往回拨个两百年,榜单上并不会有这些名字。
新的研究发现,19世纪最具影响力的作家要数简·奥斯汀与沃尔特·司各特,两者在写作风格和主题等方面对同行产生的影响最大。
内布拉斯加大学人文学系数码研究中心专家、副教授马修·L·乔克斯,在去年的一份报告中指出,奥斯汀和司各特“相当于文坛上的直立人(老祖宗),或者,如果你愿意,可以称他们为文学上的亚当和夏娃”。这个结论是在对1780年到1900年出版的3592部作品进行分析后得出的,分析工作是用计算机进行的、深度的“数码化发掘”。
乔克斯的发现,在其新著《常量分析:数字化方法与文学史》中可以读到。这种分析法很有趣:“大数据”正稳步地把数字化技术和研究方法,推向人文社科的传统领地。
从文字间找出思想的基因
数字化时代的新潮工具提供了观察文化现象的新鲜视角。它像显微镜,让我们看到生活的细微之处;又似望远镜,使我们看到遥远的星河。
“从前,我们通过大量的文本去了解文学史,如今,技术进步则让你看到更宏观的图景——作者创作的背景、环境——从某种程度上说,我们以前从来没见过。”《常量分析》如此强调。
乔克斯今年46岁,在伊利诺伊州立大学获得文学博士学位,计算机也玩得很棒,成了一名自学成材的编程员。去年跳槽到内布拉斯加大学前,他在斯坦福大学工作了十多年,在那里,他建立了斯坦福大学文学实验室,专门研究实体读物的数字化。
大数据技术的厉害之处,在于其收集、估量和分析数据的能力特别强。在人文社科领域,扫描下来的图书、网站、博客文章和社交网络留言等,正汇聚成愈发汹涌的信息洪流。哈佛大学数量社会科学研究所主任加里·金指出:“有些人将其归入计算机科学,有些人称它为统计学分支,但从本质上讲,这类方法如今越来越成为所有学科的组成部分。”
文化数据分析师经常将自己的工作和生物学类比。比如,乔克斯称自己的研究呈现了“19世纪文学基因组的计算和想象”。这样的比喻听起来非常恰当,因为研究的大部分是对文字的定量审视——正如基因是生物学的底层架构一样,文字也是思想的原材料。
而在哈佛大学博士后让-巴普提斯特·米歇尔看来:“思想和思想的发展……对人类进化具有独特的、决定性的作用。”米歇尔和同事们基于“谷歌图书”,探索语言及文字习惯的流变。至今,谷歌图书已收录了公元16世纪以来的2000万本书,该网站每分钟被使用50次。比如,输入“女人”与“男人”,你会发现,很长一段时间里,关于“男人”的条目比关于“女人”的多得多,1985年开始才发生转变,和“女人”有关的条目逐渐占了上风。
2011年,在发表于《科学》杂志的论文里,米歇尔的团队结合谷歌图书的数据得出结论:我们的过去正飞快地从书里消失。比如,在1880年这个时间点,写过去的书按比例算最多,仅仅30年过后,写过去的书只有先前的一半了;同样的数字,1983年只有1973年的一半,间隔越来越短。难怪这篇论文写道:“我们对过去的遗忘一年比一年快了。”
定量分析法将不再有禁区
康奈尔大学的计算机科学家约恩·克雷恩伯格,则从不同的角度研究集体记忆。他的报告去年发表,主要项目是“电影台词里令人难忘的元素”。雷恩伯格把“语言的健康”比喻成“肌体的健康”,他说,“在人们的脑海中经久不去的台词是进化的成功范本”。
研究者们把从数据库中选择的“值得记忆的台词”以及它们在网上出现的次数作为衡量尺度。他们挑了大约1000部电影,将台词输入电脑,用统计学算法解析句子结构、词序和词语,最后发现,值得记忆的台词的语句结构往往平平无奇,只不过嵌入了惊艳的字眼。
譬如,电影《甜心先生》中有一句:“你一进来就征服我了。”克雷恩伯格说,这句台词所用的语序和词类都是司空见惯的,跟“我在波士顿遇见他”一样。战争片《现代启示录》中那句“我喜欢早晨的凝固汽油味”,跟“我喜欢早晨的咖啡味”亦不过一字之差。
这种分析方法可以应用到包括广告在内的各种媒介。据了解,克雷恩伯格便顺带研究了广告标语。从统计数字可见,好的广告标语与经典电影台词相似,多以简洁明了取胜,如利瓦伊牛仔裤的广告语“质量永不落伍”,以及万宝路香烟的“请来万宝路之国。”
与其他领域一样,人文社科学科中的定量分析工具,在被聪明人掌握的时候是格外有力的。我们需要精通某学科的专家提出恰当的问题,并认识统计模型的优点和不足。马修·乔克斯相信,“我们比过去更能接受用数据去分析文学了。迟早有一天,这种分析法会变成人文学科中最常见的工具,和它在经济学、自然科学范畴的情况别无二致。”
□美国《纽约时报》
基于计算机技术的统计和分析工具,正向传统的人文社科研究领域进军,帮我们发现了许多此前未曾关注过的现象和规律。
今天,你随便找谁列举一下19世纪有影响力的作家,名单里几乎都会出现查尔斯·狄更斯、托马斯·哈代、赫尔曼·梅尔维尔和马克·吐温。然而,如果把时钟往回拨个两百年,榜单上并不会有这些名字。
新的研究发现,19世纪最具影响力的作家要数简·奥斯汀与沃尔特·司各特,两者在写作风格和主题等方面对同行产生的影响最大。
内布拉斯加大学人文学系数码研究中心专家、副教授马修·L·乔克斯,在去年的一份报告中指出,奥斯汀和司各特“相当于文坛上的直立人(老祖宗),或者,如果你愿意,可以称他们为文学上的亚当和夏娃”。这个结论是在对1780年到1900年出版的3592部作品进行分析后得出的,分析工作是用计算机进行的、深度的“数码化发掘”。
乔克斯的发现,在其新著《常量分析:数字化方法与文学史》中可以读到。这种分析法很有趣:“大数据”正稳步地把数字化技术和研究方法,推向人文社科的传统领地。
从文字间找出思想的基因
数字化时代的新潮工具提供了观察文化现象的新鲜视角。它像显微镜,让我们看到生活的细微之处;又似望远镜,使我们看到遥远的星河。
“从前,我们通过大量的文本去了解文学史,如今,技术进步则让你看到更宏观的图景——作者创作的背景、环境——从某种程度上说,我们以前从来没见过。”《常量分析》如此强调。
乔克斯今年46岁,在伊利诺伊州立大学获得文学博士学位,计算机也玩得很棒,成了一名自学成材的编程员。去年跳槽到内布拉斯加大学前,他在斯坦福大学工作了十多年,在那里,他建立了斯坦福大学文学实验室,专门研究实体读物的数字化。
大数据技术的厉害之处,在于其收集、估量和分析数据的能力特别强。在人文社科领域,扫描下来的图书、网站、博客文章和社交网络留言等,正汇聚成愈发汹涌的信息洪流。哈佛大学数量社会科学研究所主任加里·金指出:“有些人将其归入计算机科学,有些人称它为统计学分支,但从本质上讲,这类方法如今越来越成为所有学科的组成部分。”
文化数据分析师经常将自己的工作和生物学类比。比如,乔克斯称自己的研究呈现了“19世纪文学基因组的计算和想象”。这样的比喻听起来非常恰当,因为研究的大部分是对文字的定量审视——正如基因是生物学的底层架构一样,文字也是思想的原材料。
而在哈佛大学博士后让-巴普提斯特·米歇尔看来:“思想和思想的发展……对人类进化具有独特的、决定性的作用。”米歇尔和同事们基于“谷歌图书”,探索语言及文字习惯的流变。至今,谷歌图书已收录了公元16世纪以来的2000万本书,该网站每分钟被使用50次。比如,输入“女人”与“男人”,你会发现,很长一段时间里,关于“男人”的条目比关于“女人”的多得多,1985年开始才发生转变,和“女人”有关的条目逐渐占了上风。
2011年,在发表于《科学》杂志的论文里,米歇尔的团队结合谷歌图书的数据得出结论:我们的过去正飞快地从书里消失。比如,在1880年这个时间点,写过去的书按比例算最多,仅仅30年过后,写过去的书只有先前的一半了;同样的数字,1983年只有1973年的一半,间隔越来越短。难怪这篇论文写道:“我们对过去的遗忘一年比一年快了。”
定量分析法将不再有禁区
康奈尔大学的计算机科学家约恩·克雷恩伯格,则从不同的角度研究集体记忆。他的报告去年发表,主要项目是“电影台词里令人难忘的元素”。雷恩伯格把“语言的健康”比喻成“肌体的健康”,他说,“在人们的脑海中经久不去的台词是进化的成功范本”。
研究者们把从数据库中选择的“值得记忆的台词”以及它们在网上出现的次数作为衡量尺度。他们挑了大约1000部电影,将台词输入电脑,用统计学算法解析句子结构、词序和词语,最后发现,值得记忆的台词的语句结构往往平平无奇,只不过嵌入了惊艳的字眼。
譬如,电影《甜心先生》中有一句:“你一进来就征服我了。”克雷恩伯格说,这句台词所用的语序和词类都是司空见惯的,跟“我在波士顿遇见他”一样。战争片《现代启示录》中那句“我喜欢早晨的凝固汽油味”,跟“我喜欢早晨的咖啡味”亦不过一字之差。
这种分析方法可以应用到包括广告在内的各种媒介。据了解,克雷恩伯格便顺带研究了广告标语。从统计数字可见,好的广告标语与经典电影台词相似,多以简洁明了取胜,如利瓦伊牛仔裤的广告语“质量永不落伍”,以及万宝路香烟的“请来万宝路之国。”
与其他领域一样,人文社科学科中的定量分析工具,在被聪明人掌握的时候是格外有力的。我们需要精通某学科的专家提出恰当的问题,并认识统计模型的优点和不足。马修·乔克斯相信,“我们比过去更能接受用数据去分析文学了。迟早有一天,这种分析法会变成人文学科中最常见的工具,和它在经济学、自然科学范畴的情况别无二致。”
□美国《纽约时报》