【文艺理论与批评】王军 | 从人文计算到可视化——数字人文的发展脉络梳理
The following article is from 文艺理论与批评 Author 文艺理论与批评
编者按:“数字人文”(Digital Humanities)近年来逐渐成为人文研究领域新的热点,这一方法将史料、文献、文艺作品等文本以及图像乃至音频、视频材料视作数据,借助计算机远超人力的计算能力,对巨量的数据进行计量与分析,并通过不同形式的图示对经由计算得出的数据特征进行“可视化”表达,这为人文研究提供了一个新的视角。相比于历史学、文献学等领域,在文艺研究中运用“数字人文”方法面临更多的困难——如何为不断丰富的文献材料建立数据库?如何将文本结构化为计算机可识别、可计算的数据?文艺作品的审美价值与独创性是否应该/能够被计量?本刊邀请6位从事“数字人文”研究的学者,结合自身研究案例,梳理“数字人文”研究的基本理念与方法,着重探究文艺研究与数字方法的结合点,同时尝试在数字化的视野中反思人文学科自身的特点、价值与可能。
作为一个新兴的热门研究领域,数字人文所涉及的内容是丰富而庞杂的。为了探测数字人文领域的研究热点,我们收集了数字人文领域规模最大的国际会议“国际数字人文大会”12016-18三年间所收录的各种形式的会议论文约1700篇。我们统计了这1700篇论文的标题和文摘中出现的关键词的词频,排在第一位的是可视化(visualization)。2为什么可视化在数字人文的研究中如此重要?要回答这一问题,我们首先需要了解数字人文是如何产生的。
数字人文是如何产生的
什么是远读
可视化为什么重要
斯迪芬·詹尼克(Stefan Jänicke)等人收集了2005-15年十年间使用人文语料可视化方法的期刊论文和会议论文共92篇,并总结出六类适用于远读的可视化方法:结构图、热力图、标签云、地图、时间线、网络图。8结构图用来展现单篇文档或者整个语料库的层级结构;热力图用来显现文本内的隐含模式出现的频繁程度(如《圣经》中反复出现的句式);标签云展示高频词的相对比例;地图被广泛地用来呈现有地理属性的对象的地理空间分布;时间线适合呈现历史数据随时间的演化;网络图被广泛用来展现文本内或文本间信息对象的复杂关系。下面我们举几个有代表性的例子来说明远读是如何以可视化的方式实现的。图1来自斯坦福大学的书信共和国(Republicof Letters)项目。该图展现了西班牙王国1600-1810年间360个科学家相互之间以及与外界书信往来的情况。在图中选择一个节点,便可以观察该节点对应的科学家和他人的通信情况;选择一个边,便可以了解两地之间在历史上曾经发生过的交往;选择一个区域,便圈定了相应的考察范围。
图2是北京大学数字人文中心根据《宋元学案》所作的宋代理学衍化脉络可视化成果。图中的每一条溪流代表一个学术门派(对应一个学案),它在某个时间点的垂直高度反映了对应时段该学派在世学者的数量,纵览全图我们可以观察宋代理学各门派各学说消长流衍的总体情况。点击其中的一个溪流,就跳转到该学术门派的详细介绍页面。
图3是很有代表性的数字人文可视化作品。斯蒂夫尼·珀萨瓦(Stefanie Posavec)将杰克·凯鲁亚克(Jack Kerouac)上世纪五十年代的畅销小说《在路上》量化为一颗花树。9图中的中心结点是第一章,每个分支表示从第一章发展出的一个章节,由一个章节长出段落的分叉,组成一个段落的句子绘成一片叶子,叶子上的叶脉是对单词的计数,颜色反映了小说的主题(themes)。这幅图准确而又形象地展现了小说的篇章结构和主题演进。 尽管不同案例的可视化方式各不相同,但归纳来说,数字人文的可视化,为人文语料提供了一个全局图景。这个图景,在本质上是一个更多特征维度、更细知识粒度的目录和索引。在中国的学术传统中,目录学是入学之门径。清代王鸣盛在《十七史商榷》中说“目录之学,学中第一紧要事”,“必从此问途,方能得其门而入”。唐代目录学家毋煚在《古今书录序》中说“览录而知旨,观目而悉词,经坟之精术尽探,贤哲之锐思咸识”,“将使书千帙于掌眸,披万函于年祀”,其重要性可想而知。在纸质文献时代,目录和索引,实际上就是纸本图书的远读系统。相应地,远读也可以看作是数字文本的可视化目录。它描述了文档集合的全局特征,让研究人员对超大数据集有了整体认知。它揭示了文本内部或文本之间的多维度联系,方便研究人员从地理、时间、频度、联系、主题等角度选择他所关注的研究对象去深入细读。同时,计算机远读得到的对文本的抽象化结果,为研究者理解文本提供了文字之外的材料。可以说,远读的价值,在于帮助我们在海量的数字媒体环境下筛选我们应当去关注的学术问题和有必要去细读的文本。最终,我们还是要老老实实地坐下来细读值得去读的那一部分内容。
总结
媒体文化学家尼尔·波兹曼(Neil Postman)在讨论媒体和隐喻的关系时说,人类的文化正处于从以文字为中心向以形象为中心转换的过程中。10对可视化结果的“观看”,还能称为“读”吗?它会造成我们对文字表达的疏远吗?抽象而又直观的可视化图像会造成受众想象力的束缚吗?它会不会进一步把人类包裹在自我创造的形象与符号之中,而距离自然与现实越来越远了呢?数字人文和可视化的发展,对人文学科本身,以及对读者会产生哪些深远影响,这些问题是我们要进一步研究和讨论的。
1 “国际数字人文大会”是数字人文的全球组织数字人文国际联盟(The Alliance of Digital Humanities Organization)主办的年会。
2 参见王军、张力元:《国际数字人文进展研究》,《数字人文》,2020年第1期。
3 See Morton, A. Q., The Authorship of the Pauline Epistles: A Scientific Solution, Saskatoon: University of Saskatchewan, 1965.
4 See Moretti, Franco,“Conjectures on World Literature”, New Left Review, 1(2000).
5 See Jean-Baptiste Michel, etc., “Quantitative Analysis of Culture Using Millions of Digitized Books”, Science,14Jan. 2011, pp.176-182.
6 See Moretti F, Graphs, Maps, Trees: Abstract Models for a Literary History, Verso, 2005.
7 See Jean-Baptiste Michel, etc., “Quantitative Analysis of Culture Using Millions of Digitized Books”.
8 See S. Jänicke, etc., On Close and Distant Reading in Digital Humanities: A Survey and Future Challenges, Eurographics Conference on Visualization (EuroVis),2015.
9 See Posavec S., Writing without words, http://www.stefanieposavec.com/writing-without-words.
10 参见[美]尼尔·波兹曼:《娱乐至死》,章艳译,广西师范大学出版社,2009年,第10页。数字使人文更新
投稿邮箱:dh2020@tsinghua.edu.cn
数字人文门户网站:www.dhlib.cn