摘要
主题模型是新近开发出来的研究方法,对于拓展数字人文的研究路径非常有价值。LDA是主题模型算法之一,将它运用到“德语文献档案”收录的—年间的文献,在归纳、分析文本的主题后,对主题模型方法的有效性进行评判。主题模型的演算结果让我们对18世纪德意志精神世界有了更加立体的认知:18世纪的作者具有强烈的历史意识,对知识体系的构建异常积极,小说受追捧与公共领域的兴起密切相关,宗教启蒙是时代主题。这些结果表明,启蒙运动具备多重面相。在历史研究中需要将以主题模型为代表的远距离阅读与细读有机结合起来,才能够得到更具说服力的研究成果。主题模型作为一种文本挖掘的方法,仍然存在改进的空间,而这种进步需要人文学者与计算专家的通力合作。这也是数字人文继续发展的必由之路。
数字史学(digitalhistory)在西方学界方兴未艾,国内学者近年来也开始涉足。除了必要的理论探讨外[1],史料型数据库建设是主要的成果呈现形态,而有历史特质的个案研究基本上以量化历史的面目出现,用数据库方法梳理观念史的研究以对关键词频的统计为依据[2]。数字史学当然不能止步于数据库的建设,量化历史或者词频统计的方法也不是数字史学的全貌。某种意义上说,历史研究的史料除了容易量化的数据外,更多是无法量化的文本,因此对数据库进行有效的信息提取与可视化呈现,才是数字史学的核心价值。先行一步的西方学者已经在使用主题模型(TopicModeling)的方法对大规模文献进行数据挖掘[3],拓展了数字人文(DigitalHumanities)的研究路径,在史学研究领域,也有值得期待的可能性。本文将在关于德意志启蒙运动的研究实践中使用这种工具,并结合具体案例对其有效性进行评判。
主题模型的基本概念
手头有近份文献,字符数在万左右,我们用什么方法在最短的时间内了解文献的整体面貌,并对文献内容进行整理?传统的方法是让不同的人同时阅读,做读书笔记,然后分享阅读成果,最终整合成一份读书报告。这种合作阅读(collaborativereading)的方式,通常被学者们用来处理庞杂的文献资料。它能够提升搜集信息的效率[4],但也具有明显的劣势:它基于多人协作,处理信息的标准因人而异,让内容整合的客观性大打折扣。
更重要的是,这种传统的方式是一种直接的(directreading)、近距离的(closereading)的阅读,处理信息的容量非常有限。正如克雷恩(GregoryCrane)在年提出的那样,“你怎么处理万册的图书?”[5]在信息爆炸的网络时代,更有大量有效信息淹没在无关文献的海洋,人力的局限性在这里暴露无余。为此,文艺理论家莫莱蒂(FrancoMoretti)曾经提出“远距离阅读”(distantreading)的概念[6],其初衷实则沿袭了合作阅读的方式。专注机器学习与自然语言处理的专家,设计出“主题模型”的算法,能够在无须人工参与的前提下发现和归纳文本的主题内容。这种统计模型工具用机器阅读的形式兑现了远距离阅读的理念,为解决文献增量超出人类理解极限的状况找到了出路。
主题模型的工作原理立足于人类的写作习惯。写作者在创作文本时,都会预设若干主题。为了凸显某个主题,作者会在遣词造句时调用具有相关联的词汇,在主题模型的术语中,这些具有相关性的词汇被称为“词群”(bagofwords)。举个例子,歌德在构思《少年维特之烦恼》(DieLei-dendesjungenWerthers)时[7],会设计不同主题,并用不同的文字展现出来。作为一部爱情小说,“爱情”(Liebe)一定是绝对的主题,但歌德也不会排斥对其他主题的描述,否则小说的可读性降低,对社会的描述也会非常扁平化。因此“自然”(Natur),“艺术”(Kunst)以及“社会”(Gesell-schaft)等,也是可能的主题内容。为了描绘这些主题,歌德在写作中会调动相应的词群,例如,在描绘维特令人心碎的爱情时,一定会出现高频率地出现“Liebe”(爱情)、“Hertz”(心)等,也会有“umarmen”(拥抱)、“küssen”(吻)等,或者频率较低的“ewig”(永恒)、“morgen”(明天)等词汇。其他主题也有类似的词群以及频率。基于这样的创作习惯,如果我们能够统计词群,就能够把握与之对应的主题,进而了解整部文献的内容。
图1:歌德之维特的主题创作
在上述思路的指引下,布雷(DavidBlei)、吴恩达和乔丹(MichaelJordan)于年提出了“隐含狄利克雷分布”(LatentDirichletallocation,简称LDA)[8],成为主题模型最常用的算法。LDA通过特定公式计算词汇出现的频率,并将相互关联的词汇作为结果输出。这种模型是一种无监督学习的算法,具有刚性的客观性,即事先不需要研究者对文献内容有任何了解,也不需要进行人工标注、设置关键词等主观处理,而完全由电脑程序自动完成对文献主题的归纳。主题模型试图用数学框架来解释文档内容,这种做法看似同人文学科的习惯并不兼容。但是,LDA输出的结果是一组有意义的词群,而非纯粹的统计数据,人文学者能够使用这些词汇进行定性分析,证实或者证伪一些猜测[9],将定量统计的客观与定性描述的开放充分结合起来,所以这个方法在人文学科领域极具应用的前景,特别是对动辄数以万计的文献来说,主题模型的计算能力非常诱人[10]。
基于LDA的理念,计算机专家迈克卡伦(An-drewMcCallum)写出软件MALLET,让归纳整理文献主题变成简单的命令录入,开始被人文学者广泛使用[11];特别是在纽曼(DavidNewman)和同事用JAVA开发出图像界面的主题模型工具套件(TopicModelingTools,TMT)之后,使用者甚至不需要了解繁琐的命令符,进一步降低了应用门槛,让主题模型成为人人能够上手的工具。
“德语文献档案”简介
主题模型的优势是能够对海量文献进行高效率的分析。这里涉及到两个问题。
首先,“海量”是多少?PaperMachines是另一款可以进行主题模型分析的工具,其使用手册上注明,成功进行主题模型的下限是50份文献[12]。毫无疑问,过少的文献,我们完全可以直接阅读,获取有效信息的准确率一定高于机器识别。50份文献也是一个略指,并没有对每份文献的具体字数进行说明:实际上,将文献段落划分为不同文档,会影响主题模型输出的结果(虽然可能仅仅是某些词汇的改变)。
其次,什么样的文献能够进行主题模型分析?由于主题模型需要计算机对文字进行识别,所以需要把纸质文献转化为数字文档,即要对文字资料的图像文件进行识别处理(即所谓光学符号识别,OpticalCharacterRecognition,简称OCR)。但我们知道,OCR的错误率是无法回避的问题,特别是对历史文献而言,OCR的输出结果总是差强人意。我们在本文使用的文献集中在18世纪,都是用花体字(Fraktur)印刷,转换出来的纯文本更是错误频出。对OCR文档进行清理,必要时用正则表达式(regularexpression)提高工作效率,也是我们进行主题模型分析的准备步骤。
实际上,这两个问题都指向了文献数字化的状况。可以毫不夸张地说,文献的数字化,是开展数字人文研究的前提。作为史学研究者,我们或许更能体会何谓巧妇难为无米之炊,史料就是我们研究的依据;没有经过数码化处理的史料,等同于史学研究无米下锅。在这个意义上,建立史料的电子数据库,是一项基础设施建设。虽然它在客观上加剧了文献爆炸的事实,导致信息量太多以至于无法消化(toomuchtoknow)[13],但却是“数字史学”研究展开的第一步。
西方学界很早就意识到了这点。本文研究使用的数字文献,就受益于数字化基础设施建设的先期成果。我们的主体文献来自“德语文献档案”(DeutscheTextarchiv,简称DTA),是一个涵盖了从15世纪到20世纪初跨度达年的德语文献数据库,当前收录的文献近件,文献类型包括书籍、报纸等,并在不断扩充[14]。“德语文献档案”其实是欧盟范围内CLARIN的一个子项目。CLARIN的全称是“通用语言库与技术基础设施”(CommonLanguageResourcesandTechnologyIn-frastructure),其宗旨是对人文社会科学领域的语言材料进行归档与数码处理,实现资料共享,推进学术研究;各个欧盟成员国都有相应机构负责搭建各自语种的数据库,德国建立德语文献资料库的成果之一就是DTA[15]。
本文集中分析“德语文献档案”收录的-年间共计件文献,字符数总量近万。这个时间段的划分,是由“德语文献档案”数据库的特性决定的。“德语文献档案”收录的德语文献有多个来源[16],其原则不是为了穷尽某个年份的文献,而是要兼顾学科的全面与版本的首创。虽然数据库收录的文献跨度达年之久,但从图2可以看出,文献数量的年代差异非常明显。年之前的文献相对较少,年之后的文献明显增多。根据主题模型的原理,过少或者过多的文献都会左右结果的输出,影响我们的分析;纵观整个18世纪的文献,既有康德、席勒、洪堡等重要历史人物的作品,也有被历史湮没的小人物的文字,甚至匿名者,虽然收录的文献仅仅是这个时代所有文献的很小一部分,但它们极具代表性,能够让我们比较全面地探寻时代面貌。另外,选择相对较小的文本容量,主要是考虑到能够与人工阅读对照分析,方便我们对主题模型的有效性进行评判。
图2:文献的年代分布
多份文献达到了运用主题模型工具的标准。这些文献的长短参差不齐,既有阿诺德(GottfriedArnold)涉及教会史的大部头[17],单篇就有10万字之巨;也有仅仅只言片语的宣传单[18]。需要指出的是,文献的统计单位以其原始形态为依据,即一部书记为一份,多卷本的书每卷单独计数,至于下文提到的报纸,以合订的一期为一份。在我们的分析中,每份文档被视为最小的研究单位。对于内容庞杂的单个文献之所以没有按照章节继续划分,是因为进一步的切割会破坏专著的语义完整,在返回原文进行细读分析时发生错位。
主题模型的运用与分析
LDA主题模型是十多年前提出的概念,其间不断有新的工具被开发出来。我们在本文主要采用具有图像界面的MALLET。实际上,现在被人文学者用来进行主题模型分析的PaperMachines以及Tethne等工具,都内置了MALLET的内核,它们在后台的算法基本相同。
主题模型的工作原理虽然不要求使用者事先对文献内容进行了解,但为了让输出的结果为人类理解,并被用作进行定性分析的材料,需要设置一些参数。其中一个重要参数是想让机器演算出多少主题,并用多少关键词进行表达[19]。考虑到“德语文献档案”文献类型的多样性,以及文献大小的巨大差异,我们将主题的数量确定为40个,每个主题用20个词进行表达。将全部份文档导入程序之后,我们得到了一个完整列表。本质上说,拟合出来的主题复原了18世纪德意志的历史画面与精神世界,涉及了广阔的内容。它是没有任何人为因素参与的场景重建,呈现出来的形态令人瞩目[20]。
A
“德语文献档案”的整体状况
从某种意义上说,主题模型就是将总量达几千万字符的文献,浓缩到用个主题词去理解。仔细观察全部40个主题的词群,我们发现有一些词汇在不同主题频繁存在。这或许是一个从整体上理解“德语文献档案”的指标。我们可以用文字云的工具,统计主题词的频率,得到可视化的结果(图3)。
图3:主题词的文字云
文字云透露了一些信息。在全部主题中,诸如Menschen(人)、Wasser(水)、Art(艺术)、Lieb(爱)等词汇高频率出现。我们可能会认为,这些关键词大概反映了18世纪的某种时代风貌,即对自然与人文的
摘要
主题模型是新近开发出来的研究方法,对于拓展数字人文的研究路径非常有价值。LDA是主题模型算法之一,将它运用到“德语文献档案”收录的—年间的文献,在归纳、分析文本的主题后,对主题模型方法的有效性进行评判。主题模型的演算结果让我们对18世纪德意志精神世界有了更加立体的认知:18世纪的作者具有强烈的历史意识,对知识体系的构建异常积极,小说受追捧与公共领域的兴起密切相关,宗教启蒙是时代主题。这些结果表明,启蒙运动具备多重面相。在历史研究中需要将以主题模型为代表的远距离阅读与细读有机结合起来,才能够得到更具说服力的研究成果。主题模型作为一种文本挖掘的方法,仍然存在改进的空间,而这种进步需要人文学者与计算专家的通力合作。这也是数字人文继续发展的必由之路。
数字史学(digitalhistory)在西方学界方兴未艾,国内学者近年来也开始涉足。除了必要的理论探讨外[1],史料型数据库建设是主要的成果呈现形态,而有历史特质的个案研究基本上以量化历史的面目出现,用数据库方法梳理观念史的研究以对关键词频的统计为依据[2]。数字史学当然不能止步于数据库的建设,量化历史或者词频统计的方法也不是数字史学的全貌。某种意义上说,历史研究的史料除了容易量化的数据外,更多是无法量化的文本,因此对数据库进行有效的信息提取与可视化呈现,才是数字史学的核心价值。先行一步的西方学者已经在使用主题模型(TopicModeling)的方法对大规模文献进行数据挖掘[3],拓展了数字人文(DigitalHumanities)的研究路径,在史学研究领域,也有值得期待的可能性。本文将在关于德意志启蒙运动的研究实践中使用这种工具,并结合具体案例对其有效性进行评判。
主题模型的基本概念
手头有近份文献,字符数在万左右,我们用什么方法在最短的时间内了解文献的整体面貌,并对文献内容进行整理?传统的方法是让不同的人同时阅读,做读书笔记,然后分享阅读成果,最终整合成一份读书报告。这种合作阅读(collaborativereading)的方式,通常被学者们用来处理庞杂的文献资料。它能够提升搜集信息的效率[4],但也具有明显的劣势:它基于多人协作,处理信息的标准因人而异,让内容整合的客观性大打折扣。
更重要的是,这种传统的方式是一种直接的(directreading)、近距离的(closereading)的阅读,处理信息的容量非常有限。正如克雷恩(GregoryCrane)在年提出的那样,“你怎么处理万册的图书?”[5]在信息爆炸的网络时代,更有大量有效信息淹没在无关文献的海洋,人力的局限性在这里暴露无余。为此,文艺理论家莫莱蒂(FrancoMoretti)曾经提出“远距离阅读”(distantreading)的概念[6],其初衷实则沿袭了合作阅读的方式。专注机器学习与自然语言处理的专家,设计出“主题模型”的算法,能够在无须人工参与的前提下发现和归纳文本的主题内容。这种统计模型工具用机器阅读的形式兑现了远距离阅读的理念,为解决文献增量超出人类理解极限的状况找到了出路。
主题模型的工作原理立足于人类的写作习惯。写作者在创作文本时,都会预设若干主题。为了凸显某个主题,作者会在遣词造句时调用具有相关联的词汇,在主题模型的术语中,这些具有相关性的词汇被称为“词群”(bagofwords)。举个例子,歌德在构思《少年维特之烦恼》(DieLei-dendesjungenWerthers)时[7],会设计不同主题,并用不同的文字展现出来。作为一部爱情小说,“爱情”(Liebe)一定是绝对的主题,但歌德也不会排斥对其他主题的描述,否则小说的可读性降低,对社会的描述也会非常扁平化。因此“自然”(Natur),“艺术”(Kunst)以及“社会”(Gesell-schaft)等,也是可能的主题内容。为了描绘这些主题,歌德在写作中会调动相应的词群,例如,在描绘维特令人心碎的爱情时,一定会出现高频率地出现“Liebe”(爱情)、“Hertz”(心)等,也会有“umarmen”(拥抱)、“küssen”(吻)等,或者频率较低的“ewig”(永恒)、“morgen”(明天)等词汇。其他主题也有类似的词群以及频率。基于这样的创作习惯,如果我们能够统计词群,就能够把握与之对应的主题,进而了解整部文献的内容。
图1:歌德之维特的主题创作
在上述思路的指引下,布雷(DavidBlei)、吴恩达和乔丹(MichaelJordan)于年提出了“隐含狄利克雷分布”(LatentDirichletallocation,简称LDA)[8],成为主题模型最常用的算法。LDA通过特定公式计算词汇出现的频率,并将相互关联的词汇作为结果输出。这种模型是一种无监督学习的算法,具有刚性的客观性,即事先不需要研究者对文献内容有任何了解,也不需要进行人工标注、设置关键词等主观处理,而完全由电脑程序自动完成对文献主题的归纳。主题模型试图用数学框架来解释文档内容,这种做法看似同人文学科的习惯并不兼容。但是,LDA输出的结果是一组有意义的词群,而非纯粹的统计数据,人文学者能够使用这些词汇进行定性分析,证实或者证伪一些猜测[9],将定量统计的客观与定性描述的开放充分结合起来,所以这个方法在人文学科领域极具应用的前景,特别是对动辄数以万计的文献来说,主题模型的计算能力非常诱人[10]。
基于LDA的理念,计算机专家迈克卡伦(An-drewMcCallum)写出软件MALLET,让归纳整理文献主题变成简单的命令录入,开始被人文学者广泛使用[11];特别是在纽曼(DavidNewman)和同事用JAVA开发出图像界面的主题模型工具套件(TopicModelingTools,TMT)之后,使用者甚至不需要了解繁琐的命令符,进一步降低了应用门槛,让主题模型成为人人能够上手的工具。
“德语文献档案”简介
主题模型的优势是能够对海量文献进行高效率的分析。这里涉及到两个问题。
首先,“海量”是多少?PaperMachines是另一款可以进行主题模型分析的工具,其使用手册上注明,成功进行主题模型的下限是50份文献[12]。毫无疑问,过少的文献,我们完全可以直接阅读,获取有效信息的准确率一定高于机器识别。50份文献也是一个略指,并没有对每份文献的具体字数进行说明:实际上,将文献段落划分为不同文档,会影响主题模型输出的结果(虽然可能仅仅是某些词汇的改变)。
其次,什么样的文献能够进行主题模型分析?由于主题模型需要计算机对文字进行识别,所以需要把纸质文献转化为数字文档,即要对文字资料的图像文件进行识别处理(即所谓光学符号识别,OpticalCharacterRecognition,简称OCR)。但我们知道,OCR的错误率是无法回避的问题,特别是对历史文献而言,OCR的输出结果总是差强人意。我们在本文使用的文献集中在18世纪,都是用花体字(Fraktur)印刷,转换出来的纯文本更是错误频出。对OCR文档进行清理,必要时用正则表达式(regularexpression)提高工作效率,也是我们进行主题模型分析的准备步骤。
实际上,这两个问题都指向了文献数字化的状况。可以毫不夸张地说,文献的数字化,是开展数字人文研究的前提。作为史学研究者,我们或许更能体会何谓巧妇难为无米之炊,史料就是我们研究的依据;没有经过数码化处理的史料,等同于史学研究无米下锅。在这个意义上,建立史料的电子数据库,是一项基础设施建设。虽然它在客观上加剧了文献爆炸的事实,导致信息量太多以至于无法消化(toomuchtoknow)[13],但却是“数字史学”研究展开的第一步。
西方学界很早就意识到了这点。本文研究使用的数字文献,就受益于数字化基础设施建设的先期成果。我们的主体文献来自“德语文献档案”(DeutscheTextarchiv,简称DTA),是一个涵盖了从15世纪到20世纪初跨度达年的德语文献数据库,当前收录的文献近件,文献类型包括书籍、报纸等,并在不断扩充[14]。“德语文献档案”其实是欧盟范围内CLARIN的一个子项目。CLARIN的全称是“通用语言库与技术基础设施”(CommonLanguageResourcesandTechnologyIn-frastructure),其宗旨是对人文社会科学领域的语言材料进行归档与数码处理,实现资料共享,推进学术研究;各个欧盟成员国都有相应机构负责搭建各自语种的数据库,德国建立德语文献资料库的成果之一就是DTA[15]。
本文集中分析“德语文献档案”收录的-年间共计件文献,字符数总量近万。这个时间段的划分,是由“德语文献档案”数据库的特性决定的。“德语文献档案”收录的德语文献有多个来源[16],其原则不是为了穷尽某个年份的文献,而是要兼顾学科的全面与版本的首创。虽然数据库收录的文献跨度达年之久,但从图2可以看出,文献数量的年代差异非常明显。年之前的文献相对较少,年之后的文献明显增多。根据主题模型的原理,过少或者过多的文献都会左右结果的输出,影响我们的分析;纵观整个18世纪的文献,既有康德、席勒、洪堡等重要历史人物的作品,也有被历史湮没的小人物的文字,甚至匿名者,虽然收录的文献仅仅是这个时代所有文献的很小一部分,但它们极具代表性,能够让我们比较全面地探寻时代面貌。另外,选择相对较小的文本容量,主要是考虑到能够与人工阅读对照分析,方便我们对主题模型的有效性进行评判。
图2:文献的年代分布
多份文献达到了运用主题模型工具的标准。这些文献的长短参差不齐,既有阿诺德(GottfriedArnold)涉及教会史的大部头[17],单篇就有10万字之巨;也有仅仅只言片语的宣传单[18]。需要指出的是,文献的统计单位以其原始形态为依据,即一部书记为一份,多卷本的书每卷单独计数,至于下文提到的报纸,以合订的一期为一份。在我们的分析中,每份文档被视为最小的研究单位。对于内容庞杂的单个文献之所以没有按照章节继续划分,是因为进一步的切割会破坏专著的语义完整,在返回原文进行细读分析时发生错位。
主题模型的运用与分析
LDA主题模型是十多年前提出的概念,其间不断有新的工具被开发出来。我们在本文主要采用具有图像界面的MALLET。实际上,现在被人文学者用来进行主题模型分析的PaperMachines以及Tethne等工具,都内置了MALLET的内核,它们在后台的算法基本相同。
主题模型的工作原理虽然不要求使用者事先对文献内容进行了解,但为了让输出的结果为人类理解,并被用作进行定性分析的材料,需要设置一些参数。其中一个重要参数是想让机器演算出多少主题,并用多少关键词进行表达[19]。考虑到“德语文献档案”文献类型的多样性,以及文献大小的巨大差异,我们将主题的数量确定为40个,每个主题用20个词进行表达。将全部份文档导入程序之后,我们得到了一个完整列表。本质上说,拟合出来的主题复原了18世纪德意志的历史画面与精神世界,涉及了广阔的内容。它是没有任何人为因素参与的场景重建,呈现出来的形态令人瞩目[20]。
A
“德语文献档案”的整体状况
从某种意义上说,主题模型就是将总量达几千万字符的文献,浓缩到用个主题词去理解。仔细观察全部40个主题的词群,我们发现有一些词汇在不同主题频繁存在。这或许是一个从整体上理解“德语文献档案”的指标。我们可以用文字云的工具,统计主题词的频率,得到可视化的结果(图3)。
图3:主题词的文字云
文字云透露了一些信息。在全部主题中,诸如Menschen(人)、Wasser(水)、Art(艺术)、Lieb(爱)等词汇高频率出现。我们可能会认为,这些关键词大概反映了18世纪的某种时代风貌,即对自然与人文的