您现在所在位置:首页 > 道中华
道中华 |你知道“唐诗排行榜”哪首排第一?诗词大数据揭示的有趣现象
发布日期:2022-12-30

微信图片_20221106141017.jpg

数据时代的诗词之问


提起大数据,人们脑海中往往会浮现出自然科学、社会科学、商业经济等领域应用海量数据和复杂算法的场景,而不太会将其与凝聚着文学之美的古典诗词联系起来。仿佛诗词之美可以被感受、允许被讨论,但不能被计算。然而,无论是在学术研究中,还是出于阅读好奇,我们常会碰到这样的问题:


古代各朝有多少诗人?多少女诗人?唐人和宋人哪个更爱写格律诗?宋词有多少词牌?哪个词牌最受词人欢迎?《唐诗三百首》中谁的诗最多?李白与杜甫谁的影响大?唐人七律第一,该颁给崔颢的《黄鹤楼》还是杜甫的《登高》?周邦彦和姜夔谁的音乐水平更高?李白“一生好入名山游”,苏轼“身行万里半天下”,他们到底走了多少地方……


这些问题,有的需要统计数据来作答,有的看似属于艺术判断,实际也需要科学逻辑和数学思维来支撑,有的问题目的不在数量多寡而在具体内容。信息时代的数据思维,给我们认知古典诗词新辟了一扇窗。数据可以是量化的数值,也可以是非量化的信息。无论哪种数据,都有各自的价值和使用场景。


诗词中的量化数据及其作用


传统意义上的数据,指“有根据的数字”,比如靠样本统计获得的量化数据。一个时代或者一个地区的存诗总量、作家人数,或者一位作家的经行地方、创作的某体数量,或者一个选本的选人数量、作品数量,一个词牌的使用次数、使用人数,一首诗词在历代选本中的入选次数、被历代作家唱和的次数等,都属于量化数据。


量化数据可以在样本范围内准确描述研究对象的基本格局。以著名选本《唐诗三百首》为例,蘅塘退士从两千多位唐代诗人的五万多首唐诗中,精选出77家的312首诗分体编成。各体选诗数量为:五古32首、七古28首、五律80首、七律53首、五绝29首、七绝51首、乐府39首。从占比看,古体诗和格律诗的比例近乎一比二。其中五古选诗最多的是中唐诗人韦应物(7首),七古选诗最多的是杜甫和李颀(各5首),五律选诗最多的是杜甫(10首),王维和孟浩然次之(各9首),七律选诗最多的是杜甫(13首),李商隐次之(10首),五绝选诗最多的是王维(5首),七绝选诗最多的是杜牧和李商隐(各7首)。而李白入选的作品大多在乐府(12首)。从选人看,入选率最高的前四位是:杜甫39首、李白29首、王维29首、李商隐24首。可见盛唐诗人最受推崇。杜甫不仅是入选率最高的诗人,也是入选作品覆盖七种诗体的全能型诗人。而在唐代存诗量最多的诗人白居易仅6首作品入选。


这些数据,既能体现作家的创作特点和时代地位,也能反映选家的审美偏好和诗体观念。有的选本流传广远,甚至能够影响一代读者的诗词审美。如果将统计样本横向扩大到其他选本,可考察历代选本的选诗标准和变化特点;如果纵向聚焦某位诗人或相关诗作,还可考察诗人在不同时代的影响力和名篇的稳定性。


640 (6).jpg

▲《唐诗三百首》书影。


量化数据还能为难以公断的某些学术判断提供思路和科学支撑。以文学经典研究为例,“唐人七律第一”是个自古聚讼的话题,“李杜优劣论”也历史悠久。诚然,艺术审美是一种个性化、主观化的体验,很难为审美寻求一份标准,也不必建立这样的标准。但在学术研究中,可以通过“影响力研究”为经典作家和经典作品寻求一种评价方式。衡量一部影视作品的影响力,可以考察其获奖级别、评分情况、重播次数、相关活动等。衡量一首诗词的影响力,也可以通过一系列“指标”来分析,比如选本对于诗词的流传影响深远,评点也能体现诗词在专业领域的关注度,语文教材常常塑造着青少年的诗词印象,文学史则在很大程度上定位了作品的级别。指标有了,再选取一些合适的样本对指标量化,并结合计量科学的特点和文学研究的实际,对数据进行统计计算,就可以在比较客观的前提下得出相对理性的结果。数十年前,王兆鹏教授等专家学者的《寻找经典——唐诗百首名篇的定量分析》《影响的追寻:宋词名篇的定量分析》《唐诗排行榜》《宋词排行榜》等论著,就是基于影响力分析的计量研究成果。


例如在《唐诗排行榜》中,位列榜首的作品是崔颢《黄鹤楼》,这多少有点令人惊讶。再考察其各项指标,会发现这首诗在列入统计样本的33种古代选本中入选率最高,被历代诗论家品评的频次也最高,当代文学史更是无一漏收。可以说,是古今诗选家、诗论家以及文学史的编撰者共同的认可,将这首诗送至榜首。数据背后的信息,还能启发我们考察不同时期诗选家和诗论家对同一首诗歌的关注度,从而用历史性、阶段性的眼光来看待经典的形成过程。这种通过设定指标来量化分析研究对象的思维和做法,比主观好恶的感受更加科学、公允。


640 (7).jpg

▲《唐诗排行榜》书影。


诗词中的属性数据及其价值


进入信息时代,“数据”的内涵也在扩大,而不仅指代“数字”。就诗词而言,还包括反映诗词某类属性的文本或信息,称之为属性数据。一首诗词的作者、标题、诗体、词体、题材、意象、时间、空间,一个作家的姓名、字号、郡望、籍贯、出生地、生卒年、家庭成员、朋友同僚、社会身份,甚至一首格律诗的韵字、对仗,一阕词的词牌、词格,都是诗词的属性数据。


属性数据可为量化数据提供计量基础。前文所述各类统计数值,如某种诗体的数量、某地作家的数量、某个词牌的使用次数等,都基于相关属性的先行标注。属性数据更大的价值在于,可以支撑主题丰富的学习或研究,拓宽诗词认知的边界。


以空间属性为例,诗词中存在各种各样的地名,包括诗词文本中的行政地名、景观地名、意象地名,以及作品的创作地、流传地,还有作家的籍贯地、出生地、任职地、行经地、谪居地、埋葬地等。比如杜甫《闻官军收河南河北》一诗,标题中的“河南”“河北”、诗句中的“剑外”“蓟北”“巴峡”“巫峡”“襄阳”“洛阳”、原诗自注“余家园在东京”中的“东京”等地名,加上这首诗的写作地点“四川省绵阳市三台县”,这些地名指示的地理位置,携带的历史信息,是理解这首作品诗意和作者情感的关键。


诗词中的地名信息,有的比较显而易见,有的需要深度挖掘,有的涉及到悬而未决的学术问题。但长期以来,文学研究中空间观念相对单薄,导致作家年谱的编撰和作品的编年笺注工作,大多重视时序的编排,比较忽略地点的落实。在文学审美中,地名也常被当作专有名词对待,而没有释放出蕴含的能量,发挥应有的作用。这与历史研究中的时空一体观,很不相称。基于这种状况,近年来王兆鹏教授主持的“唐宋文学编年地图”,将空间属性提高到和时间属性同等重要的地位,大量挖掘并标记作家及作品中的各类空间属性数据,并融合历史地理数据,运用GIS技术绘制了唐宋诗人的轨迹地图,实现了年谱的地图化、作品的空间化。


640 (8).jpg

▲“唐宋文学编年地图”之“苏轼行迹图”。


一串串地名,将苏轼从出生、科举、仕宦、贬谪到去世的人生连接成线,将他的诗词文赋、书画创作、平生交游、宦海沉浮,在地图上划出一条独特的东坡印迹。通过这条印迹,读者不仅可以浏览苏轼一生所有编年作品、大事小事,也能清楚指出“黄州惠州儋州”,更会对苏轼“身行万里半天下”、“九死南荒吾不恨”、“一蓑烟雨任平生”的诗句词句,产生别样体会。关注诗词中的空间信息和地名数据,可帮助读者充分了解作家、解读作品,读出背后的信息、情感、美感。


诗词中的地名隐藏着许多历史地理信息,了解这些信息既能辅助诗歌编年系地,还可锻炼读者严谨的科学思维和问题意识。例如,诗词中的古今地名问题。以李白《陪宋中丞武昌夜饮怀古》为例,标题中的“武昌”是个历史地名,想知道其确切所指,要查阅地理文献中“武昌”的地名演变。根据唐代李吉甫《元和郡县图志》和清代顾祖禹《读史方舆纪要》等文献可知,盛唐时期的“武昌”,仍指三国时期孙权改鄂县立武昌郡之“古武昌”,即今天湖北省鄂州市地区。而被今天武汉三镇之“武昌”所用,始于中唐元和年间设立“武昌军”。李白笔下的“武昌”,只能是今天湖北省鄂州市,而不是武汉市。那么盛唐诗人如何指称武汉呢?答案是“江夏”或者“夏口”。李白《江夏送友人》,王维《送康太守》中的“铙吹发夏口”,所指皆武汉。中唐以后,武昌地名两用,如诗人刘长卿的诗句“上下武昌城,长江竟何有”。宋人为作区分,有时仍以“夏口”古地名指称上游的“武昌”,如苏轼《赤壁赋》中“西望夏口,东望武昌”。关注诗词中的古今地名,可以拓展思维。


除了地名数据,诗词中的意象、物象、天象、气象、语典、事典、格律、音韵等数据,每一类都有独特内涵和意蕴,都可衍生出相关话题或研究。数据创新可以激发思维创新,这正是属性数据的巨大魅力。


诗词中的大数据


人们常用大容量、多类型、获取速度快、真实性、非结构化等特点来描述大数据。但这些特点并不适用于所有领域,各个领域对“大”的定义并不相同。


诗词中的大数据,首先反映在数据的体量或容量上。以搜韵网所收古典诗词为例,目前已收录先秦以来古典诗词107万余首,如果完善明清两朝的作品,数量当突破两百万。仅从目前一百多万诗词作品中,就可提取出时间数据58万多条、地名数据近80万条、植物数据近40万条、官职数据约35万条、景观数据54万条、人物数据117万条,合计约四百万,这还不包括句例数据、词汇数据和字数据。尽管这些数据的体量与互联网经济领域动辄以“太字节”(240)计量的数据不可同日而语,但早已超出人的阅读极限和脑力手工的边界。


除了表面的“大容量”,诗词中的大数据,更体现在“大价值”上。诗词中的数据价值,一方面来自数据本身,包括数据精度高、粒度细。从前文所述类型丰富指称具体的地名数据可见一斑。再举对仗数据为例。由于律诗要求中间两联对仗,所以包含大量对仗词汇。计算机从39.3万首律诗和1.5万首排律中,可以获取单字、双字和三字对仗词汇约265万对。从这些数据中筛选出频率高的对仗词汇,并根据对仗的递推特点,可以从任何一个对仗词汇开始,逐级逐词呈现出一张纵横衍伸的对语链。下图是以“清风”为词根的对语链示意。这样的对语链,既能辅助古典诗词创作者参考古人诗句选取对仗词汇,也能辅助语言学者的相关研究。


640 (9).jpg

▲搜韵网对语链。


诗词中的数据价值,另一方面来自于数据的交换、整合和分析。以唐宋诗人生平数据为例,其数据精度高、粒度小,但体量不算大,属于小而精的数据。但当这小数据与其他数据整合时却能产生大价值。比如与作品数据整合,能清晰呈现作家人生经历和文学创作的关系;与历史地理数据整合,能将作家的一生行踪在地图上加以呈现;与古代山川驿路等交通数据整合,则有双向的效果,既能为古代交通线路的考察提供重要信息,又能更加细化作家行迹路线;当作家的个人行迹数据在纵向上日益修订而完善,在横向上突破唐宋不断积累形成古今诗人行迹数据,叠加这些行迹还可折射不同时期中心文化城市的变迁现象。


640 (10).jpg

▲唐宋各时期328位文人移动轨迹图。(图片来源:应申等《基于唐宋文人足迹集聚性分析的中心文化城市变迁》,《地球信息科学学报》,2020年第5期)


无论是量化数据,还是属性数据,数据的本质都是信息。当用数据思维认知古典诗词,会发现数据存在之广、传达信息之多,远超想象。培养诗词阅读和诗词研究时的数据思维,锻炼数据敏感度,会读出更多的诗词风景。


作者简介:


1672404964850351.jpg

邵大为,中南民族大学文学与新闻传播学院青年教师、数字人文资源研究中心主任助理、黄鹤楼文化顾问。主要研究领域为古代文学、文学景观、数字人文。主持教育部人文社科青年项目《宋代方志中的文学景观研究与数据库建设》。在《中国社会科学》《光明日报》《中南民族大学学报》《江汉论坛》等报刊发表论文多篇。



来源:“道中华”微信公众号

作者:邵大为

编辑:刘雅

流程·制作:韩东峻





欢迎订阅《中国民族》杂志
      《中国民族》杂志由国家民族事务委员会主管、民族团结杂志社主办。作为国家民委机关刊,《中国民族》杂志聚焦铸牢中华民族共同体意识,用心用情用力讲好中华民族故事,大力宣介中华民族共同体意识,大力宣传新时代党的民族工作取得的历史性成就,大力宣传中华民族同世界各国人民携手构建人类命运共同体的美好愿景,在涉民族宣传工作领域发挥着不可替代的重要作用。
      《中国民族》杂志各文版均为大16开全彩印刷。《中国民族》杂志汉文版为月刊,全年共12期,单份全年定价180元;《中国民族》杂志蒙古文汉文对照版、维吾尔文汉文对照版、哈萨克文汉文对照版、朝鲜文汉文对照版均为双月刊,全年6期,单份全年定价90元。

订阅方式(二选一):
一、邮局订阅(全国各地邮局均可订阅)
中国民族(汉文版)邮发代号:2-91
中国民族(蒙古文汉文对照版)邮发代号:82-237
中国民族(维吾尔文汉文对照版)邮发代号:<新>58-117
中国民族(哈萨克文汉文对照版)邮发代号:<新>58-118
中国民族(朝鲜文汉文对照版)邮发代号:82-392

二、杂志社订阅(银行汇款)
户名:民族团结杂志社
账号:0200 0042 0900 4613 334
开户行:工商银行北京和平里北街支行
联行号:102100020307
联系电话:010-58130831;传真:010-84504624;
发行邮箱:mztjzzs@126.com

订阅下载:2025年《中国民族》杂志订阅单

欢迎订阅《中国民族》杂志