对青年的计算文本“远读”

作 者:

作者简介:
梁玉成,中山大学社会学与人类学学院副院长、教授、博士生导师、青年长江学者,主要研究方向:计算社会学、在华国际移民研究; 马昱堃,中山大学社会学与人类学学院社会学专业2020级博士研究生,主要研究方向:计算社会学、大数据时代的社会治理。

原文出处:
青年探索

内容提要:

社会数字化转型过程中,越来越多的青年通过互联网社交媒体发表观点、表达情感、与他人建立社会关系,这使得青年的活动场域与交往形式发生了根本转型,靠传统的青年研究方法难以从宏观视角分析青年群体的行动与观念演化。本文引申数字人文中的“远读”概念,提出对青年的计算文本分析研究范式。本文将文本的信息分为词义、词性、关系和情境,并简要介绍了量化这些信息的分析方法,将这些方法的应用路径分为编码与分类、情感分析、降维分析、主题抽取、分化与极化以及文化测量,它们与青年研究领域还有很大的结合空间。通过“远读”计算中的降维思想,研究者能从整体视角找出大量文本之间的潜在结构,进而获得对青年的“整体事实”的理解。在这一范式的应用中,需要注意文本数据代表性、分析方法适用性以及数据收集的伦理问题,而纳入音视频及图像的“富文本”分析会是将来社会科学研究的发展方向。“远读”与“近读”相结合能够促进我们对青年群体的理解。


期刊代号:D421
分类名称:青少年导刊
复印期号:2022 年 09 期

字号:

       中图分类号:C1;C91-03 文献标识码:A 文章编号:1004-3780(2022)03-0020-15

       DOI:10.13583/j.cnki.issn1004-3780.2022.03.002

       一、引言

       习近平总书记在庆祝中国共产党成立100周年大会上的重要讲话中提到,“未来属于青年,希望寄予青年”,对青年群体的研究具有举足轻重的意义。一直以来,青年群体都会随着时代变迁而呈现相应的变化,每个时代的青年都有着独特的历史烙印。当代青年主要是出生于改革开放以来的“80后”“90后”“00后”,经济的高速增长、计划生育政策的实施、教育资源的普及、互联网的快速发展以及随之而来的社会、市场和制度变迁都对他们产生重要影响[1]。他们对新事物的接受能力更强,具有许多新的特点。

       互联网对当代青年的影响在深度与广度上都在持续拓展。从数量上看,2020年我国未成年网民数量达到1.83亿,规模持续增长,并且低龄化趋势更加明显[2]。当代青年,尤其是被称为“互联网一代”的“90后”和“00后”群体,其社会心态、价值观念、文化兴趣都受到互联网的影响和形塑,程度比其他任何世代都更加深刻。简言之,互联网已经成为青年群体社会化的主要场域[3]。

       与此同时,数字时代互联网环境也发生着深刻转型,人人都可以成为传播端点[4]。在社交媒体上,更大的流量能够带来更多的收益,为此,人们更倾向于发布和转发夸大局部事实的、能博取更多关注的信息,其行为受情感的影响远大于理性[5-6],加强了观点的分化与极化。于是,不同观点之间越来越难以通约,人们所接触到的任何事实不仅不再完整,更是呈现出日益碎片化甚至颗粒化的特征。

       在这种情况下,人们逐渐生活在“茧房化”的世界中,对同类观点的认同包裹着情绪,变得日渐强化,局部“事实”的放大导致了“整体事实”的消解。“整体事实”体现着社会过程在整体视野下的动态因果结构与演变过程,而局部“事实”则只反映着社会过程中受特定观念视角滤视后的一个局部[7]。新的数字时代的青年群体在这种互联网环境中,被各种局部“事实”的认知所裹挟,越来越难以从整体视角出发审视自己所生活的世界。

       青年研究方法在范式上需要对上述现象有所回应。以往针对青年网络观念与行动的研究大多基于观察、访谈与内容分析等质性方法,从微观和个案的角度近距离呈现青年画像。然而,互联网的内容生产和传播速度远远快于我们观察它们的速度,近距离的视角无法从整体上反映多元观念之间的关系,这需要我们超越微观视角的局部性,转而从更宏观的视角远距离考察青年群体及他们活动场域的时空演化。

       那么,青年研究方法在范式上如何回应社会数字化转型的时代要求?本文借用了数字人文中的“远读”概念,提出计算文本分析方法范式。“远读”通过文本到信息、信息到知识的两重降维过程,将文本内在的整体结构以更清晰、更简化、更容易理解的方式呈现出来。青年研究借助“远读”,能够从海量的线上文本数据中发掘潜藏其中的宏观结构,从而克服视野的局部性,向探求“整体事实”更进一步。

       二、“远读”的概念缘起、内容与方法

       (一)“远读”的概念缘起

       在人文研究领域,数字化转型的一个后果是越来越多的作品以数字形式存储在数据库中[8],庞大的数据量让它们显然无法通过人工方式逐一分析。人文研究领域对这一转型的回应即是“远读”(Distant Reading)的提出。莫瑞蒂(Franco Moretti)最先介绍了这一概念,与“近读”(Close Reading)相对应,“远读”指的是“通过聚合和分析大量数据来理解文学,而不是研读特定的文本”[9]。

       与“近读”通过对文本的主观深度理解和细致解释来把握其详细内容不同,“远读”主要关注大量文本中的宏观结构,例如使用可视化技术分析文本中涉及的社会关系、地理信息和时间线等信息,除此之外,还能研究作品之间的承接与相似[10]。互联网上活跃的每一个用户都以写作者的身份参与着线上社会互动,因而本文将“远读”引申为应用计算文本分析技术,从宏观和整体的视角出发把握大量文本中的潜在结构与关系。

       (二)“远读”的内容

       “远读”的核心目标是把握海量文本的宏观结构,因而需要借助计算文本分析方法从文本中提取、整合与分析内容。为了便于量化分析,首先需要明确与文本内容有关的信息有哪些。基于已有文献[11-14],结合社会科学对文本信息的需求层次,本文将需要考虑的文本信息大致分成以下四类。(1)词义信息。词义信息体现了文本的内容与包含的主题。(2)词性信息。词性对应着词语的类型与功能,既包括词语的语言学特征,也包括社会科学对其赋予的理论维度。(3)关系信息。在词义和词性的基础上,将句子和文档作为整体,进一步分析词语之间的语义关系。(4)情境信息。表示产生文本的社会情境,例如作者身份、文本生成时间等。文本分析方法即是通过各类算法处理上述信息,将其结构化为计算机能够处理的数据,之后以整体性的视角将它们之间的关系呈现出来,最终实现对文本的宏观分析。

       (三)“远读”的方法

相关文章: