一、问题的提出 随着后信息社会大数据的洪流,数字技术向人类生活的各个领域蔓延和推进,数据和信息处理过程开始主导着人类对于存在的解释,同时公众也日益生活在由“1”和“0”所驱动的世界之中(王珏,胡钦,2024)。数字化深层次地影响了社会文化形态的变迁,具有开放性和即时互动性的自媒体平台日益普及,由此衍生出的“晒”文化作为一种新兴的社会现象亦是得到了充分展现。“晒”不再仅仅局限于传统意义上物质层面的展示,而是涵盖了多维度多方面的分享与交流,包括了日常生活见闻与情感体验等。家长在自媒体平台的晒娃行为则是“晒”文化的一条重要分支,在自媒体平台中普通网民尤其是家长成为了儿童影像的生产者和传播者,而童真、童年、童语等成为了人们喜闻乐见的传播内容(孟薇,2018)。 “晒娃”在自觉与不自觉中似乎成了许多家长的普遍日常,儿童在无意与有意中卷入了“被商业化消费”的漩涡。公众则在主动或被动地“围观”公共话语空间中泛滥的流量,这一系列现象引发了数字化时代家庭教育新的危机与挑战。家长晒娃行为会对儿童成长带来怎样的影响?对数字化公共话语空间带来的挑战又是怎样的?儿童本身的权益有没有得到保护?在全社会推进《中华人民共和国家庭教育促进法》的当下,这些问题需要挖掘藏匿于“晒娃”大数据文本中的网民言论,从中探寻公共话语对事件本质的认知脉络,把握不同群体之间观念看法的一致性和分歧点,并进一步明晰公众面对此类事件的情绪反应以及价值判断,以此探求解决问题的相应路径。 二、研究设计与分析 (一)研究对象与研究工具 本研究首先需要对互联网平台中家长晒娃行为的公众观点进行收集。新浪微博在2009年8月上线,是中国最早一批诞生的自媒体和社交平台。相较于近些年所诞生并爆火的“抖音”与“小红书”等平台,新浪微博拥有较长的发展历史和更广泛及稳定的用户基础。新浪微博2020年的用户发展报告显示:2020年9月月活跃用户数(MAU)达到了5.11亿,平均日活跃用户数(DAU)则达到了2.24亿,基本符合大数据文本的获取需要和可能;在年龄占比上,00后为30%,90后为48%,80后为18%,基本涵盖了网民的主要年龄段且没有出现年龄失衡的情况;在性别比率上,女性为54.6%略高于男性的45.4%,但也基本符合男女性别均衡的要求。综合以上原因并兼顾数据获取的便捷性,本研究选用了“新浪微博”作为数据的来源。 本研究采用Scrapy爬虫工具进行大数据文本挖掘来获取研究需要的数据。首先,大数据文本挖掘符合本研究公共话语分析的需要。用户个体在自媒体平台上所发布的每一条文本内容,都是个体认知的真实反映,汇集在一起就构成了公共话语对家长晒娃行为的群集表征。其次,传统的调研手段常常受到样本规模、时间效率以及主观偏误等多种因素制约,难以全方位展现社会现象真实的面貌。大数据的文本挖掘在很大程度上弥补了传统问卷调查与访谈调查所固有的局限,它能够从浩瀚的网络数据中抽丝剥茧,揭示出潜藏的社会心理态势、行为规律以及深层价值观念等信息内容。当然,大数据文本中不可避免地会掺杂数据噪声,因此需要后续进行清洗来提升数据整体的准确性。 另外考虑到研究数据为大量的话语文本,同时为满足对话语文本自下而上展开剖析的研究需要,本研究运用Nvivo12软件,并进行开放式编码、主轴式编码和选择式编码的三级编码环节,以勾勒出研究对象和内容的层级化关系和架构,并获得家长晒娃行为在公共话语中的现实表征,同时结合社会语境对合理合宜“晒娃”提供实证依据和实践指向。大数据文本挖掘指向的是研究广度,而质性分析的三级编码则指向研究的深度,二者相互补充:对于质性分析中个别文本解构不足的主观偏误,大数据文本提供的广泛数据覆盖将予以弥补;三级编码的过程确保了对大量数据进行细致入微的解析,使得研究结论不至于浮于表象而是深入本质。 (二)研究过程和数据处理 1.数据采集 本研究运用Scrapy爬虫工具在新浪微博以“晒娃”为关键词进行检索,检索范围设定为近3年(2021年1月1日—2023年12月31日),爬取的字段包括博主名称、发表时间、博文内容和转发、评论、点赞数目等,并将这些数据整合起来,得到了共计65776条原始文本(不包含转发与评论的博文内容,但包含带有话题标签的回应性博文),并将在数据清洗后构建一个反映研究对象——“家长晒娃行为”的主题数据库(见表1)。

2.数据清洗 在利用Scrapy网络爬虫工具采集的大数据文本中,我们发现其中掺杂着大量并不符合本次研究内容的各类干扰性文本。这些干扰元素涵盖了商业性质和目的性浓厚的各类广告植入,还包括了主要由表情特殊符号或是图片构成但缺乏实质文字信息的内容。此外还有一部分文本语义模糊不清、难以解读或与研究主题关联度较低,以上类型文本的存在会对研究结果的准确性及严谨性产生干扰。鉴于此,为了确保所收集的文本数据能够精准反映研究对象的真实情况,并保证整个研究过程及其结论的科学性和合理性,我们必须对已获取的原始大数据进行深度的预处理——“数据清洗”(见表2)。这个过程中,我们采用人工筛选的方式有针对性地剔除上述提及的各种类型的干扰文本,以期提炼出较为纯净且高质量的文本数据。最后获得了共计15104条文本。 3.数据分析 将提纯的文本数据导入Nvivo12并进行三级编码处理和分析。这一过程可细分为三个关键阶段:第一步是开放式编码,旨在初步挖掘并展现“晒娃”相关文本内容的概念类属;第二步为主轴式编码,旨在构筑关联性框架,找寻“晒娃”概念类属间的联系;第三步通过选择式编码,更进一步地筛选和整合数据,找寻提纲挈领式具有代表性的“晒娃”核心类属,以构建更高层次的概念类属结构。最终,在对文本数据进行反复加工和处理后,得到一个具有逐层递进且逻辑紧密的体系。