来源期刊

刊名：情报资料工作

主办单位：中国人民大学书报资料中心

期次：2026年01期

基于GenAI数据增强的突发事件毒性内容检测研究

引用| 收藏 |打印|下载word

作　　者：

邓胜利

作者简介：

邓胜利，男，1979年生，武汉大学信息管理学院教授，湖北 430072；刘李毅（通讯作者），男，1998年生，武汉大学信息管理学院博士研究生，湖北 430072；朱秋雨，女，2000年生，武汉大学信息管理学院博士研究生，湖北 430072；程麟淇，男，1999年生，武汉大学信息管理学院博士研究生，湖北 430072。

原文出处：

内容提要：

[目的/意义]突发事件中，社交媒体毒性内容因舆情传播放大效应，对网络环境与应急管理构成严峻挑战。传统检测方法存在分类数据不平衡、检测精度低等问题，亟需高效解决方案。[方法/过程]构建突发事件场景下的微博毒性内容专用数据集，采用生成式人工智能（GenAI）技术，通过少样本提示学习生成语义等效的伪毒性内容以平衡样本。进而提出融合MACBert预训练模型与全局注意力机制的MACBert-Att模型，强化对领域术语与情绪化表达的语义捕捉能力。[结果/结论]经GenAI数据增强后，MACBert-Att模型F1值达0.95，较基线Bert模型提升15%，显著优于SMOTE等传统增强方法，验证了GenAI语义级数据增强与模型架构的协同有效性。

期刊代号：L1

分类名称：情报资料工作

复印期号：2026 年 01 期

关键词：

生成式人工智能社交媒体毒性内容检测数据增强 MACBert模型　　generative artificial intelligence social media toxic content detection data augmentation MACBert model

字号：大中小

　　DOI：10.12154/j.qbzlgz.2026.01.009

　　1 引言

　　突发事件中，社交媒体的舆情放大效应使得混杂其中的毒性言论对网络生态与应急管理构成严峻挑战。与常规网络环境不同，突发事件下的毒性内容呈现出更强的情绪极化与语境动态性特征[1]，不仅破坏信息传播的客观性，更易激化社会矛盾，形成舆情风险[2]。毒性内容表现为损害正常交流、违反法律法规并败坏社会风气的不良信息，涵盖人身攻击、歧视行为、侮辱诽谤及色情内容等[3]。在突发事件场景中，往往伴随公众高度关注、信息不对称及情绪共振[4]。这种现象的产生既源于突发事件对社会秩序的冲击引发的焦虑感，也与匿名环境下责任分散导致的行为倾向相关[5]。例如，部分用户会借事件对特定群体发起非理性攻击；在公共政策应急响应话题下，常出现针对政府部门的侮辱性言论。

　　当前社交媒体平台毒性内容检测技术主要涵盖规则引擎、机器学习与深度学习体系，但存在多方面不足。规则引擎虽能在实时拦截明确违规内容中发挥基础作用，却在复杂语境下存在诸多局限，一是难以识别小众网络亚文化中的谐音梗、隐喻表达等非字面意义冒犯；二是依赖关键词匹配，无法捕捉跨词汇组合的隐性攻击。此外，随着小众网络亚文化的兴起，大量常规词汇在特定语境中被赋予攻击性含义，而现有方法难以捕捉此类语境化冒犯内容，尤其在突发事件场景中，网络舆情传播呈现高频次、碎片化特征，夹杂着大量临时衍生的情绪化表达与新兴网络用语，这进一步加剧了对特定文本的语义检测难度。

　　从技术实现维度审视，当前深度学习框架在突发事件毒性内容检测中面临双重制约：其一，人工标注语料的质量瓶颈显著。深度学习模型对高质量标注数据存在强依赖性，现有标注语料库多聚焦于常规网络场景，针对突发事件场景的专用标注数据集处于缺失状态，致使模型训练陷入领域适配困境。其二，数据分布的内在失衡问题凸显。受社交媒体信息传播机制影响，毒性样本在整体数据分布中呈现显著的长尾特征，类间样本量的极度不均衡易引发模型训练过程中的“多数类偏差”，导致少数类（毒性类）的检测效能显著衰减。

　　针对上述挑战，本研究聚焦突发事件中的社交媒体内容，构建真实突发事件场景下微博平台的人工标注用户评论数据集。考虑到真实数据中毒性内容占比显著低于普通内容，传统模型易陷入“多数类主导”困境，本研究引入生成式人工智能数据增强技术，基于少样本的提示学习生成语义等效的伪毒性内容样本，有效平衡正负样本。在此基础上，提出一种融合MACBert预训练模型与全局注意力机制的混合神经网络模型MACBert-Attention（MACBert-Att）并进行多种数据增强策略的交叉对比实验。最终，根据研究结果提出管理突发事件中社交媒体毒性内容的政策建议。

　　2 相关研究

　　2.1 社交媒体毒性内容检测

　　在社交媒体上检测毒性内容的主要挑战之一在于语言的细微差别和语境依赖性[6]。社交媒体毒性内容检测作为网络舆情治理的核心任务，其技术演进经历了从传统规则驱动到数据驱动的范式转变[7]。早期研究依赖基于规则引擎的关键词匹配方法（如预设屏蔽词库），但该类方法受限于语境语义捕捉能力不足，难以应对网络亚文化中的隐喻攻击、谐音梗等变体表达[8]。

　　随着机器学习技术的发展，支持向量机、随机森林等模型通过人工设计特征（如TF-IDF、词嵌入）提升了识别精度。为解决模型对大规模数据集的依赖问题，曾江峰等[9]探索了基于BERT和提示学习的方法，通过构建集成提示在小规模数据集上实现了有效的网络暴力言论识别；金燕等[10]构建了基于XGBoost和SVM的社交媒体互动文本三阶段判别模型，并提出对应策略，验证了其在新浪微博平台的有效性。然而传统机器学习领域特征工程的繁琐性与领域迁移能力弱的问题仍待解决[11]。深度学习的兴起推动了语义理解技术的突破[12]。循环神经网络（RNN）及其变体LSTM通过序列建模捕捉长距离依赖，在情感分析与文本分类中展现出优势[13]，但梯度消失问题限制了其在长文本处理中的性能。卷积神经网络（CNN）通过滑动窗口提取局部语义特征，如TextCNN模型在短文本分类中实现高效特征抽取[14]，但对跨窗口语义关联的建模能力不足。

　　2.2 GenAI数据增强应用价值

　　以Bert为代表的预训练语言模型通过双向掩码机制学习深层语义表征，显著提升了语境化词义消歧能力[15]。后续改进模型如RoBerta优化预训练策略[16]，MACBert针对中文语境增强字形与语义关联建模[17]，在中文网络文本处理中表现出更强的鲁棒性。然而，预训练模型在突发事件场景中仍面临挑战：应急领域术语（如“应急预案”“流调溯源”）与情绪化符号（如连续感叹号、讽刺性表情）的语义权重分配不够精准，导致低资源毒性类别的言论检测效果不佳。本文通过引入全局注意力机制[18]，可针对应急领域术语与情绪化符号动态调整特征权重，强化模型对包含领域背景知识的复杂语义单元的聚焦能力，从而缓解传统预训练模型在低资源毒性类别中语义表征模糊的问题[19]。

　　随着自然语言处理技术的深度发展，大语言模型（Large Language Models，LLMs）凭借其卓越的语义理解、生成能力及跨领域迁移潜力，为突发事件场景下的毒性内容检测提供了全新技术路径[20]。这类基于海量文本预训练的神经网络模型（如GPT系列），在数据增强与语义判别任务中展现出显著优势，能有效应对传统方法在语境建模、领域适配及小样本学习中的瓶颈[21]。真实场景中毒性内容的稀疏性导致模型训练易陷入“多数类主导”困境。传统数据增强方法如合成少数类过采样技术（Synthetic Minority Oversampling Technique，SMOTE）通过简单数据变换生成样本，但存在语义失真与领域适配性差的问题[22]。生成式人工智能的发展为此提供了新路径。通过提示学习（Prompt Learning，PL）范式，可基于少量种子样本，生成语义丰富且贴合突发事件场景的毒性内容仿真数据[23]。这种基于场景化提示的生成策略，不仅扩充了低资源毒性类别的样本规模，更保留了突发事件中特有的情绪极化特征，为模型训练提供了更具代表性的语料。

共10条结果上一页12 3 4 5 下一页全部展开

主文献建设的现实意义、应用场景与未来发展

戴鹏杰

情报资...2026年第01期
国内数字图书馆用户体验研究的范式演进与知...

徐芳

情报资...2026年第01期
在线健康社区价值共创行为测度与优化研究　...

王祎

情报资...2026年第01期
隐私不确定性视角下移动APP用户隐私风险自留...

朱红灿

情报资...2026年第01期
基于加权关联规则的电子病历知识发现

马捷

情报资...2026年第01期

来源期刊

基于GenAI数据增强的突发事件毒性内容检测研究

相关文章：