信息审计,即对信息的真实性、合法性和效益性进行判断、评估以及问责。生产和传播信息的主体有个人、机构、组织、群体等,其中公共信息的发布主体是机构。公共信息的发布,以文本、图片、声音、影像等模态呈现。文本是承载语义的主要模态,构成目前公共信息审计重点。笔者认为,对文本类公共信息进行审计可以通过以下两种方法来完成。 使用语料库分析法进行智能对比,审计公共信息的真实性和合法性 语料库分析法主要适用于参照文件规定或条款,审计公共信息是否具有真实性和合法性。具体有以下两个步骤。 抓取目标文本和参照文本,储存信息。使用网络爬虫抓取海量信息文本。数据源于机构报纸、网站、发布会、微博、微信等媒介,主题涉及政治、法律、经济、教育、贸易等社会实践。数据经洗清后存储,建成语料库。根据审计对象建立目标语料库,根据上级机构或权威机构发布的公共信息建成参照语料库。建成后,使用大数据语义智能分析平台,对语料进行批量分词、语义标记和分类,提取主题,统计词汇共现情况。 对比目标文本和参照文本,甄别信息。将目标语料库中的主题词句与参照语料库中的主题词句进行对比,判断信息是否一致。一致的情况为:语言表述一致;语言表述有差异,但语义一致;语义有差异,但目标文本和参照文本中的语义存在上下义的蕴含关系。例如:某规定中“行政事业性收费和罚没收入”与“收支”是异形同义,属于上述第二种情况。又如:某文件中规定的“连续两年及以上预算执行率达不到80%的基金支出项目”,与“连续两年及以上预算执行率在76%的基金支出项目”这两个表述在语义上存在上下义的蕴含关系,符合上述第三种情况。若词句中含有绝对化用语、模糊用语、歧义用语等智能分析不易甄别的情况,则需根据智能语义筛选提示,结合人工分析进行研判。 使用定性分析法进行人工研判,审计公共信息的效益性 定性分析法主要适用于审计公共信息是否具有效益性。具体有以下两个步骤。 挖掘文本隐含的价值观是否契合受众思维。文本中不同的话语表达承载不同的意图,对应不同的视角和利益。文本中所用话语在意义建构中隐含一定的价值观,例如,某部门在网络宣传干部职工敬业奉献的事迹时,用到“28天连续加班,没换过衣服,没洗过头”等话语,虽然传递了激励公众学习模范的意图,但效果甚堪。这些话语隐含的价值观是“牺牲家庭或个人基本需求的苦情付出就是敬业”,这种过度的宣传有悖于人情和常理,不契合公众普遍的价值观。 分析文本产生的话语效果能否正确引导舆论。文本中不同的话语表达会对公众认知和社会舆论产生大相径庭的引导效果。在“28天连续加班,没换过衣服,没洗过头”宣传语中,勤勉工作的人被描述为“苦行僧”,这会激发公众消极的负面情感,不契合公众对职业乃至事业的理性认知,可能会引起公众对抗式解读,甚至质疑信息失真。反之,某些官方机构宣传发行的“强制休息令”中“陪伴家人”等有温度、饱含人文关怀的话语信息,则能瞬间走红,创设出良好的社会舆论环境。 语料库分析法的智能对比和定性分析法的人工研判优势互补 语料库分析法的优势,在于快速大批量进行文本智能对比。除了对比上下级文件,以及地方和中央机构条款之外,还可以交叉检验被审计信息的发布源头,判断信息是否来自权威机构、来自多个权威机构的信息是否一致、信息是否源于原始渠道、信息在转述中是否有误等,以便进一步甄别信息。 定性分析法的优势,基于人工研判,能够深入分析文本所传递的信息是否能够正确体现发布者意图,是否存在意识形态问题、话语暴力问题、低俗化问题等不利于正确引导社会舆论,影响国家和社会治理的问题。 这两种方法相得益彰。智能对比的语料库分析法,与人工研判的定性分析法相结合,可以对文本类公共信息进行精确筛选,以确保其真实性、合法性和效益性。 今后可在上述信息审计方法的基础上,根据审计目标和参照依据,探索图片、影像等其他模态的信息审计方法,并尝试形成预警机制,提倡准确、健康的信息表达方式,优化建设性表达方式,促进构建和谐社会。