版权视野下学位论文检测机制的完善路径

作  者:

作者简介:
袁真富,上海大学法学院副院长、知识产权学院院长。

原文出处:
中国版权

内容提要:

从版权视角审视,论文检测在学位论文写作中既带来技术层面的困扰,诸如将公有领域信息、所引学术成果的不当引用纳入查重范畴,庞大的对比文献数据库限制了学术表达空间,以及算法缺陷引发的论文查重误差等;又存在制度层面的难题,包括高校对重复率要求采取“一刀切”模式,重复率指标设置不科学,对重复率比例的要求日益严苛,且过度依赖论文检测结果。在学位论文撰写过程中,为降低重复率,公有领域信息的利用受到阻碍,他人成果的恰当引用受到限制,技术规避手段的过度使用却得到默许,同时作者还需承担多次检测带来的沉重负担。为此,本文建议构建公有领域排除机制,制定合理的重复率标准,优化论文检测算法,并完善学位论文检测的程序保障措施,以期持续优化论文检测机制。


期刊代号:Z1
分类名称:出版业
复印期号:2026 年 03 期

字号:

  一、问题的提出

  根据教育部发布的《2024年全国教育事业发展统计公报》,2024年全国普通本科招生489.97万人,研究生招生135.68万人。蒸蒸日上的招生规模也带来学位论文规模的快速扩张。学位论文的质量作为学生培养和管理的关键环节成为备受关注的问题。事实上,无论国内外,一些高校在读学生因种种原因都有可能投机取巧,奉行“拿来主义”,论文抄袭、学术不端在学术领域愈发常见。已有的研究表明,学术不端行为在大学生中是普遍存在的问题。①

  为加大对学术不端、学位论文作假行为的预防和查处力度,论文检测(查重)系统应运而生——它可以通过技术手段生成检测报告,并以此作为判断学位论文是否存在学术不端的客观依据。我国自2025年1月1日起施行的《学位法》第三十七条针对学术不端行为,明确规定了“不授予学位或者撤销学位”的法律后果。论文检测系统缓解了学术不端审查的巨大压力,因而其应用呈现扩大化趋势,论文学术不端评价对查重的依赖程度不断提高。②从本科、硕士到博士毕业,学位论文查重逐渐成为高校一种普遍的标准化流程,与学术生涯如影随形。自2008年论文检测系统开始进入实质性开发阶段至今,陆续有不同的检测系统推出,包括ROST反剽窃系统、知网(CNKI)学术不端文献检测系统(及各类细分检测系统)、万方文献相似性检测系统和维普通达论文引用检测系统(VTTMS)等。

  论文检测系统对学位论文检测之后可以输出检测报告,报告不仅包括学位论文的文字复制比例,即与在先文献文字部分相同或相似的“重复率”(亦称为“查重率”),还能够准确定位学位论文中每一段雷同文字的具体位置,并列出其详细出处。一般只要被检测的目标论文与比对文献的相似度在句子语义级别达到一定阈值(比如连续出现13个字符相似),该部分内容就会被判别为重复。③衡量重复率的指标包括总文字复制比、去除引用文献复制比、去除本人文献复制比、单篇最大文字复制比等。

  不可否认,论文检测系统的应用在遏制抄袭等学术不端行为、鼓励学位论文原创、预防版权侵权等方面发挥了重要的促进作用。有关数据统计,在引入学位论文检测系统后,学位论文的重复率明显下降,某院系的硕士学位论文的重复率从39%降到了27%,博士学位论文的重复率从32%降到了19%。④但技术是一把“双刃剑”,论文检测系统同样也会给学位论文的写作带来一些困扰和负担。随着论文检测系统的深入开发和广泛应用,其给学位论文造成的负面影响也越来越明显,甚至和学术诚信、版权保护等理念发生了冲突。有鉴于此,本文采取调查研究的方法,通过随机调查问卷的形式对351名拥有不同学历的受访者进行调研,收集其在学位论文写作过程中的涉论文检测相关行为数据,总结归纳出论文检测系统本身的问题和由此产生的影响。⑤在已有调查数据的基础上,尝试从版权的视角探讨论文检测系统对学位论文写作的影响并提出完善建议。

  二、论文检测对学位论文写作的困扰

  (一)论文检测对学位论文写作的技术困扰

  1.公有领域信息查重的不当性

  公有领域亦称公共领域,指不受知识产权保护的信息及特定情形下不受知识产权干预的使用自由,例如已经超过版权保护期限的作品或者法律条文。⑥论文检测系统对比的文献数据库通常包括期刊文章、学位论文、会议论文、报纸文章、专利文献、图书(包括工具书、年鉴、古籍)等,以及常用网站的网页资源。这些数据库中必然包含了大量的公有领域信息,如法学论文中被学者广泛引用的法律条文、经典判决、立法说明文件等。这就意味着任何公有领域的信息只要在对比数据库的文献中出现过,就会被纳入论文检测系统重复率计算的范畴。

  虽然已过保护期的作品属于公有领域,但从学术规范的角度来讲,依然不得抄袭。此外,部分不构成“作品”的公有领域信息(如法律条文、专业术语、数学公式等),或本来就可供公众使用的公有领域信息(如政府文件、判决内容、常识描述等),若被计入重复率,也有失妥当。在一些通用词汇发生误检的案例中,专业术语的描述占比达51.88%,常识性描述达46.62%,地名、行政机关名称达24.06%,案例文字介绍达29.32%,事实性数据达27.07%等,⑦而上述公共领域信息是诸多学位论文写作的必要素材。

  2.学术成果适当引用的困扰

  虽然有的内容仍然受到版权的保护,但《著作权法》允许人们在一定限度内或一定条件下自由使用。有学者提出,对于用户创造内容使用他人作品的,应当有条件、有限度地“容忍使用”。⑧那么,基于学位论文的社会功能、非商业动因、微量引用等因素,应当适度允许其使用他人作品,我国2020年11月修改的《著作权法》第二十四条的“适当引用”条款,也明确规定“为介绍、评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品”。创作学位论文既要总结和反映他人的研究现状,也要学习和借鉴已有的研究成果,才能更好地做出创新性贡献。

  但是,论文检测系统的现行“算法”给学术成果的引用带来了一定困扰。(1)学位论文在文献综述部分介绍他人的学术观点,或者在论证说明某一问题时,通常甚至是必然需要引用他人的成果,但即使是在“适当引用”的范围内,也可能会纳入重复率的计算,如果引用他人成果较多,往往超出高校普遍设置的重复率上限。(2)有的论文检测系统对学位论文引用的注释有字数限制,如最多可以检测500字,对于超过500字的部分将纳入重复率的计算范围,不能作为学术引用的部分加以排除。以法学界著名的论文《世界贸易宪法》为例,全文11万字,但脚注就占去10万字篇幅,其正文仅有1万字左右,若正文中还有引述的话,其原创性内容恐怕不足9%。⑨从这个角度看,《世界贸易宪法》甚至可以被定义为一篇“抄袭论文”,或者至少不是一篇好的论文。

相关文章: