长期以来,文字编校工作被视为一项费时且繁琐的任务。因此,借助先进的技术手段辅助编校显得尤为重要。目前,国内市场已涌现出一批较为成熟的编校软件,如黑马、方正和腾博等。这些编校软件能够检测出论文在术语使用、编校规范等方面存在的问题,帮助编校人员提高审读效率[1]。然而,上述这些非人工智能的传统编校软件在实际应用中仍存在一些不足。易龙等[2]指出,传统的编校软件存在难以联系上下文进行查错、无法有效进行文稿润色、处理复杂长句时容易误报和误改等问题;王静[3]也指出,传统的编校软件在纠错范围和纠错能力等方面存在限制,在校对书稿的版式时几乎无法给编校人员提供有效帮助,甚至可能给编校人员带来不必要的麻烦。 随着人工智能技术的不断发展,尤其是随着以ChatGPT为代表的生成式人工智能技术的出现,学术出版领域也迎来了新的变革,正朝着选题策划高效化、内容审校自动化、学术传播个性化、学术评价客观化的方向发展[4]。有学者指出,类ChatGPT的对话式人工智能可能会彻底改变研究和出版实践[5]。Whang[6]演示了利用ChatGPT提高学术出版效率和效果的具体操作流程,证实了ChatGPT可以有效改进出版工作实践。Berrezueta-Guzman等[7]评估了ChatGPT作为西班牙文学和学术书籍编辑工具的潜力,发现ChatGPT能够在短时间内进行高精度的语法和拼写纠正。李侗桐等[8]考察了ChatGPT在文字编辑方面的具体表现,指出ChatGPT可以有效校正中文科技期刊摘要的语法错误,简化语言表述并规范学术用语。此外,也有利用其他大模型辅助编辑人员开展文字编校工作的案例,如刘俏亮等[9]将人工智能编校软件Notion AI引人中文科技期刊论文编校工作,强调了大模型技术在论文编辑与润色方面的出色能力。 综观上述研究,大模型技术在文字编校工作中具有显著的潜力。然而,现有研究主要集中于国外大模型,如ChatGPT等,对于国内大模型的梳理与研究较为欠缺,系统评估国内外大模型文字编校能力的研究更为鲜见。鉴于此,本文在梳理现有大模型信息的基础上,对国产大模型与ChatGPT进行文字编校功能方面的测试。一方面,对比各个大模型在识别和修改不同编校难度和不同错误类型的文本差错中的表现,为期刊编辑人员使用大模型辅助文字编校工作提供具体的操作指南;另一方面,明晰现有国内外大模型在文字编校测试中存在的不足,探讨国产大模型与ChatGPT相比在文字编校方面所具备的优势,并提出相关建议和意见。 1 研究设计与方法 1.1 研究对象 以当前互联网上能获取和使用的大模型为研究对象。模型信息收集截至2024年5月13日,共计梳理得到150余款大模型。为尽可能全面地梳理当前互联网上存在的大模型,主要采用如下3种模型信息收集策略: (1)通过百度等搜索引擎进行广泛搜索。在搜索引擎中键入关键词“国内现有大模型”以及“国内大模型汇总”,获取当前国内主流且具备一定互联网关注度和讨论热度的大模型,如文心一言、通义千问等。这类模型往往依托大型科技企业,享有海量数据资源,市场热度较高,可以作为国内大模型的重要代表。 (2)通过访问CSDN等社区论坛以获取大模型信息。在网站中检索关键词“大模型”,以获取相关信息。这类社区论坛是研究人员与行业专家的交流平台,其提供的模型信息往往更具深度和专业性,据此能够发现那些在专业领域内具有一定影响力的大模型,填补主流搜索引擎中此类大模型信息的空白。 (3)通过浏览科技媒体和开源社区为大模型开辟的独立版块查看模型信息,如机器之心的“SOTA模型”以及Hugging Face的“Models”版块等。通过浏览此类版块能够获取更多的由国内外不同研究团队发布的开源大模型,用户可以通过简单的点击操作查阅到国内外已开源模型的各个版本,获取模型的详细信息和说明。 1.2 整体思路与方法设计 1.2.1 大模型的获取与使用 鉴于大模型有着不同的公众开放途径,实验主要采用以下3类方法获取和使用大模型: 首先,针对部署在各公司服务器上已投入生产使用的大模型,如OpenAI的ChatGPT和百度的文心一言等,通过访问模型服务所在的官方网站在线使用。在此过程中,用户须完成个人账户的注册和登录,部分模型还要求用户提交模型使用申请。 其次,针对无法直接获取使用但代码文件已开源的大模型,如华东师范大学的EduGPT和浙江大学的智海-录问等,在Hugging Face或GitHub等开源社区下载所需模型的代码文件,通过运行模型代码进行测试。 最后,针对面向特定对象开放的大模型,如武汉大学的ChessChat仅为武汉大学校内师生提供申请入口,仅通过官方产品说明文档对此类模型是否具有编校功能进行判定。 1.2.2 编校测试文本设计 共设计了90个编校测试文本,含合计100处差错。其中,1~85号测试文本选自《出版物编校差错解析》[10],主要涉及字词差错、语法差错等17种错误类型,每种错误类型包含5个测试文本,每个测试文本仅包含1个对应类型的差错。86~88号测试文本摘选自期刊中已发表的不规范表述的典型案例,共包含专业术语的使用错误与专业知识的逻辑错误等9处差错,编辑需要具备一定的专业知识才能正确编校。89~90号测试文本为笔者根据我国最新编校标准、参考部分易错点、原创设计的文本,共含6处差错。对于通过大规模无监督数据训练得到的大模型,此类测试文本在一定程度上减少了模型直接从其训练数据中检索答案的可能性。