导读
-
随着人工智能技术特别是ChatGPT等大模型的迅猛发展和快速迭代,人工智能大模型已逐渐成为各领域创新发展的重要驱动力,其在编辑出版领域中的应用潜力也引发了广泛关注。文章通过评估国产人工智能大模型的中文文字编校性能,探析不同人工智能大模型在各类编校问题中的表现以及与人工编校的差异,为出版行业合理应用人工智能大模型提供实证依据。
-
研究构建了基于专业编校竞赛试题的评估方法:选取10款国内广泛使用的国产人工智能大模型为测试对象,以韬奋杯全国出版社青年编校大赛试题作为测试题目,使用人工智能大模型的问答系统对其中文文字编校性能进行测试;再根据不同大模型在各类编校问题中的表现,对比分析其整体性能、处理不同类型差错的性能、与人工编校水平的差异;在此基础上梳理总结国产人工智能大模型的优势和局限,进而提出应用人工智能大模型开展文字编校工作的建议。
-
研究发现,人工智能大模型已具备文字编校的能力,但无法完全替代人工编校。人工智能大模型的平均分和平均得分率(76.8分,67.32%)均高于参赛人员(74.0分,64.92%);这些大模型在处理字词、知识等方面问题的准确率较高(平均得分率分别为72.76%、77.86%),但在处理语法、逻辑、标点符号等复杂编校问题上存在不足(平均得分率分别为45.40%、53.80%、61.67%);且在格式文本处理、敏感信息识别等方面存在技术瓶颈。
-
基于分析结果,文章提出人工智能大模型在编校工作中的应用建议:在编辑主导下发挥人工智能大模型在知识性问题处理等方面的优势,并谨慎审查其生成的内容,与人工编校互补协作;通过优化使用策略、合理应用提示词,增强人工智能大模型的效能;编辑应熟悉人工智能大模型的使用方法,提升信息素养,主动适应智能化编校趋势。
题目 | 国产人工智能大模型中文文字编校性能测试与分析 *
来源 | 《出版与印刷》2025年第3期
作者 | 康锋,张会巍,陈丽琼
作者单位 | 浙江理工大学杂志社
Doi | 10.19619/j.issn.1007-1938.2025.00.022
*基金项目:教育部产学合作协同育人项目“AI智能编校系统的开发及培训”(编号241004171155737)。
引用参考文献格式:
康锋,张会巍,陈丽琼. 国产人工智能大模型中文文字编校性能测试与分析[J]. 出版与印刷,2025(3):58-69.
摘要 | 评估国产人工智能大模型的中文文字编校性能,探析不同大模型在各类编校问题中的表现以及与人工编校的差异,为出版行业合理应用人工智能大模型提供实证依据。文章以韬奋杯全国出版社青年编校大赛试题为测试问题,选择10款常用的国产人工智能大模型进行测试,分析这些人工智能大模型的整体性能、处理不同差错类型问题的性能并总结其优势和局限。研究结果显示:人工智能大模型的平均分和平均得分率均高于参赛人员;这些大模型在处理字词、知识等方面问题的准确率较高,但在处理语法、逻辑、标点符号等复杂编校问题上存在不足。研究发现人工智能大模型已具备文字编校的能力,但无法完全替代人工编校。在编校工作中应用人工智能大模型时,编辑应利用人工智能大模型的优势,谨慎审查其生成的内容;优化使用策略,合理应用提示词;熟悉使用方法,提升信息素养,主动适应智能化编校趋势。
关键词 | 人工智能大模型;编校性能;编校差错;测试;提示语;智能化编校
→ 查看HTML全文
随着人工智能技术特别是ChatGPT等大模型的迅猛发展和快速迭代,人工智能大模型(简称“AI大模型”)已逐渐成为各领域创新发展的重要驱动力。依托海量数据的训练和深度学习算法的迭代更新,AI大模型展现出卓越的能力,已广泛应用于人类社会和科学研究的各个领域,也给出版和编辑工作带来了前所未有的机遇和挑战。相较于传统的人工智能,AI大模型凭借强大的自然语言处理功能、上下文理解能力与丰富的背景知识库,能够依据用户指令迅速且准确地解答问题,[1]462因而在书刊编校工作中具有独特的优势和巨大的应用潜力。AI大模型能够高效处理复杂的语言任务,如语法纠错、语言优化、术语规范等,从而提升编校效率和质量,优化编校流程,缩短出版周期,有望推动出版工作从人工主导模式向人机协同的智能化工作流转型。[2−3]
尽管AI大模型展现出巨大的潜力,但现有研究表明其在中文编校方面仍存在诸多不足。李真[4]以编校差错典型案例为测试文本,对ChatGPT的编校功能进行了测试,结果发现ChatGPT在图书编校上的应用效果有限,尤其在整体逻辑框架、行文风格等方面表现较差,甚至会增加编辑的工作负担。李侗桐等[5]1014以中文论文摘要为测试文本,评估了ChatGPT在文字编辑中的实用性,发现其存在提供信息错误、术语误用等问题。夏丽云等[6]设计了不同差错类型的测试文本,对36款大模型的编校性能进行了测试,发现平均编校准确率偏低,仅为35%。陈玮等[7]构建了错例库,对国内外6款AI大模型的中文编校能力进行了测试,发现国产大模型在语言、逻辑等方面表现优于ChatGPT,但在政治敏锐性和编校准确性方面存在较大局限,得分率不足60%。综上所述,国产大模型在中文文字编校方面存在一定优势,但实际编校能力存疑,编校工作中的应用实例也尚未见报道。现有研究多采用人工构造的模拟文本来测试AI大模型的编校性能,测试材料未能反映实际编校场景,测试方法尤其是提示词设计等方面存在不足,测试结果也不能反映与人工编校的差异,因此对AI大模型的中文文字编校性能仍需进行系统测试,以客观评估其是否适用于实际编校任务。此外,鉴于AI大模型的快速迭代和自我优化能力,近一年来国产AI大模型的文字编校性能及其应用效果仍有待明确。
为了进一步客观评价国产AI大模型在中文文字编辑中的应用性能,明确AI大模型是否适用于实际编校任务,本文构建了基于专业编校竞赛试题的评估方法。首先,选取10款国内广泛使用的国产AI大模型为测试对象,以韬奋杯全国出版社青年编校大赛试题作为测试问题,使用AI大模型的问答系统对其中文文字编校性能进行测试;然后,根据不同大模型在各类编校问题中的表现,对比分析其整体性能、处理不同差错类型问题的性能、与人工编校水平的差异,并梳理总结国产AI大模型的优势和局限,进而提出应用AI大模型开展文字编校工作的建议,以期为编校人员合理应用AI大模型提供实证依据。
一、研究方法
(一)研究对象
为了较为全面地反映国产AI大模型在中文文字编校任务中的性能水平,本文选择国内知名度较高且应用广泛的10款国产AI大模型进行测试。(见表1)这些AI大模型展现出诸多优势,例如:采用先进的模型架构和算法,具有快速计算和推理能力,满足即时交互需求;具有较强的自然语言处理能力和用户交互能力,能够准确解析用户输入的文本信息,为用户提供较为全面的解答;融合了人文社科和自然科学多个领域的知识信息,适用于多种应用场景;注册简便,使用门槛低,操作便捷;提供免费服务,用户数量多。
表 1 纳入测试的10款国产AI大模型的基本情况
(二)测试方案
1.测试问题
本文选择韬奋杯全国出版社青年编校大赛编辑人员试题作为测试题目。该编校大赛是出版行业的一个重要赛事,始于2007年,至今已举办了八届,受到了全行业的广泛关注。[8]试题设计紧密贴合出版业务实际,聚焦编辑工作中的关键问题和薄弱环节,具有较强的实践导向性。[9]试题类型多样,以语言文字应用为主,考查编校人员对相关知识的掌握程度以及分析、辨误、改错等综合编校能力;[10]试题考查内容广泛,覆盖编校环节中常见的字词、标点、语法、逻辑、知识等差错,具有较好的代表性和典型性,其中文稿编辑加工和校样审改试题的数量和分值占比较大,[11]测试场景设计较为贴近编校实际。因此,该试题适合用来定量评估AI大模型的综合文字编校能力。
为便于对比AI大模型与参赛人员的答题表现,本文选择有对参赛人员答题情况进行分析[12]104的最近一届大赛,即2019年举办的第七届韬奋杯全国出版社青年编校大赛的试题作为测试题目,以便比较AI大模型与参赛人员在编校能力上的差异。该届大赛试题有编辑人员试题和校对人员试题两种,两者内容多有重叠,由于校对人员试题中有部分题目以图片格式呈现,而AI大模型的问答系统目前仅限于处理非格式化文本的内容,因此本文仅选择编辑人员试题进行测试。
试题准备过程如下。
(1)文本去格式化
由于AI大模型问答系统的对话界面只能输入非格式化文本,因此在测试时去掉了试题的字体、段落格式,在对话界面的文本框内只输入非格式化文本。
(2)试题筛选
因为AI大模型问答系统只能处理文本形式的问题,所以剔除存在以下情况的试题:①字词格式差错(如字体字号、正斜体、黑白体差错等);②段落格式差错(如转行差错、不符合版式要求的另起一段、空格等);③标题格式差错(如标题位置、字体字号不统一等);④插图形式的试题。另外,有些带有敏感词语的问题,个别AI大模型会拒绝回答,这类试题也剔除。
筛选后的测试题目共有6类题型,分别为多项选择题(16题,每题2分,共32分)、单项选择题(10题,每题1分,共10分)、填空题(3题,5个得分点,共5分)、修改语句或文稿片段(1题,9个得分点,共9分)、编辑加工Ⅰ(1题,30个得分点,共25分)、编辑加工Ⅱ(1题,38个得分点,共33分),合计总分为114分。(见表2)
表 2 测试题目的基本情况
(3)差错类型标注
为分析AI大模型对不同差错类型问题的处理情况,本文参考试题答案,将试题的每个得分点按差错类型进行标注,共分为7类:①字词差错;②量和单位差错;③标点符号差错;④语法差错;⑤知识差错(包括事实性差错和知识性差错);⑥逻辑差错;⑦参考文献著录错误。
2.提示词设计
提示词是用户与AI大模型交互的桥梁,对AI大模型的输出有重大影响。[13]提示词一般由任务指令、背景信息、输入数据和输出指令组成,用以引导AI大模型根据具体任务、上下文信息、问题内容和期望生成并输出回答。[14]13本文参考“文心一言 使用手册”[15]以及陈嗣荣等[14]14提出的方法,针对不同题型要求设计提示词,按角色、背景、问题和输出要求设计提示词。例如,按角色和背景设计提示词如下。
角色:你是一位经验丰富的图书期刊编辑和校对人员,对于文字写作、编辑和校对有深刻的认识。
背景:编辑和校对人员的主要工作是依据各种权威图书和期刊出版编辑规范和标准以及事实和常识,指出并修改文本中存在的词语差错、语法差错、标点符号差错、知识性差错、逻辑性差错、政治性差错等。现在你正在参加一项全国性编校大赛,请按不同题型的要求完成后续提供的所有试题。
再针对不同题型要求设计提示词。例如,对于多项选择题,输入的提示词如下。
输出要求:请按前面提出的角色和背景要求,完成下面的试题。
一、多项选择题。在这些小题的备选项中,有2个或2个以上符合题意,至少有1个不符合题意。错选任何一项,该小题不得分;少选且所选选项均正确,所选的每个选项得0.5分。请回答以下16个题目,直接输出选项的编号(如ABDE),不需要输出分析过程。
试题内容:……
再如,对于编辑加工类型的试题,输入的提示词如下。
输出要求:请继续按前面提出的角色和背景要求,结合常识和写作规范,按编校规范改正下列文稿片段中可能存在的差错或欠妥之处。
按以下步骤完成试题:①按文本顺序,逐一检查并分析文字中存在的每一处差错或欠妥之处,但不要输出分析过程;②所有可能存在的差错或欠妥之处均须处理,如果没有明显的问题请勿改动;③修改后产生差错,倒扣分;④输出修改后的完整文稿。
下面的试题存在9个差错或欠妥之处,请按以上步骤完成。
试题内容:……
为客观评价10款AI大模型的编校性能,本文输入的提示词都相同。
3.测试步骤
为了保证测试的客观性,本文在相同的测试环境(即同一计算机、操作系统、浏览器)中于同一时间段内进行测试。具体的测试步骤如下。
①逐一注册并登录10款AI大模型的网址;②按题型设计提示词,并逐一输入问答系统对话界面的文本框中,让AI大模型生成答案;③对照参考答案检查AI大模型生成的回答,记录每个大模型的得分情况;④统计每款AI大模型总体得分以及不同题型和各类编校问题上的得分。
4.评估方法
本文采用比较研究法,根据每款AI大模型在各类编校问题上的得分情况,通过定量分析与定性分析相结合的方式,比较各AI大模型的整体性能、在处理不同差错问题上的表现。参照相关文献的研究结果,与人工编校情况进行差异对比,进而揭示AI大模型在中文文字编校任务中的优势与局限。
二、结果与讨论
(一)AI大模型的得分情况
1.不同题型的得分情况
各AI大模型和参赛人员在不同题型中的得分情况见表3,整体得分率见图1。由于剔除了部分测试题目,参赛人员的平均分根据相关文献的统计数据计算,[12]105计算公式为:原试题参赛人员平均分/原试题总分×测试题目总分。
表 3 AI大模型和参赛人员在不同题型中的得分情况
图 1 AI大模型和参赛人员的整体得分率
AI大模型在各题型方面的表现如下。
①在多项选择题题型的测评中,通义千问、天工AI、智谱清言等3款大模型的得分超过参赛人员平均分;腾讯元宝、文心一言、DeepSeek等大模型得分接近参赛人员平均分。整体上看,AI大模型平均分(19.0分)低于参赛人员平均分(20.8分),但两者相差不大;AI大模型得分率标准差为11.84%,表明各大模型在多项选择题上的表现差异不是很大。
②在单项选择题题型的测评中,6款大模型的得分均超过参赛人员平均分,分别为DeepSeek、豆包、天工AI、通义千问、文心一言、智谱清言。整体上看,AI大模型平均分(7.3分)与参赛人员平均分(7.3分)相同,表明它们对较为简单直接的问题处理能力较强,与人工编校水平相近;AI大模型得分率标准差为10.59%,表明各大模型在单项选择题上的表现差异不是很大。
③在填空题题型的测评中,几乎所有AI大模型都获得了满分,远高于参赛人员平均分,表明它们在处理答案比较明确的知识类问题时具有较高的准确性。
④在修改语句或文稿片段题型的测评中,DeepSeek、豆包、智谱清言的得分最高,360智脑、天工AI、文心一言、讯飞星火等也超过参赛人员平均得分;其他AI大模型得分较低。整体上看,AI大模型平均分(6.4分)高于参赛人员平均分(5.0分),表明它们在解决语句问题方面具有较强的性能;AI大模型得分率标准差为18.29%,表明各大模型在修改语句或文稿片段上的表现有较大差异。
⑤在编辑加工Ⅰ和编辑加工Ⅱ的题目测评中,DeepSeek接近满分,Kimi、豆包、天工AI、文心一言、通义千问等超过参赛人员平均分;部分大模型得分较低,甚至只有参赛人员平均得分的一半左右,这可能意味着这些大模型在语言理解和处理方面存在不足。整体上看,在编辑加工这种题型中,AI大模型平均分(39.4分)高于参赛人员平均分(38.0分),表明它们在解决综合文字编校问题上具有较强的性能;在两个试题上AI大模型得分率标准差分别为14.48%和19.07%,表明各大模型在综合文字编校问题上的表现有较大差异。
总体上看,AI大模型的平均分和平均得分率(76.8分,67.32%)均超过参赛人员(74.0分,64.92%);10款大模型中有7款总分超过参赛人员平均分,DeepSeek、天工AI、通义千问、文心一言、豆包等大模型表现较为突出,其中DeepSeek在编校测试中总分最高,得分率为82.46%;天工AI、通义千问、文心一言、豆包得分率均超过70.00%。AI大模型得分率标准差为11.00%,表明各大模型总体得分表现差异不是很大。AI大模型平均分与参赛人员平均分的t检验显著性p值为0.92>0.05,表明AI大模型与参赛人员在得分上无显著统计差异。上述结果表明,这些AI大模型已具备一定的中文文字编校能力,可以作为编辑辅助工具使用,但其性能尚未达到替代人工编校的水平。
2.不同差错类型的得分情况
各AI大模型在不同差错类型试题中的得分情况见表4。其中,AI大模型在不同差错类型试题中的得分率,为该大模型在对应差错类型试题中的实际得分与该类型试题得分点总分的百分比;各AI大模型的总得分率,为该大模型的实际总得分与所有类型试题得分点总分(124 分)的百分比。
表 4 AI大模型在不同差错类型试题中的得分情况
AI大模型在不同差错类型试题中的表现如下。

①字词处理方面,天工AI、DeepSeek和通义千问得分居前,得分率超过80.00%;360智脑、智谱清言、文心一言、腾讯元宝等表现较好,得分率超过70.00%。整体上看,AI大模型平均得分率为72.76%,表明其在字词纠错方面的能力较强;标准差为11.31%,表明各大模型在字词处理方面的表现差异较小。
②量和单位处理方面,5款大模型的得分为满分,分别是360智脑、DeepSeek、豆包、通义千问和智谱清言;部分大模型表现较差。整体上看,AI大模型平均得分率为77.50%,表明其在量和单位处理方面具有较强的能力;标准差为32.17%,各大模型表现差异显著,原因之一可能是该类测试试题只有4个得分点,没有充分验证各模型在这方面的性能。
③标点符号处理方面,豆包表现突出,得分率为83.33%;DeepSeek、Kimi、腾讯元宝、天工AI、智谱清言等表现较好,得分率超过60.00%。整体上看,AI大模型平均得分率为61.67%,表明其在标点符号纠错方面具有一定的不足;标准差为15.81%,表明各大模型在标点符号处理方面的表现有一定差异。
④语法处理方面,各大模型的得分普遍较低,其中文心一言、通义千问得分相对较高,但也仅刚过60.00%。整体上看,AI大模型平均得分率只有45.40%;标准差为13.86%,表明各大模型在语法处理方面的差异不大。总体而言,AI大模型在语法理解和纠错方面的性能普遍有待提升。
⑤知识处理方面,文心一言得分最高,得分率为89.29%,DeepSeek、豆包、Kimi等表现较好,得分率超过80.00%;天工AI、通义千问、360智脑、智谱清言等得分率超过70.00%。整体上看,AI大模型平均得分率为77.86%,各大模型的得分率均超过60.00%;标准差为7.68%,表明各大模型在知识处理方面的表现差异很小。总体而言,人工智能大模型在知识问题处理方面的表现普遍较为突出。
⑥逻辑处理方面,DeepSeek表现出色,得分率为77.59%,表明其在逻辑推理和判断能力方面大幅领先其他大模型;天工AI和豆包的表现相对较好,得分率超过60.00%;其他模型的得分普遍较低,均低于60.00%。整体上看,AI大模型平均得分率为53.80%;标准差为13.74%,表明各大模型在逻辑处理方面的表现差异较小。可以发现,相对于字词、知识问题,AI大模型在复杂语言理解和推理能力上普遍存在不足。
⑦参考文献著录处理方面,DeepSeek和通义千问表现出色;在提示词中加入参考文献著录的规则信息后,360智脑、腾讯元宝、天工AI、文心一言、智谱清言等均有得分。整体上看,AI大模型平均得分率仅为50.00%;标准差为39.28%,各大模型表现差异显著,原因之一可能是该类测试试题只有3个得分点,没有充分验证各模型在这方面的性能。经分析可以发现,这些大模型已部分理解了相关规则,因而能发现并纠正文献著录差错;但也有大模型在加入规则信息后改不误为误,表明其在知识应用和规则理解方面存在局限。
⑧总得分情况方面,AI大模型平均得分率为63.02%,已具备一定的中文文字编校能力;标准差为10.49%,表明各大模型在文字编校处理方面的表现差异较小。这些大模型在处理字词、知识等方面问题的准确率较高,但在语法、逻辑、标点符号等复杂编校问题的处理上存在不足。
值得注意的是,本文的测试结果与部分现有研究成果差异较大,主要原因可能是:①测试问题存在较大差异。韬奋杯全国出版社青年编校大赛的试题内容多为基础知识和常识,这些信息大多可以通过网页检索获取。AI大模型的训练数据覆盖了常用知识,并且在解答问题时会主动联网,检索相关网页并进行处理,因而在本文测试中表现较好。例如,文心一言表现突出,原因之一可能是其拥有庞大的知识库,训练数据涵盖了百度百科、百度文库等来源的资料。而其他文献的研究中采用的测试问题,背景信息少,专业术语多,上下文逻辑复杂,在处理这些问题时,编辑可以根据个人积累的知识经验来理解问题的背景知识和语境,而AI大模型由于在问题理解、术语应用方面存在局限,[5]1016使得测试结果不尽如人意。②测试方法存在差异。一些研究设计的提示词较为简略,没有提供充分的背景信息,影响了AI大模型的表现。③AI大模型的更新迭代和自我优化。部分现有研究的测试时间距今已过一年,AI大模型在此期间进行了算法改进和持续优化,而且国产AI大模型在中文处理能力上优于ChatGPT,使得本文的测试结果优于这些早期文献的研究结果。
(二)国产AI大模型的优势与局限
1.优势
从本次测试结果来看,国产AI大模型在中文编校中的整体得分略高于人工编校,这表明其已具备一定的中文文字编校能力,可以作为编校辅助工具使用。AI大模型对字词、知识问题的处理准确率较高,可以在一定程度上弥补编辑因知识盲点而造成的疏漏。尽管AI大模型在语法纠错、语义理解、逻辑判断等方面存在一定的局限,但其对常见文字编校问题的处理已具备一定的参考意义,其处理思路与判断依据可以给编辑带来启发,有助于编辑发现并解决编校差错。
测试过程中也发现,对于复杂问题,通过设计恰当的提示词,AI大模型常常能给出较为准确的解答或提供有益的启示,为编辑高效处理这些复杂编校问题提供有力支持。例如,对于“编辑加工Ⅱ”题型中的参考文献著录问题,在不加入背景知识信息的情况下,测试的多款AI大模型都没有发现问题,但是在提示词中加入“请根据《信息与文献参考文献著录规则》(GB/T 7714—2015),检查并改正以下参考文献的著录格式”等知识信息后,360智脑等AI大模型发现并纠正了部分差错。
在应用交互方面,AI大模型注册流程简便,界面友好,操作方便;使用便捷、效率高;使用门槛低,即使不熟悉AI大模型或缺乏编程经验的用户也能轻松操作。对于测试问题,AI大模型具有一定的即时响应能力,能够迅速生成答案。例如,在“编辑加工Ⅱ”的题目测评时,编校的短文有1910个字符,DeepSeek用时仅56秒(深度思考时间),而笔者完成该题目的时间超过15分钟,且得分不及该AI大模型,其他大模型则几乎不需要等待就开始输出结果。
各AI大模型在文本处理任务中表现出一定的稳健性,对同一试题的输出结果虽然存在一定差异,但总体表现稳定。例如,对于多项选择题(总分为32分),使用同一个大模型进行重复测试,得分仅有2~4分的变动;而在文稿编辑方面,重复测试所输出的结果差异不大。
2.局限
虽然在本次测试中,国产AI大模型整体得分略高于人工编校,但并未展现出显著的统计学优势,其性能尚未达到替代人工编校的水平。在处理各类编校问题时,多数大模型在语法、逻辑、标点符号等复杂编辑加工问题和综合编校任务的处理上得分率低于字词、知识等问题,在上下文逻辑特别是复杂句、跨段落逻辑分析方面处理能力尚显不足。因此,当前AI大模型尚不能完全胜任人工编校的角色。
在使用过程中发现,AI大模型在编校交互方面存在一定的局限。①AI大模型的问答系统无法通过文本框输入图表和格式化文本,不能处理图表以及字体、段落格式等问题,这限制了其在编校领域的应用。②对于带有敏感词语的问题,有些AI大模型会拒绝回答。如“修改语句或文稿片段”题型中的第1题和第2题,可能因为涉及敏感内容,DeepSeek、讯飞星火等大模型均拒绝回答。③文字输入或输出数量受限。例如,文心一言3.5版输入文字的上限为5000字符,在输入或输出文字较多时,需多次输入或提示系统继续输出,这在一定程度上降低了使用的便捷性。
三、AI大模型在编校工作中的应用建议
AI大模型在编校领域虽展现出一定潜力,尤其是在字词、知识问题处理等方面表现出色,但其局限性亦不容忽视,目前尚无法替代人工编辑,因此更适合作为辅助工具,在编辑主导下协同开展编校工作。通过人机协作,合理应用AI大模型开展文字编校,是当前提升编校质量、适应智能化编校的重要途径。
(一)利用AI大模型的优势,谨慎审查其生成的内容
本研究测试结果和相关文献表明,AI大模型是一个强大的语言处理工具,能够辅助编辑纠正语法、字词、标点符号以及知识性差错,还能规范和优化语言表达。[16−17]因此,编辑在应用AI大模型时,应充分利用AI大模型在这些方面的优势,以缓解由于潜意识偏差、感觉和知觉局限、知识经验不足以及编校过程中精力不集中等因素造成的编校疏漏和差错。[18]
然而AI大模型也存在诸如提供错误信息、忽视语境、误用术语、语义理解不准确等问题,[5]1016甚至生成违背事实或无意义的文本,[1]467在深度理解、语境把握、高阶思维和个性化适应性等方面仍存在明显不足,无法替代人类的专业技能、批判性思维和复杂逻辑分析能力。[19]因此在利用AI大模型进行编校时需保持审慎态度,避免因过度信任而忽视其存在的风险,[20]应细致审查其生成的内容,以确保其有效性与可信度,并结合人工编校的优势进行互补与协作。
此外,AI大模型不仅具备提供参考答案的能力,还能为编校人员揭示潜在的问题。通过提示词设计,可以引导AI大模型展示其分析过程与参考依据,进而为编校人员带来启示,打破编辑的思维惯性,避免智能“黑箱”问题,[21]从而更好地解决编校问题。例如,在提示词中加入“请提供依据或参考资料”指令,可促使AI大模型深入分析问题并提供相关依据和资料,这不仅有助于编辑验证答案的准确性,还能丰富个人知识,积累编校经验,提升业务能力。
(二)优化使用策略,合理应用提示词
AI大模型具有一定的个性化服务功能。通过优化使用策略、设计合理的提示词,可以进一步提升AI大模型的使用效能,帮助编辑提高编校质量和效率。提示词对AI大模型在编校工作中的表现有重要影响,合理的提示词能够引导AI大模型准确理解问题并提供更具针对性的回答,从而大幅提高AI大模型生成内容的质量和准确性。在提示词中加入相关编校规范或背景知识可以显著提高答案的准确率。例如,在参考文献著录审查时,如果未给出背景知识信息,AI大模型可能会忽略潜在的差错;但在给出参考文献著录规则后,AI大模型就会依据这一规则发现并改正差错。
值得一提的是,AI大模型还能通过提示词功能灵活应对各类查询需求,甚至能在一定程度上替代传统的网页搜索方式,从而提高编辑查询相关问题的效率。此外,不同的AI大模型具有一定的互补性,结合使用不同的AI大模型有助于发现潜在问题,从而帮助编辑发现和解决隐蔽的编校问题。
(三)熟悉使用方法,提升信息素养
为更好地将AI大模型融入编校流程,编辑需深入了解其工作原理,熟悉应用场景与操作方法,了解其优势与局限,以实现人机高效协作。同时,编辑应在掌握传统的编辑技能的基础上,保持对新技术的敏感度,持续学习相关专业知识,不断提升自身的信息素养。只有这样才能更好地驾驭AI大模型这一工具,从而主动适应人机共在、人机共有、人机共创的编辑生态[22]和智能化编校趋势[23]。
四、结语
本文以韬奋杯全国出版社青年编校大赛试题作为测试问题,对10款国内广泛使用的AI大模型进行了编校性能测试。研究结果表明,AI大模型尤其是DeepSeek、天工AI、通义千问、文心一言、豆包等,在一定程度上已具备辅助文字编校的功能,但也存在明显的局限。在应用AI大模型进行文字编校时,应在编辑主导下发挥AI大模型在知识性问题处理等方面的优势,并谨慎审查其生成的内容,与人工编校互补协作;通过优化使用策略、合理应用提示词,可以增强AI大模型的效能。编辑应熟悉AI大模型的使用方法,提升信息素养,主动适应智能化编校趋势。随着AI技术的不断发展和完善,相信AI大模型在编校领域会发挥更大的作用。
本文存在一定的研究局限,如测试题目的试题差错类型不够全面,试题数量相对有限,难以全面反映实际编校工作的复杂性与多样性;提示词未充分考虑不同AI大模型的应用特点和优势等。在实际编校工作中如何有效且合规地使用AI大模型,尚待后续探索。
参考文献
Title : Test and Analysis of Chinese Text Editing Performance of Domestic Artificial Intelligence Large Language Models
Author : KANG Feng, ZHANG Huiwei, CHEN Liqiong
Author Affiliation : Periodicals Agency of Zhejiang Sci-Tech University
Abstract :
With the rapid development and iteration of artificial intelligence technology, especially large language models such as ChatGPT, artificial intelligence large language models have gradually become an important driving force for innovation and development in various fields, and their potential applications in the field of editing and publishing have also attracted widespread attention. The article evaluates the Chinese text editing performance of domestic artificial intelligence large language models, explores the performance of different artificial intelligence large language models in various editing problems and their differences from manual editing, and provides the empirical evidence for the rational application of artificial intelligence large language models in the publishing industry.
Research has developed an evaluation method based on the professional editing competition questions: 10 widely used domestic artificial intelligence large language models were selected as the test objects, and the Taofen Cup National Publishing House Youth Editing Competition questions were used as the test questions. The Chinese text editing performance of these models was tested by the question answering system of the artificial intelligence large language models; based on the performance of different large language models in various editing problems, their overall performance, performance in handling different types of errors, and differences from manual editing levels were compared and analyzed; on this basis, the advantages and limitations of domestic artificial intelligence large language models were summarized, and then the suggestions for using artificial intelligence large language models to carry out text editing and proofreading work were proposed.
Research has found that the artificial intelligence large language models have the ability of text editing, but cannot completely replace manual editing. The average score and average score rate of the artificial intelligence large language models (76.8 points and 67.32%) are higher than those of the participants (74.0 points and 64.92%); these large language models have high accuracy in dealing with the problems such as the words and knowledge problems (average score rates of 72.76% and 77.86%, respectively), but there are shortcomings in dealing with the complex editing problems such as the grammar, logic, and punctuation problems (average score rates of 45.40%, 53.80%, and 61.67%, respectively); there are technical bottlenecks in the areas such as the format text processing and sensitive information recognition.
Based on the analysis results, this article proposes suggestions for the application of artificial intelligence large language models in editing and proofreading work: under the leadership of editors, the advantages of artificial intelligence large language models in knowledge problem processing should be fully utilized, and the generated content should be carefully reviewed to complement and cooperate with manual editing and proofreading; by optimizing usage strategies and applying prompt words reasonably, the effectiveness of artificial intelligence large language models can be enhanced; editors should be familiar with the use of artificial intelligence large language models, improve their information literacy, and actively adapt to the trend of intelligent editing and proofreading.
Keywords : artificial intelligence large language model; editing performance; editing error; test; prompt; intelligent editing and proofreading
编辑:许彤彤
审核:靳琼 熊喆萍
期刊简介
《出版与印刷》于1990年创刊,是由上海市教育委员会主管、上海出版印刷高等专科学校主办,经国家出版主管部门批准的学术性期刊。本刊专注现代出版与印刷专业人才培养,服务出版与印刷产业转型发展,促进出版与印刷领域的产教研深度融合。读者对象主要为出版与印刷领域教育、科研及从业人员。主要栏目设有本期聚焦、研究与观察、出版实务、期刊研究、印刷与包装、出版融合、专业人才培养、出版史话等,内容注重学术性、专业性、实用性和可读性。
《出版与印刷》为《中国人文社会科学期刊AMI综合评价报告(2022年)》扩展期刊。人大报刊复印资料来源期刊。《中国学术期刊影响因子年报》统计源期刊。Scopus 数据库收录期刊。全文收录于中国知网、万方数据、中文科技期刊数据库、超星期刊、《中国人文社会科学期刊评价报告(AMI)》引文数据库、龙源期刊网、钛学术文献服务平台等。2021年入选第七届华东地区优秀期刊。