浪潮之下，AI生成内容会给档案管理带来什么？

【观前提示】由于技术和资金限制，本文依旧由笨笨的小编撰写，欢迎懂技术的小伙伴加入我们，让高科技来取代笨笨的小编

2022年底，不少人的朋友圈被“突飞猛进”的AI大肆刷屏。从DALL-E 2、Stable Diffusion到ChatGPT，只要给出输入对应的关键词，AI就能够为我们生成相关的图像或文本，不免让人惊呼，“科学的力量真伟大”。

OpenAI公司推出的AI图像生成DALL-E 2与文本生成的程序ChatGPT

但与ChatGPT等一同躁动起来的，还有人们焦虑的心。

随着深度学习技术的不断进步，人工智能已经从工业领域“入侵到”新媒体、影视、软件开发等内容创造领域，甚至在学术圈内，都已经诞生了多篇ChatGPT署名的论文。

可以预见，在不远的将来，人工智能将会深度参与到人类生活的方方面面。

在WOS中可以检索到ChatGPT署名的正式出版的论文

尽管现在的人工智能在生成文本、图像的过程中，容易出现“画不好的手”等啼笑皆非的产物，但随着技术的不断进步与数据量的不断扩大，未来人工生成的作品必定会越来越多，越来越精细。

根据高纳德（Gartner）公司预测，到2025年，生成性人工智能将占所有数据产出的10%，高于目前不到1%的比例。

AI处理不好的手部问题，其原因可能是相关数据“喂”的不够

或许可以设想，以后我们归档的文件中就有不少是由人工智能生成的。

届时，档案工作又会发生什么样的变化呢？尽管现有AI生成内容技术尚未涉及到档案管理领域，但是从其他行业的案例中，我们也可以窥探一二。

那么接下来，就让小编给大家带来一些不成熟的想法，欢迎大家看完以后在评论区交流讨论~

工作的助力

AI内容生成协助档案管理工作开展

根据中国信息通信研究院出版的《人工智能生成内容（AIGC）白皮书》，AI生成内容可以分为三个部分：一是智能数字内容孪生；二是智能数字内容编辑；三是智能数字内容创作。

简单的说，就是借助AI进行数字化、内容编辑与自主“创造”。

其中，近些年已经有部分研究者通过人工智能的图像编辑，将AI应用到档案或者文物的修复上。

例如，在2022百度世界大会上，百度首席技术官王海峰展示了基于飞桨文心大模型“补全”后的《富春山居图》，AI补全部分与现存画卷风格统一，说明了AI在文物修复领域的巨大潜力。

利用AI对《富春山居图》进行修复的过程

与此类似的是，独立艺术家大谷Spitzer利用AI对人民日报四年前发布的资料影片进行上色、修复帧率、扩大分辨率等操作。

图源：微博

除了对档案图像进行修复、改善以外，AI生成内容还可以用到档案利用工作中。像是提供智能化的档案检索引导服务，或者是结合档案内容自动生成全宗或者专门档案的摘要，都是可能的探索方向。

尽管档案领域尚未涉及到这些方面的研究，但其他领域已经有了类似的案例。

比如浙江省政府服务网就推出办事服务智能问答系统，该系统依靠人工智能不间断地学习海量政务大数据，提供24小时的智能问答服务。事实上。依靠人工智能生成文本，以此提供便利的咨询问答服务，这已经是电子政府建设的重要内容。

而对于摘要服务来说，早在2020年，就有团队研发出了TLDR软件，该软件尝试通过人工智能实现自动用一句话概括论文，帮助研究者缩短阅读论文的时间。

但需要注意的是，AI生成内容涉及到跨模态的数据内容，需要对文本、图片、视频等不同模态特征的提取和语义关联，通过语义融合实现不同模态的转换。

而解析语义关系特征就需要测量其文本、图像乃至视频的语义相似度，这对于档案数据化的程度和AI的技术能力提出较高的要求，所以可能在较长一段时间内都难以实现。

未来的挑战

AI生成内容带来的工作威胁

在法律界，人工智能生成内容的版权问题一直是一个令人头疼的问题。由于人工智能并不具备法律意义上的人格，因此AI没有办法成为其生成内容的行为主体。

那么，在AI所生成的内容是否拥有版权？如果拥有版权，那么这是属于用户，程序设计者还是软件产商？

而在这个问题之上，更为关键的是，AI生成内容如果造成侵犯隐私或其他问题，应该追究谁的责任。

对于档案部门来说，面对AI所生成的大量文件，我们是否需要归档？我们应该如何判定这些内容的归档主体？如果归档文件中含有AI生成的存在侵犯隐私或版权的部分，那么又该如何处理？

克里斯·卡什塔诺娃（Kris Kashtanova）的作品《中途（Midjourney）》原本具有美国第一个AI生成作品的版权，但是该作品版权最终被官方收回

除此之外，更为重要的是，AI生成的内容本身存在信息伦理的风险。

一是AI生成内容存在歧视风险。

雅尼克·基尔彻（Yannic Kilcher）在4chan的政治不正确板块中训练了人工智能模型，该模型最终可以生成大量的具有歧视性的话语 。

Yannic Kilcher认为这个模型是“有史以来最糟糕的人工智能”

与之类似的是，微软于2016年在Twitter上发布了人工智能聊天机器人，但在与用户的交流、学习过程中，Tay言语开始涉及种族主义、色情、纳粹，充满歧视、仇恨和偏见。

未来，如果档案馆或其他政府部门推出了AI生成内容服务，而这被有心之人进行训练，得出一些歧视性或反动性的言论，又应该如何处理？

特别是对于档案部门来说，如果在档案利用服务的过程中出现类似问题，是否会对档案的权威性造成威胁，这也是值得思考的问题。

二是AI可以用于造假活动中。

由于人工智能的技术水平日益强大，其可以轻而易举的模仿不同人员的写作风格，因此其可能被用在各类造假或舆论引导行为中。

比如前段时间网络上曾经疯传“杭州3月1号取消限行”，就被证实是人工智能所撰写的假新闻。

除了现行文件外，历史文件同样可能被人工智能造假。ChatGPT按照马泰奥·卡涅卢蒂(Matteo Cargnelutti)的要求，成功生成了一个虚构的 1998 年的LIL网站的“About”页面，并将其包装成WARC文件。

尽管其中可能存在一些错误，但从实际意义上说，我们难以判断这个历史网页是由聊天机器人生成的。

Matteo Cargnelutti从AI中得到的文件

可以想象，一旦AI生成内容被应用到档案造假上，这将会造成巨大的风险。

针对人工智能的造假可能，现有的方法主要采取两种思路，一是用“魔法打败魔法“，即用AI打败AI。ChatGPT的生产商OpenAI公司就向公众提供了AI Text Classifier，通过人工智能来判断输入的文本是否由人工智能生成。但遗憾的是，AI Text Classifier的检测成功率仅有26%。

另一种则是采取“白盒”思路，通过控制模型的生成行为或者在生成文本中加入水印（watermark）来对生成文本进行追踪和检测。但水印的添加势必会影响AI的运行效率，因此大部分产商也并不乐意在AI生成内容中加上水印。

对于档案部门来说，如何避免AI伪造档案，如何是识别出AI伪造的档案，这一问题就像是电子文件真实性、可靠性问题的PLUS版本，需要我们在未来探索出行之有效且有效率的方法。

结语

狂飙之下，我们何去何从

从不同行业、不同领域的案例类似，我们不难发现，随着人工智能技术的不断发展，AI生成内容必然会给档案工作带来一次剧烈的震荡。

在这个过程中，最为重要是我们如何才能够用好人工智能，让AI内容生成更好的协助档案工作的开展。

另一方面，面对人工智能带来的“造假风波”，档案部门又能否基于电子档案的研究经验，给出具有档案特色的解决方案，都是需要未来持续探索的。

当然，由于AI生成内容所覆盖的范围甚广，涉及到的内容也很复杂，小编能够找到的资料也是有限，因此对这一问题的认识也有很大的局限性。

所以，欢迎大家在评论区内一起讨论人工智能内容生成的崛起，将会对我们档案工作造成什么影响，小编会偷偷拿着笔记本进行学习哦~

参考文献

[1]TLDR . [EB/OL]. [2023-02-27]. https:///.

[2] 杭州日报. 用AI画笔连接山河，文心大模型助力《富春山居图》“山水合璧”[EB/OL]. 2022-07-22[2023-02-27]. https://baijiahao.baidu.com/s?id=1738981848992501390.

[3] 大谷spitzer. [EB/OL]. [2023-02-27]. https://weibo.com/daguspitzer.

[4] gartner. Gartner Identifies the Top Strategic Technology Trends for 2022[EB/OL]. 2021-08-18[2023-02-27]. https://www./en/newsroom/press-releases/2021-10-18-gartner-identifies-the-top-strategic-technology-trends-for-2022.

[5]ifanr. 史上最糟 AI 诞生！他用过亿条恶臭帖子，训练出口吐芬芳的聊天机器人[EB/OL]. 2022-06-14[2023-02-27]. https://www.ifanr.com/1494916.

[6]Linda Codega. An AI-Illustrated Comic Has Lost a Key Copyright Case[EB/OL]. [2023-02-27]. https:///zarya-of-the-dawn-midjourney-comic-ai-art-copyright-1850149833.

[7] 钱江晚报. 昨天到今天，网传“杭州3月1号取消限行”？这个版本不实，出自ChatGPT[EB/OL]. 2023-02-17[2023-02-27]. https://baijiahao.baidu.com/s?id=1758046676297856941#:~:text=%E6%98%A8%E5%A4%A9%EF%BC%8C%E6%9D%AD%E5%B7%9E%E4%BA%BA%E7%9A%84%E6%9C%8B,%E8%BD%A6%E5%B0%BE%E5%8F%B7%E9%99%90%E8%A1%8C%E6%94%BF%E7%AD%96%E3%80%82.

DeleteEdit

[8]Matteo Cargnelutti. Towards “deep fake” web archives? Trying to forge WARC files using ChatGPT.[EB/OL]. 2023-01-13[2023-02-27]. https://lil.law./blog/2023/01/13/chatgpt-web-archives/.

文稿：谢鹏鑫

排版：谢鹏鑫

审核：南梦洁

微精选

浪潮之下，AI生成内容会给档案管理带来什么？

最近文章