【观前提示】由于技术和资金限制,本文依旧由笨笨的小编撰写,欢迎懂技术的小伙伴加入我们,让高科技来取代笨笨的小编
2022年底,不少人的朋友圈被“突飞猛进”的AI大肆刷屏。从DALL-E 2、Stable Diffusion到ChatGPT,只要给出输入对应的关键词,AI就能够为我们生成相关的图像或文本,不免让人惊呼,“科学的力量真伟大”。
OpenAI公司推出的AI图像生成DALL-E 2与文本生成的程序ChatGPT
但与ChatGPT等一同躁动起来的,还有人们焦虑的心。
随着深度学习技术的不断进步,人工智能已经从工业领域“入侵到”新媒体、影视、软件开发等内容创造领域,甚至在学术圈内,都已经诞生了多篇ChatGPT署名的论文。
可以预见,在不远的将来,人工智能将会深度参与到人类生活的方方面面。
在WOS中可以检索到ChatGPT署名的正式出版的论文
尽管现在的人工智能在生成文本、图像的过程中,容易出现“画不好的手”等啼笑皆非的产物,但随着技术的不断进步与数据量的不断扩大,未来人工生成的作品必定会越来越多,越来越精细。
根据高纳德(Gartner)公司预测,到2025年,生成性人工智能将占所有数据产出的10%,高于目前不到1%的比例。
AI处理不好的手部问题,其原因可能是相关数据“喂”的不够
或许可以设想,以后我们归档的文件中就有不少是由人工智能生成的。
届时,档案工作又会发生什么样的变化呢?尽管现有AI生成内容技术尚未涉及到档案管理领域,但是从其他行业的案例中,我们也可以窥探一二。
那么接下来,就让小编给大家带来一些不成熟的想法,欢迎大家看完以后在评论区交流讨论~
工作的助力
AI内容生成协助档案管理工作开展
根据中国信息通信研究院出版的《人工智能生成内容(AIGC)白皮书》,AI生成内容可以分为三个部分:一是智能数字内容孪生;二是智能数字内容编辑;三是智能数字内容创作。
简单的说,就是借助AI进行数字化、内容编辑与自主“创造”。
其中,近些年已经有部分研究者通过人工智能的图像编辑,将AI应用到档案或者文物的修复上。
例如,在2022百度世界大会上,百度首席技术官王海峰展示了基于飞桨文心大模型“补全”后的《富春山居图》,AI补全部分与现存画卷风格统一,说明了AI在文物修复领域的巨大潜力。
利用AI对《富春山居图》进行修复的过程
与此类似的是,独立艺术家大谷Spitzer利用AI对人民日报四年前发布的资料影片进行上色、修复帧率、扩大分辨率等操作。
图源:微博
除了对档案图像进行修复、改善以外,AI生成内容还可以用到档案利用工作中。像是提供智能化的档案检索引导服务,或者是结合档案内容自动生成全宗或者专门档案的摘要,都是可能的探索方向。
尽管档案领域尚未涉及到这些方面的研究,但其他领域已经有了类似的案例。
比如浙江省政府服务网就推出办事服务智能问答系统,该系统依靠人工智能不间断地学习海量政务大数据,提供24小时的智能问答服务。事实上。依靠人工智能生成文本,以此提供便利的咨询问答服务,这已经是电子政府建设的重要内容。
而对于摘要服务来说,早在2020年,就有团队研发出了TLDR软件,该软件尝试通过人工智能实现自动用一句话概括论文,帮助研究者缩短阅读论文的时间。
但需要注意的是,AI生成内容涉及到跨模态的数据内容,需要对文本、图片、视频等不同模态特征的提取和语义关联,通过语义融合实现不同模态的转换。
而解析语义关系特征就需要测量其文本、图像乃至视频的语义相似度,这对于档案数据化的程度和AI的技术能力提出较高的要求,所以可能在较长一段时间内都难以实现。
未来的挑战
AI生成内容带来的工作威胁
在法律界,人工智能生成内容的版权问题一直是一个令人头疼的问题。由于人工智能并不具备法律意义上的人格,因此AI没有办法成为其生成内容的行为主体。
那么,在AI所生成的内容是否拥有版权?如果拥有版权,那么这是属于用户,程序设计者还是软件产商?
而在这个问题之上,更为关键的是,AI生成内容如果造成侵犯隐私或其他问题,应该追究谁的责任。
对于档案部门来说,面对AI所生成的大量文件,我们是否需要归档?我们应该如何判定这些内容的归档主体?如果归档文件中含有AI生成的存在侵犯隐私或版权的部分,那么又该如何处理?
克里斯·卡什塔诺娃(Kris Kashtanova)的作品《中途(Midjourney)》原本具有美国第一个AI生成作品的版权,但是该作品版权最终被官方收回

除此之外,更为重要的是,AI生成的内容本身存在信息伦理的风险。
一是AI生成内容存在歧视风险。
雅尼克·基尔彻(Yannic Kilcher)在4chan的政治不正确板块中训练了人工智能模型,该模型最终可以生成大量的具有歧视性的话语 。
Yannic Kilcher认为这个模型是“有史以来最糟糕的人工智能”
与之类似的是,微软于2016年在Twitter上发布了人工智能聊天机器人,但在与用户的交流、学习过程中,Tay言语开始涉及种族主义、色情、纳粹,充满歧视、仇恨和偏见。
未来,如果档案馆或其他政府部门推出了AI生成内容服务,而这被有心之人进行训练,得出一些歧视性或反动性的言论,又应该如何处理?
特别是对于档案部门来说,如果在档案利用服务的过程中出现类似问题,是否会对档案的权威性造成威胁,这也是值得思考的问题。
二是AI可以用于造假活动中。
由于人工智能的技术水平日益强大,其可以轻而易举的模仿不同人员的写作风格,因此其可能被用在各类造假或舆论引导行为中。
比如前段时间网络上曾经疯传“杭州3月1号取消限行”,就被证实是人工智能所撰写的假新闻。
除了现行文件外,历史文件同样可能被人工智能造假。ChatGPT按照马泰奥·卡涅卢蒂(Matteo Cargnelutti)的要求,成功生成了一个虚构的 1998 年的LIL网站的“About”页面,并将其包装成WARC文件。
尽管其中可能存在一些错误,但从实际意义上说,我们难以判断这个历史网页是由聊天机器人生成的。
Matteo Cargnelutti从AI中得到的文件
可以想象,一旦AI生成内容被应用到档案造假上,这将会造成巨大的风险。
针对人工智能的造假可能,现有的方法主要采取两种思路,一是用“魔法打败魔法“,即用AI打败AI。ChatGPT的生产商OpenAI公司就向公众提供了AI Text Classifier,通过人工智能来判断输入的文本是否由人工智能生成。但遗憾的是,AI Text Classifier的检测成功率仅有26%。
另一种则是采取“白盒”思路,通过控制模型的生成行为或者在生成文本中加入水印(watermark)来对生成文本进行追踪和检测。但水印的添加势必会影响AI的运行效率,因此大部分产商也并不乐意在AI生成内容中加上水印。
对于档案部门来说,如何避免AI伪造档案,如何是识别出AI伪造的档案,这一问题就像是电子文件真实性、可靠性问题的PLUS版本,需要我们在未来探索出行之有效且有效率的方法。
结语
狂飙之下,我们何去何从
从不同行业、不同领域的案例类似,我们不难发现,随着人工智能技术的不断发展,AI生成内容必然会给档案工作带来一次剧烈的震荡。
在这个过程中,最为重要是我们如何才能够用好人工智能,让AI内容生成更好的协助档案工作的开展。
另一方面,面对人工智能带来的“造假风波”,档案部门又能否基于电子档案的研究经验,给出具有档案特色的解决方案,都是需要未来持续探索的。
当然,由于AI生成内容所覆盖的范围甚广,涉及到的内容也很复杂,小编能够找到的资料也是有限,因此对这一问题的认识也有很大的局限性。
所以,欢迎大家在评论区内一起讨论人工智能内容生成的崛起,将会对我们档案工作造成什么影响,小编会偷偷拿着笔记本进行学习哦~
参考文献
[1]TLDR . [EB/OL]. [2023-02-27]. https:///.
[2] 杭州日报. 用AI画笔连接山河,文心大模型助力《富春山居图》“山水合璧”[EB/OL]. 2022-07-22[2023-02-27]. https://baijiahao.baidu.com/s?id=1738981848992501390.
[3] 大谷spitzer. [EB/OL]. [2023-02-27]. https://weibo.com/daguspitzer.
[4] gartner. Gartner Identifies the Top Strategic Technology Trends for 2022[EB/OL]. 2021-08-18[2023-02-27]. https://www./en/newsroom/press-releases/2021-10-18-gartner-identifies-the-top-strategic-technology-trends-for-2022.
[5]ifanr. 史上最糟 AI 诞生!他用过亿条恶臭帖子,训练出口吐芬芳的聊天机器人[EB/OL]. 2022-06-14[2023-02-27]. https://www.ifanr.com/1494916.
[6]Linda Codega. An AI-Illustrated Comic Has Lost a Key Copyright Case[EB/OL]. [2023-02-27]. https:///zarya-of-the-dawn-midjourney-comic-ai-art-copyright-1850149833.
[7] 钱江晚报. 昨天到今天,网传“杭州3月1号取消限行”?这个版本不实,出自ChatGPT[EB/OL]. 2023-02-17[2023-02-27]. https://baijiahao.baidu.com/s?id=1758046676297856941#:~:text=%E6%98%A8%E5%A4%A9%EF%BC%8C%E6%9D%AD%E5%B7%9E%E4%BA%BA%E7%9A%84%E6%9C%8B,%E8%BD%A6%E5%B0%BE%E5%8F%B7%E9%99%90%E8%A1%8C%E6%94%BF%E7%AD%96%E3%80%82.
DeleteEdit
[8]Matteo Cargnelutti. Towards “deep fake” web archives? Trying to forge WARC files using ChatGPT.[EB/OL]. 2023-01-13[2023-02-27]. https://lil.law./blog/2023/01/13/chatgpt-web-archives/.
文稿:谢鹏鑫
排版:谢鹏鑫
审核:南梦洁