Why are we so bad at knowledge graphs?
We struggle with formal languages, but need them more than ever
自然界总是充满令人惊叹的巧合和复杂性,尤其是在我们理解思想、使用自然语言,以及用它们进行复杂思考的方式。无论是“原始”物种的信号噪音,还是人类世界中复杂的语法结构与导航方式,我们的语言模型都具有极高的复杂度。
那为何我们还要发明比自然语言更简单,却更难掌握的数学、声明性语法和知识表示呢?
自然语言其实是一种进化而来的知识表示系统。它在表达想法时经常模糊而充满弹性,词汇意义多变,语境决定一切。而我们的思维能够灵活弥补这些不精确,帮助我们推理和填补信息空白。
与此相比,形式语言(如数学、计算机程序等)是人类发明的一套技术工具,用极少的符号压缩大量精确信息。这里没有模棱两可,但精确带来的高门槛也让我们很难立即“明白”。
我们大多数人很难把自由表达转化为规律严谨的形式描述。学习和使用形式语言就像学一门全新语言:词汇可能有相同拼写,但含义大相径庭。自然语言和形式语言的信息压缩方式截然不同,它们本质上是两种完全不同的语言系统。
当我们直接试图用某种不熟悉的语言表达新观点时,就会像作家遇到写作障碍。所以我们需要不断用自己的语言“复述、改写”,从而吸收和沉淀知识。这正是我们喜欢在白板上自由头脑风暴、心理医生大量倾听的根源。
自然语言对我们推理能力有极大激励作用。仅通过抛出“未完成”的句子,就能激活大脑、设定情境、重组思路。而一旦尝试用“外语”(例如一门专业学科、一种形式语言)表达,就容易迷失在关联与含义的森林里,看不清全貌路径。
因此,知识图谱、数学、程序、逻辑等形式表达——本质上都是一套足够陌生、纪律性极强的语言。要高效表达、互通有无,往往要经历“自我内化->形式转化->再自我理解”三个阶段——我们和机器、读者之间,始终有三种语言在流转。
我们是语言机器,同时也是“故事讲述机器”。哲学与数学逻辑看似至高无上,但逻辑推理其实源自一种极简的、受约束的故事叙述方式。 例如经典三段论:
逻辑的目的不是激发感情,而是解决问题。我们信任逻辑——因为它“看起来不会错”。
但现实中,人类很难始终逻辑严密、精确表达。我们靠自我校正和即兴调整快速跳出错误,而不是机械避免犯错。甚至,很多人混淆了理性、逻辑、智慧、智能这些概念,误以为逻辑是万物根基。本文作者则认为,讲故事才是人类推理根本,而逻辑只是其中一个特例。
逻辑和数学之所以“完美”,仅仅因为它们极度简单化。一切都类似“机器”:清楚对错、运行或崩溃,但哥德尔不完备性已证明逻辑体系不可能真正完美。日常语言擅长讲故事,为何还需逻辑?因为我们渴望有一种“中立裁判”式的表达,可惜很多现象无法唯一描述、部分陈述不可判定、世界太复杂。
即便如此,让人用声明性语句表达意图——比写一百行代码更难。我们本能上擅长模糊、渐进、联想式表达,而对极简、精确、受约束的表达极其抗拒。
如今的大语言模型(LLM)在模仿人类自然语言方面异常强大,却并不逻辑。他们靠统计“讲故事”,让人感觉“对”,但本质上和人类的本能自我校对能力差异巨大。我们喜欢LLM生成的内容——因为它们“像人说话”,而不是逻辑无懈可击。
知识图谱自上世纪90年代起渐成气候,其本质是抽象化知识表示的图形化尝试,发展出Topic Maps、RDF等代表性技术。现在的主流图数据库其实只是把“表”画成“图”,剥离了表结构的刚性约束。
-
简单同质大规模图模型
:如金融机构的交易监测、社交网络等,偏向单一类型。
-
语义异构复杂图模型
:即“语义图谱”,致力于描述各种事物及其复杂关系。
这些关系其实很简单,普通数据库也能胜任,图谱更多是一种展示。不久就必须处理更复杂的多元关系,比如**“Mark是马”、“Mark是某人的儿子”等。此时,“技术本体”**(ontology)就被引入来弥补“一刀切”表达的不足。
人类擅长列清单、画树状图,善于做划分。但从Linnaeus生物分类法到现代本体论,都证明唯一划分并不现实。分类树只是“图”的一种扩展,维护成本高,本体论试图通过“逻辑糖衣”掩饰分类缺陷,却仍然难以全面准确表达实际世界的复杂关联。
每一步精细化映射、分组、逻辑表达都是对表达者深厚专业能力的考验。而我们天性更擅长“模糊聚合”,不愿进行枯燥的“项目细分”——这也是知识图谱不易做好的根源之一。
那个大名鼎鼎的“is a”关系,是计算机科学里最被过度神化、最容易误用的坑。(部分内容预示更多讨论,建议参考原文后续章节)
人类天性擅长“能说会道”,却不善把模糊的思考转化为高度精确、标准化的机器可读表示。知识图谱努力让知识高度结构化、图式化,但受限于人类表达习惯、思考惯性、形式语言障碍、本体构建难题等,多数实际项目都难以登堂入室,这也解释了为什么知识图谱在理论与实践上始终道阻且长。
#知识图谱 #本体 #KG #KnowledgeGraph #大模型
|