2年半,股价翻了32AI应用股王Palantir的成功,引发了行业对“Ontology本体论的关注:



  • 军事:Palantir运用本体论整合多源情报数据,精准锁定本拉登范围

  • 能源:借本体论关联勘探数据、设备状态与供应链信息,优化开采效率

    • 消费品:通过本体论串联用户画像、销售数据与库存,实现预测性供应链

    • 医疗:本体论整合病历、药品与诊疗方案,辅助临床决策

    • 金融:借本体论关联交易记录、客户资质与风控模型

Palantir并非本体论的发明者,但它是第一家把本体论应用到极致的公司。事实上,本体论不仅适用于AI toB场景,不仅适用于传统实业,我们也在互联网行业,甚至个人的投资理财场景中看到了本体论的借鉴与实践。“LLM+向量+本体论+上下文工程这个开发新范式,值得每一个AI开发者重视。

本系列开篇主要讨论

4. 14.

1. 什么是“ontology本体论”

2. 本体论能很好地解决推理严谨性、可解释性、任务执行逻辑一致性问题,是Agentic AI发展的重要角色

3. 金融行业实践本体论案例

4. 用本体论构建知识图谱 vs 直接构建知识图谱



1. 什么是本体论?


本体论是哲学的一个核心分支,它研究 存在本身。它不关心某个具体的东西是否存在,而是关心作为一类事物的物质对象属性关系数字意识等,是否具有真实、独立的存在地位。

一个简单的比喻:想象一个巨大的仓库(代表整个世界),研究仓库里某个具体的箱子是其他学科(如物理学、心理学)的工作,本体论负责回答的是:

  • 这个仓库里基本的货架类型有哪些?(是只有“物质”货架,还是有“思想”货架、“关系”货架?)

  • “存在”于这个仓库的标准是什么?(一个东西需要满足什么条件才能被放进仓库?)

  • 这些货架之间是什么关系?(“思想”货架是依赖于“物质”货架而存在的吗?)

本体论这个词在20世纪末被计算机科学和AI领域借用,并赋予了新的、更实用的含义。

在计算机科学中,“本体论”是对一个领域内的概念和关系进行定义并形成数据模型的方法,以便不同的人和系统能相互理解和交流。一个完整的本体论通常包含以下组成部分:

  • 类/概念:领域中的事物类型,如 人物、公司、产品

  • 关系/属性:概念之间的交互方式,如 工作在、生产

  • 属性约束:对关系施加的限制,如 “一个人只能为一家公司工作”(函数性约束)

  • 个体/实例:类的具体例子,如 张三(是 人物 的一个实例)

  • 公理:永真的断言,是本体论中最核心的逻辑陈述,例如:

    • 层级关系:狗 是 哺乳动物 的子类

    • 等价关系:矩形 等价于 长方形

    • 不相交关系:男性 和 女性 是不相交的类

图谱结构是实现“本体论”的主要载体,它与本体论的核心思想完美契合。一个基于本体论进行实例化的图谱结构,常被称为知识图谱语义网络”,在构建知识图谱时,会将知识清晰地划分为两个部分:T-box 和 A-box。

  • T-box: 对应本体论的“本体“部分:

     – 定义构成领域词汇表的概念和关系

     – 规定领域的一般性规则和公理

     – 关注不依赖于具体个体而存在的普遍真理

  • A-box: 对应本体论的“实例”部分:
     – 包含根据T-box定义的词汇和规则,对具体个体的事实描述

用图谱来实现本体论,非常易于人类理解和机器处理,例如:


上图基于本体论定义了以下内容:

1. 严格的层次结构(分类法)

  • 它使用is-a(例如 张三 is-a 人物)或 subClassOf 关系来构建一个清晰的分类体系
  • 作用:实现推理。一旦系统知道“张三是人物”,而“所有人物都是生物”,那么系统可以自动推断出“张三是生物”,系统无需显性地存储这条知识

2. 丰富的语义约束,这是本体论最强大的地方它定义了关系的定义域和值域

  • 定义域:规定哪个类的实例可以拥有这个属性。例如:属性 出生于的定义域 是 人物
  • 值域:规定这个属性的值必须属于哪个类。例如:属性 出生于 的值域 是 地点
  • 作用:保证数据一致性。如果有人试图添加一条数据“ (北京) –【出生于】–> (张三)”,系统会根据本体论的约束发现错误,因为北京(地点)不属于定义域 人物,张三(人物)不属于值域  地点

    3. 复杂的逻辑关系。现代本体语言(如OWL)允许表达更复杂的逻辑:

      • 等价性:丈夫 等价于 已婚男性
      • 互逆性:拥有孩子 是 拥有父母 的逆关系
      • 传递性:如果 A 位于 B  B 位于 C,那么 A 位于 C
      • 基数约束:一个人只能有 一个 生物学上的父亲

    规避复杂的技术名词,方便起见,我们可以这样理解,图谱实例是数据的躯体,图谱本体是数据的灵魂

    2. 本体论会成为Agentic AI发展的重要角色

    暴涨32倍,Palantir带火的「本体论」将成为AI开发新范式?

    开发AI应用时,一个绕不开的组件就是知识库。除了知识图谱,还有很多存储方式也都可以实现知识库,比如:关系型数据库、KV数据库、文档数据库、向量数据库等。选择哪种存储技术,需要结合业务特征进行规划,我们从结构化程度查询与推理两个维度来比较:

    在实际应用中,尤其是复杂的企业级系统中,往往采用混合存储模式,利用各自长处来共同服务于业务实现:

    • 知识图谱:作为语义层,定义统一的概念和关系,提供复杂的关联查询和推理能力
    • 关系型数据库:作为事务型数据的主存储,保证核心业务数据的一致性和可靠性
    • 向量数据库:作为AI模型的长期记忆,存储 mbedding,用于语义检索和相似性匹配
    • 文档数据库:可高效存储和管理 JSON/BSON 等格式的非规整数据,用于文档内字段的精准查询和灵活检索
    • 键值存储:用于快速搜索,提高响应速度

    从目前构建知识库用到的主流技术——RAG的趋势来看,向量数据库依然是最被广泛使用的。主要因为其构建成本低,且适配主流的AI技术栈。但未来,Agentic应用会向业务纵深渗透,向聚焦规划执行的方向发展,这就要求数据智能有足够的精确度、一致性和可解释性。因此,本体论会成为Agentic AI发展的重要角色,形成“LLM+向量+本体论+上下文工程”的开发新范式。

    3. 用一个例子解读本体论的落地


    我们用银行的经典业务——企业信贷审批来解读本体论的落地实践。在这个场景中,我们可以把本体论理解为 《信贷业务数据标准与规则白皮书》 ,把知识图谱理解为 《某个企业客户及其所有关联方的全景关系档案》。

    第一步:定义本体,制定数据规则

    在银行启动信贷业务之前,必须首先统一全行的语言规则”,这就是构建本体论的过程。它不关心具体客户的数据,只关心概念的定义和关系的逻辑。

    银行信贷场景的本体论会定义如下内容:

    此时还没有任何具体客户的数据,我们只是制定了一套严谨的数据规则,未来所有的数据都必须遵守它。

    第二步:在本体论的基础上构建知识图谱,建立客户档案库

    现在,银行开始录入具体的客户和业务数据。这些数据严格按照第一步制定的本体论来组织和存储,最终形成充满实例数据的知识图谱。

    假设甲公司来申请贷款,知识图谱中会存入如下事实(实例):

    基于规则,这个图谱描绘了甲公司的信贷全貌:

    第三步:应用图谱,进行贷款审批

    贷款风控调查员的任务是评估甲公司的贷款风险。在没有图谱的情况下,需要登录多个孤立系统——客户管理系统查基本信息、征信系统查信用、财报系统查报表、工商信息系统查股权结构,然后手动在Excel里进行关联分析,费时费力还容易遗漏。

    而基于本体论,调查员可以直接在知识图谱上进行关联关系查询。系统通过推理和查询,可以瞬间返回:

    • 直接风险:“甲公司”自身资产负债率为85%,根据本体论规则,自动标记为“高风险”
    • 关联风险: 发现甲公司通过一个复杂的股权链,间接控股了乙公司。而乙公司有一笔来自本行的贷款贷款2022”已经逾期
    • 担保物风险:抵押物厂房A”同时也被另一笔贷款贷款2023”作为了担保物(重复抵押风险)

    4. 基于本体论的知识图谱 vs 直接构建知识图谱的区别


    上面是一个简单的本体论落地案例,只是为了说明本体论参与数据智能的方式,这种简单案例很难全面体现本体论参与的优势。

    我们再进一步讨论下,通过完整的本体论构建知识图谱,与直接构建知识图谱的区别,可以比喻为:构建一个建筑物先设计蓝图再动手搭建”  “直接开始动手搭建的区别。

    使用本体论构建知识图谱,是先请建筑师画出详细的施工蓝图,明确承重墙、梁柱结构和管线布局,然后再按图施工。虽然前期投入更大,但最终得到的是一个结构稳固、功能清晰、易于扩建和维护的现代化大厦。有了这个蓝图,可以避免语义分歧,数据定义分歧,关联关系分歧等问题,使得图谱更具备一致性、扩展性,并且可以跨机构使用。

    沿用贷款审批案例:假设银行收到一笔来自甲公司的贷款申请,基于本体论,我们可以进行深度推理和风险分析。

    基于本体论的推理:

    银行信贷审批系统可以自动生成风险报告,提示: “甲公司为张三控制的企业集团成员之一,该集团内企业乙公司已有贷款逾期,且甲公司本次贷款由关联公司丙公司提供担保,属于关联担保,风险缓释效果较弱。综合建议:提高风险等级,要求追加非关联第三方担保或抵押物。

    而如果基于一个忽略本体论构建的知识图谱,机器只能完成非常简单的推理:

    这对生成风险报告是远远不够的,剩余的推理工作依然要耗费风控调查员大量时间来完成。

    Agentic AI已经成为AI应用的主要发展方向,它通过构建感知决策– 执行学习闭环,突破了传统AI的被动响应模式。

    构建Agentic AI需要实现思考与规划能力,能拆解目标、制定多步骤计划,并进行多个Agent动态协作,形成“AI 团队,完成最终目标,而非单一任务,同时可以根据环境变化灵活调整策略。因此,推理的严谨性、可解释性以及任务执行逻辑的一致性是Agentic AI要解决的核心问题,而本体论这个技术体系恰好可以很好的解决。

    本体论通过标准化知识表示消除协作歧义,通过符号逻辑推理强化决策严谨性,通过结构化追溯提升解释能力,通过动态约束保障执行一致性,为Agentic AI构建了从目标拆解计划制定协作执行环境适配全流程的技术支撑框架。

    “LLM+向量+本体论+上下文工程这个开发新范式值得每一个AI开发者重视。


    #artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}