前言:RAG与知识索引
什么是知识索引?想象你走进一个巨大的企业资料库。知识索引就像这个资料库的“智能目录系统”,它把海量的文档、数据提炼成结构化、易查找的“地址簿”。AI通过它能迅速定位相关知识位置。
索引与RAG的关系RAG(检索增强生成)是让大模型回答问题的技术。它“问问题”时,知识索引就是RAG的“即时资料库”。RAG先查询索引,找出最相关的信息片段,再基于这些片段生成准确回答——索引为RAG提供精准弹药。
为什么必须构建索引?对企业意味着什么?
- 效率与成本: 企业知识库可能到达TB级,直接塞给大模型耗时费钱。索引预先组织信息,实现毫秒级检索。
- 准确性: 保证AI的回答牢牢基于企业最新内部知识(产品手册、客户案例等),避免“胡说八道”。
- 专业性:让通用大模型瞬间变身“企业专属专家”,解锁高质量内部知识问答。
如何创建语义检索索引

语义检索索引列表页
在【AI 平台管理——语义检索索引】中,支持查看和新建知识索引。其中每个构建好的知识索引都可以支持被AI助手,这个在后面也会讲到
新建知识索引
点击列表右上方的【新建】按钮,您需要先选择一下新建的索引类型

这里创建的类型分为【本地文档】和【业务对象】两类;
如果您的企业知识是通过PPT、Excel等形式维护的,可以直接通过【本地文档】进行上传
如果您希望基于当前系统的业务数据进行知识问答,或者企业的知识已经存入系统对象中,您可以选择【业务对象】,并支持将系统内容对象数据导入
本地文档
先介绍一下本地文档的上传能力,创建语义索引时本地文档类型

首先配置一下当前语义检索的基础信息,包括【名称】【描述】等
进入下一步后,上传需要创建语义索引的文件,并为文件设置分段配置

不同的文件类型有不同的分段配置选项

在分段完成后,可以预览分段的chunk内容
业务对象

业务对象索引构建分为【基础设置】【数据源设置】【索引字段设置】3步
第1步【基础设置】与【本地文档】上传类
第2步,在【数据源设置】中选择业务数据的范围

第3步,选择标题字段和知识内容字段,并配置内容字段的分段规则
不同类型的字段有不同的分段配置规则
标题字段和引入分块字段的内容会在添加到每个分段的chunk中(具体作用请参考下方的语义分段的策略介绍)

在分段完成后,可以预览分段的chunk内容

语义分段的策略介绍
这里简单介绍一些纷享在语义分段中的策略,以及这些策略如何作用于提高召回的准确性
分段中的标题
在对象分段时,需要选择标题字段,并且在文档分段时,文档的名称也会自动作为标题进入分段
在多路召回过程中,标题会影响chunk召回后的计算排序权重
比如用户的提问和标题高度相关,但是标题对应的内容却不是高度相关的分段,其内容也会被召回生成答案(大多数场景内容是和标题强相关的,但是由于内容的向量距离和用户的提问不符,通常不会被召回,加入标题召回就是为了解决这个问题)
文档分段中的层级
文档类型的语义索引配置,在用户配置分段配置的基础上,我们还会在所有的分段chunk上添加当前分段内容的文档层级(只要是有层级结构的文档)
层级信息可以给分段的内容增加层级关系和主题归属信息,提高召回的准确性和质量
如果用户的提问匹配到了某个层级的内容,其层级下面的所有分段内容都被召回并生成答案,从而提高召回率和精确率
如何使用语义检索索引
纷享的很多AI功能中都可以使用创建的语义检索索引对向量数据进行召回和生成
1.提示词模板的语义检索索引变量
在提示词模板中插入类型为语义检索索引的变量,选择一个具体的索引数据

给变量设置查询内容和返回数据条数

该变量返回语义检索索引的分段内容后,结合提示词生成文本

2.Agent 的RAG知识库操作
在操作库中添加RAG知识库类型的操作,并关联一个语义检索索引
该操作在Agent中会从上下文中提取用户查询的内容,从语义检索索引召回分段内容并生成文本返回给用户
