知识库帮助手册

概述

📘 知识库是为大模型提供外部知识支撑的核心组件。通过上传企业文档、网页或结构化数据，系统自动完成解析 → 切片 → 向量化 → 上下文增强 → 检索索引，让模型在回答问题时引用真实资料，而不仅依赖内部记忆。📋 核心价值：

提升回答准确性与专业度
降低模型幻觉风险
支撑企业级知识问答、FAQ、客服系统、产品文档中心、研发资料库等场景

功能特性

多源知识接入：支持多种文档格式和数据源
智能内容切片：自动拆解为语义完整的知识单元
高效语义向量化：精准捕捉深层语义信息
自动索引构建：毫秒级检索响应速度
灵活召回策略：融合多种检索方式
上下文增强：重建语义关联和逻辑推理

功能模块	核心能力
多源知识接入	支持多种主流文档格式，无需手动转换格式 PDF/DOC/DOCX/PPT/PPTX/XLS/XLSX/CSV/TXT/MD 实时抓取并消化指定网页内容，自动同步更新。直接对接飞书等协作工具，将团队动态知识纳入体系。
智能内容切片	提供多种切片策略，长文档智能拆解为语义完整的知识单元。支持自适应切片大小，确保每个片段既不过于零散，也不过于冗长。可选的图片理解模块，让图表信息也能参与检索。
高效语义向量化	采用业界出色的嵌入模型，将文本转化为高维度的语义向量。内置多语言支持，能够跨越语言障碍，理解并关联不同语种的知识。
自动索引构建	提供默认索引方案，也支持根据数据特点进行自定义配置。引入AI自动构建索引的能力，动态优化索引结构以适应数据变化。
灵活召回	融合关键词、向量语义等多种召回策略，确保查全和查准。提供参数动态调优的可视化界面，轻松找到最适合业务的配置。构建知识检索体验中心，用于评估和迭代不同策略的效果。
上下文增强	为孤立的文本切片重建上下文，补充章节、标题等隐含信息。自动补全片段中缺失的关联信息，让AI能够进行跨段落的推理。专门优化对需要结合上下文理解的复杂问题的处理。
标签过滤	支持文本、选项、日期三类标签体系 AI智能识别文本并自动生成推荐标签。
QA干预	允许建立问答对知识库，作为问答的权威参考。在检索时优先匹配并返回已设定的标准QA知识。
图片召回	赋予系统理解图片、图表、流程图内容的能力。建立文本描述与图片内容之间的深层关联，实现图文对齐。
重排序机制	初步召回的多个候选结果，应用更精细的排序模型进行二次筛选。动态调整最终结果的展示顺序。

快速上手

知识库提供“一次上传，多次调用”的知识管理模式：

创建知识库：定义知识库的基本信息、描述、分类和上下文增强策略。
上传文档：上传本地文件、飞书文档或网页链接，系统自动解析并分片。
数据处理：系统会完成文档切片、上下文增强、向量化等操作。
知识检索：根据用户问题检索相关切片，在智能体中使用知识问答时将基于检索结果生成回答。

Step 1：创建知识库

进入知识库页面，点击右上角【创建知识库】。操作页面

知识库版本（系统自动识别）

增强版	QA版	普通版
开启上下文增强功能并创建的知识库在已开启上下文增强的知识库中上传问答对时，系统自动识别为 QA 版，此时上下文增强不对 QA 内容生效使用场景：复杂问题查询；文档含复杂图文；支持语义补全或指代增强等高精度场景	导入的知识为问答对格式的知识库在已开启上下文增强的知识库中上传问答对时，系统将自动识别为 QA 版，此时上下文增强不生效使用场景：精准匹配问题与答案；回答速度快，提供确定性答案	未开启上下文增强功能，且导入知识非问答对格式的标准知识库使用场景：简单信息查询；不需要上下文理解的基础知识提供；文档或资料的直接查询

配置项	说明
图标	为知识库选择独特图标，便于快速识别和管理
知识库名称	清晰、唯一的命名，支持中英文、数字及常用符号
向量化模型	Embedding-3-pro（推荐）：性能最强，支持多语言（0.5元/百万 Tokens） Embedding-3：性能均衡，适用于多数场景（0.5元/百万 Tokens） Embedding-2：基础模型（0.5元/百万 Tokens）
分类	将知识库归入指定分类，方便结构化管理
描述	填写知识范围、用途等信息，建议详细填写以便模型调用
上下文增强	启用后保留文档中的关键语义与指代信息，提升复杂问答效果。重要说明：启用后会增加数据处理的Tokens消耗和时间，请确认资源充足启用后，知识库将标记为【增强版】，享有更强的检索能力此操作不可逆，启用后无法回退至普通版所有新上传至该知识库的文档都将自动应用此增强处理

重要说明：启用上下文增强后会增加数据处理的Tokens消耗和时间，此操作不可逆，启用后无法回退至普通版。

Step2：上传知识

点击【上传知识】按钮开始上传流程
根据知识源类型选择相应的上传方式
完成上传后，可在文件夹中进行预览、分类和筛选操作
注意监控存储空间使用情况，避免超额费用
通过合理组织和上传知识，您可以构建结构清晰、检索高效的知识库系统。

支持的知识源

知识源	核心能力	关键注意事项	最佳实践
本地文档	支持主流办公文档格式：PDF, DOC/DOCX, PPT/PPTX, XLS/XLSX 支持纯文本与结构化数据：CSV, TXT, MD	单个文件大小建议不超过100MB	首选PDF格式：PDF能最佳地保留原始版式和图文结构，确保AI最精准地解析内容保持格式规范：对于Word、Excel等文件，清晰的标题、段落和表格结构有助于提升解析质量
飞书文档	动态关联飞书云文档，实现内容自动同步与更新	需要按照指引完成授权关联，确保系统有读取权限。详见知识库接入飞书文档https://zhipu-ai.feishu.cn/wiki/ULBawOiydiuD4fktiSVcgCzonwm	确保访问权限：为保证稳定同步，请确保关联的飞书文档具有长期有效的访问权限定期内容维护：在飞书端定期更新和梳理文档，知识库将自动保持最新
网页链接	支持批量导入URL，自动抓取并消化网页的静态文本内容	仅抓取页面的静态内容，无法处理需要登录或复杂交互后才显示的数据暂不支持对目标网页进行多层级的深度爬取	确保URL可访问：提供公开、有效的URL。批量导入时，请注意分隔符格式的正确性适用于信息聚合：最适合抓取新闻、博客、产品手册等结构相对固定的公开网页
问答对 (Q&A)	上传标准问答对，建立一个高优先级、权威的答案层当用户提问与Q&A中的问题高度匹配时，系统将直接返回您设定的标准答案，实现精准、快速的应答	导入Q&A后，该知识库将被标记为 QA版，并专用于存储问答对，无法再混合上传普通文档 QA版知识库为实现最高响应速度，不应用”上下文增强”功能	两种核心用法：构建独立FAQ库：创建一个专门的QA知识库，用于高效回答常见、高频问题作为”答案干预层”：在测试其他知识库时，可开启QA干预。系统会优先从您的QA库中寻找权威答案，若未命中，再到文档中进行语义检索。这是确保关键问题答案准确性的最佳方式

存储与计费

默认空间上限：1 GB
超出容量计费：0.04元/GB/小时
操作建议：监控存储空间使用情况，避免超额费用

Step 3：知识处理

处理流程

处理阶段	用户选项	说明
文档解析与图片解析	自动处理	自动识别文档的标题、段落等结构提取文档的格式信息保存重要元素，无需用户干预图片解析需开启白名单
切片策略应用	基础/高级模式	将文档分割为知识小单元两种模式：基础：系统自动选择最佳切片方式高级：可自定义切片规则
上下文增强处理	自动处理（增强版）	解决单独文本片段信息不完整的问题建立各片段间的联系建议开启此功能以提高复杂问题的回答质量
切片向量化	自动处理	将文字转换为向量（数学表示）自动进行，无需用户操作为相似内容查找建立基础
处理状态指示	实时反馈	状态显示：处理进度会实时显示完成通知：所有步骤完成后会提示”数据完成” 立即可用：处理完成即可开始知识检索测试处理时间：一般10MB文档约需1-3分钟，取决于内容复杂度错误处理：如遇数据异常，可点击”重试”按钮

处理状态

处理阶段	核心价值与系统行为	用户配置
文档智能解析	核心价值：精准识别文档的内在结构（如标题、段落、表格、列表），并提取核心图文信息，最大程度地还原文档的原貌。系统行为：自动化解析，保留关键格式与元素。此过程全自动进行，无需用户干预。如需系统深入解析图片中的内容（如图表、流程图），请在文档的高级设置中开启图片解析功能。	无需配置（自动处理）
语义单元切片	核心价值：将长文档智能拆解为一个个语义完整、大小适中的知识片段。这是确保高精度召回和生成高质量、逻辑连贯答案的关键一步。系统行为：根据选定策略进行内容分割。提供两种灵活的模式：基础模式：系统根据文档特性，自动采用最优切片策略高级模式：支持您根据专业需求，自定义切片规则	选择切片模式（基础/高级）
上下文关联增强	核心价值：为独立的知识片段重建其原始上下文，建立段落间的逻辑关联。这是系统能够进行深度推理、回答需要结合前后文的复杂问题的核心能力。系统行为：构建知识片段的上下文内容。此功能在您创建”增强版”知识库时自动启用。启用后，系统才能真正理解并回答跨段落的复杂提问。	创建时选择是否启用上下文增强
语义向量化	核心价值：将所有文本片段转化为高维度的数学向量，使其能被计算机理解和比较。这是实现”用自然语言提问，找到最相关内容”的技术基石。系统行为：调用向量化模型进行计算。此过程基于您选择的向量化模型全自动完成，无需任何操作。	选择向量化模型（创建时配置）
处理状态反馈	核心价值：提供清晰、实时的处理进度反馈，让您对数据处理的每个环节了如指掌，并能预估完成时间，提升操作的确定性。系统行为：监控处理队列和任务状态。状态显示：处理进度会实时显示完成通知：所有步骤完成后会提示”数据完成” 立即可用：处理完成即可开始知识检索测试处理时间：一般10MB文档约需1-3分钟，取决于内容复杂度错误处理：如遇数据异常，可点击”重试”按钮	无需配置（自动反馈）

Step4：知识检索测试

功能模块	核心能力	最佳实践
知识检索	实时效果验证：输入问题，立即查看系统召回的知识片段和相关性鲁棒性测试：对比不同提问方式（如改变措辞、增加背景）下的检索效果多库横向对比：快速切换不同知识库，验证各自的表现贴近真实场景：使用来自您真实业务场景的问题进行测试，以检验实际应用效果探索提问边界：尝试用多种方式提问，包括模糊、复杂、甚至错误的表述，以测试系统的鲁棒性参数自动保存：系统会自动保存您在当前知识库下的调试参数。切换知识库后，可随时【重置为默认参数】	关注高分片段：首先检查相关度得分最高的片段，看其内容是否准确、完整。这是判断检索质量最直接的方式基于分析进行迭代：如果高分片段不准确，尝试调整参数（如阈值）或优化提问方式
参数调优	精细化控制检索行为：召回方式：选择不同的检索策略（如语义优先、关键词混合）召回分数：调整分数门槛，决定只召回”高相关”内容，还是”尽可能多”的内容召回数量：控制返回给模型进行最终回答的知识片段数量重排模型：启用二次排序模型，对初步召回的结果进行精选，提升顶部结果的准确性 QA干预：决定是否优先使用QA版知识库的权威答案知识范围：在特定分类或标签下进行限定范围的检索	调高阈值 → 答案更精准，但可能漏掉一些相关性稍弱的信息调低阈值 → 答案更全面，但可能引入一些不相关的噪声平衡精度与广度：根据您的业务需求（例如，客服机器人需要高精准，研究分析需要高召回），找到最佳的参数平衡点
结果分析	溯源与诊断：清晰地查看每个答案背后引用的原始文档片段（知识切片）量化评估：分析每个召回片段与问题的相关度得分，理解系统决策的依据对比洞察：直观对比不同参数设置或不同提问方式下，召回片段的差异	关注高分片段：首先检查相关度得分最高的片段，看其内容是否准确、完整。这是判断检索质量最直接的方式基于分析进行迭代：如果高分片段不准确，尝试调整参数（如阈值）或优化提问方式

参数调优指南

参数类型	子参数	具体描述	调优建议
召回方式（这决定了系统如何在知识库中查找信息）	1. 混合检索（推荐使用）	作用：同时使用语义理解和关键词匹配两种方式查找信息优势：既能理解问题含义，又能精确匹配关键术语向量检索占比：通过滑块调整语义理解的重要性向右拖动（接近1）：更注重理解问题的实际含义向左拖动（接近0）：更注重匹配问题中的确切词语建议初始值：0.8（适合大多数情况）索引方式：此功能为白名单功能，可联系商务/客服开通。系统使用文档的原始内容或您自定义内容建立检索索引，如为自建索引则无需额外操作，默认使用原文索引	向量检索占比建议初始值0.8，可根据需求调整
	2. 向量检索	作用：将问题转换为数学向量，寻找语义相似的内容适用场景：当您提问的方式与文档表述不完全一致时示例：“如何处理客户投诉”能匹配到”用户抱怨解决方案”的内容索引方式：此功能为白名单功能，可联系商务/客服开通	适用于问题表述与文档不一致的场景
	3. 关键词检索	作用：直接查找包含您输入词语的文档适用场景：查找包含特定术语、产品名称或代码的内容示例：搜索”A360产品规格”将精确查找包含这些词的文档	适用于查找特定术语、产品名称或代码
召回分数	最低相关度分数	含义：检索结果必须达到的最低相关度分数（0-1之间）效果：提高数值（接近1）：结果更精确但可能召回的内容较少降低数值（接近0）：结果更多但可能召回的内容不太相关建议使用默认设置：0.3	建议使用默认设置：0.3
召回数量	最大返回结果数	含义：系统最多返回多少条匹配结果建议：简单问题：设置较小数值复杂问题：设置较大数值以获取更全面信息	简单问题设置较小值，复杂问题设置较大值
重排模型（结果重排序）	二次排序	功能：对初步检索结果进行二次排序，将最相关的内容排在前面建议：对于重要查询建议开启，能提高结果质量	重要查询建议开启
QA干预	QA优先匹配	功能：允许系统优先从QA知识库中提供回答，若QA未召回，则继续根据召回分数和召回数量进行标准召回，如同时开启重排和QA干预，QA干预命中后重排不生效，重排只对标准召回策略生效适用情景：有常见问题需要标准化回答时设置步骤：开启右侧开关设”干预阈值”（推荐初始值：0.60）选择或创建QA知识库点击”创建”可添加新的问答对知识库从下拉菜单选择已有知识库	适用于有标准化回答的常见问题
文件范围控制	按标签筛选	功能：限制只在带特定标签的文档中搜索操作方法：开启右侧开关点击”筛选条件”按钮在弹出的界面中选择需要包含或排除的标签标签设置需在文档列表页操作适用场景：当知识库内容多样，需要在特定领域内查找时	适用于需要在特定领域内查找的场景

三、主要功能介绍

1. 上下文增强

🏅 上下文增强是一项先进的RAG流水线预处理技术，通过为孤立的知识切片添加强上下文信息，使切片恢复其在原文中的语义关联，从根本上提升检索质量和问答准确性。

技术维度	实现方式	优势效果
工作原理	为每个知识切片生成简洁精准的上下文说明将上下文与切片共同用于嵌入索引构建实现知识切片间的语义桥接	还原知识的原始语义环境弥补切片分割导致的语境丢失模拟人类整体阅读理解方式
技术架构	智能上下文生成引擎增强型双重索引机制(向量+BM25) 自适应语义关联网络	减少信息孤岛效应提升跨片段推理能力加强知识间隐性联系

开启步骤：

进入【创建知识库】/【知识库编辑】界面。
在创建或编辑知识库时，找到并启用【上下文增强】开关。
保存设置。此后所有新上传的内容都将自动应用增强处理。

重要注意事项 (请在开启前仔细阅读):

这是一个单向操作：知识库一旦升级为“增强版”，将无法回退到标准版。这是因为我们重构了其底层的数据结构。
会产生额外成本：该功能需要消耗更多的计算资源进行深度处理，因此会产生额外的计算费用。其价值在于大幅提升检索质量，尤其适合对准确性和完整性有高要求的场景。
存量数据需要重新处理：对已有的知识库开启此功能，系统需要对库内所有文档进行一次性的重新处理，根据数据量大小，可能需要一些时间。

2. 切片策略

切片方式	支持格式	示例结构	技术特点	最佳应用场景
按段落标题	PDF、DOCX、TXT、MD	一、概述 1.1 背景介绍	智能识别标题层级结构保留完整语义单元维持原文逻辑组织	层级分明的技术文档规章制度与政策条款结构化教学材料章节清晰的产品手册
按页切片	PDF、PPTX	每页为一个知识单元	保留完整页面布局维持图文位置关系简化处理逻辑	固定格式的报告文档幻灯片演示内容图表密集的分析报告布局信息重要的材料
按问答对	DOCX、TXT、MD	问题+答案结构	精准捕捉QA语义关系优化问答匹配度保持完整答案上下文	FAQ知识库客服问答手册培训测验材料常见问题解答集
按行切片	CSV、XLSX	每行记录一条知识	保留行级数据完整性优化结构化数据检索适合固定格式内容	数据表格清单型文档记录集合固定格式日志
自定义切片	所有文本类	自定义分隔符，如 ===	最大灵活度适应非标准文档结构支持特殊语义边界	混合格式文档特殊分隔符文本非常规结构内容需精确控制切片大小

3. 切片管理

功能项目	具体描述	备注
查看切片	支持查看单个知识片段的完整内容，包括系统为其生成的上下文增强信息，让您清晰了解AI在回答问题时到底”看”到了什么。
原文定位	在原文预览中，系统会自动高亮并滚动到该片段的原始位置，方便您快速溯源和核对。
编辑切片	直接编辑知识片段的文本内容或其上下文描述，以纠正系统解析的错误或更新过时的信息。
上传图片	支持在知识片段中上传图片（如图表、示意图）。上传后，系统将自动处理该图片，使其能被未来的检索查询到。
新增切片	允许您在文档中手动创建一个全新的知识片段，以补充系统未能自动抓取到的”隐性知识”或关键信息。支持直接从原文中复制内容。

4. 图片解析

此功能为白名单功能，可联系商务/客服开通。

当前支持对 PDF、DOCX、XLSX文件中的图片进行解析，功能包括：

处理模式	技术机制	应用场景	资源消耗	效果预期
过滤图片	完全忽略图像内容仅处理文本部分	纯文本为主的知识库图片内容不重要需优化处理速度	⭐最低	返回内容无图像处理速度最快
图片占位符	图像位置标记保留不解析图像内容生成特殊引用标识	图片位置重要需引用但不需解析图片多为辅助说明	⭐⭐低	模型可了解图片存在答案中可插入原图无法基于图内容回答
多模态图片理解	深度学习图像分析提取图像语义特征	图片包含关键信息需理解图表与图示专业文档与技术手册全面的知识获取需求	⭐⭐⭐较高	图片内容参与检索可直接回答图内问题理解图文关联语境

实施建议：对于含有大量图表、流程图或技术图示的专业文档,建议使用多模态图片理解模式,尽管处理资源消耗较高,但能显著提升回答质量。对于图片数量多但内容价值低的文档,可采用图片占位符模式平衡资源和效果。在测试阶段,建议先尝试不同处理模式并评估对最终问答质量的影响,再确定最佳配置。

5. 文档标签

功能维度	技术参数	实现价值
标签上限	每知识库最多50个标签	提供足够的分类维度，同时防止过度复杂化
标签类型	选项型(预设值) 文本型(自由输入) 日期型(时间标记)	满足不同数据分类需求，提供结构化检索基础
生成方式	手动添加(精确控制) AI自动生成(效率优先)	平衡精确度与便捷性，适应不同建库场景
系统集成	与知识检索引擎深度融合	实现语义+标签混合过滤，提升检索精准度

实施建议：在初始构建知识库时，建议先设计标准化的标签体系，确保命名一致且具有业务意义。对于大型知识库，可先使用AI自动生成标签作为基础，再由专业人员审核优化。定期检查和更新标签体系，以适应业务变化需求。标签名应简洁明确，避免使用太过通用或模糊的术语，确保其在检索时能提供有意义的过滤价值。

6. QA干预

功能维度	具体说明
QA知识库定位	专为精准问答设计的特殊知识库
内容组织方式	结构化问答对(Q&A pairs)，每个问题对应一个明确的标准答案
召回优先级	系统首先尝试从QA知识库中匹配并提供回答仅当QA知识库未能找到匹配答案时，才会继续使用标准召回方式标准召回基于召回分数和召回数量进行优化排序
与重排功能的关系	当同时开启重排和QA干预时，QA干预拥有更高优先级 QA干预命中后，重排功能不再结果生效重排功能仅对标准召回路径的结果生效
与非QA知识库协作	双层召回机制，形成优先QA匹配、备选标准召回的完整解决方案
适用场景	有固定标准答案的常见问题处理客服FAQ系统需要保证关键问题回答一致性的场景希望某些特定问题获得精准固定回答的业务需求
设置步骤	开启功能：在检索参数面板找到QA干预选项将右侧开关切换至开启状态设置干预阈值：设置”干预阈值”参数（推荐初始值：0.8）阈值越高，匹配要求越严格，只有高相似度的问题被召回阈值越低，匹配更宽松，将从QA知识库召回更多结果选择或创建QA知识库：方法一：点击”创建”按钮添加新的QA知识库方法二：从下拉菜单中选择已有的QA知识库

实施建议：在构建QA知识库时，建议从用户实际提问数据出发，优先添加高频问题和关键业务问题。保持问题表述自然，与用户实际提问方式一致，避免过于技术化或形式化的表述。定期审查QA匹配数据，将频繁触发但匹配度不高的问题进行优化。对于复杂领域，考虑构建多个专题QA知识库，并根据问题特点选择性关联，提高答案精准度和系统效率。

四、知识库管理

操作类型	说明
查看知识库	查看详细信息与文档结构
编辑知识库	修改名称、描述、图标、模型或上下文增强设置
复制知识库	复制当前知识库
删除知识库	永久删除，无法恢复
知识库内文件操作	预览、重命名、更新（URL类可重新抓取）、删除、下载等
切片操作	查看、编辑、删除或手动新增知识切片

五、常见问题

错误类型	可能原因	解决方案	预防措施
上传失败	文件超出100MB 格式不受支持网络连接不稳定	拆分大文件转换为支持格式检查网络并重试	预处理大文件事先检查格式兼容性使用稳定网络环境
切片异常	文档结构复杂格式混乱特殊字符干扰	重试调整切片策略	优化文档结构预先规范化处理
向量化失败	模型额度不足服务暂时性故障内容超出处理能力	检查账户余额购买资源包等待服务恢复后重试	监控配额使用情况预留足够的资源分批处理大量文档
检索为空	检索关键词不匹配召回参数设置不当文档未完全向量化	调整召回参数启用上下文增强优化检索关键词检查文档状态	定期测试检索效果构建多样化测试集优化文档切片策略

✨让知识更智能，让回答更可信。立即创建你的知识库，开启高质量智能问答体验。

错误类型	可能原因	解决方案	预防措施
上传失败	文件超出100MB 格式不受支持网络连接不稳定	拆分大文件转换为支持格式检查网络并重试	预处理大文件事先检查格式兼容性使用稳定网络环境
切片异常	文档结构复杂格式混乱特殊字符干扰	重试调整切片策略	优化文档结构预先规范化处理
向量化失败	模型额度不足服务暂时性故障内容超出处理能力	检查账户余额购买资源包等待服务恢复后重试	监控配额使用情况预留足够的资源分批处理大量文档
检索为空	检索关键词不匹配召回参数设置不当文档未完全向量化	调整召回参数启用上下文增强优化检索关键词检查文档状态	定期测试检索效果构建多样化测试集优化文档切片策略

开始使用

模型介绍

模型能力

模型工具

GLM 全模态知识库

智能体

平台服务

概述

功能特性