导入文档到知识库
最后更新:2025-09-02
指南
本指南说明如何把已有资料(论文、条款、研究笔记、报告等)导入到 Notez 的本地知识库,并让它们被 AI 检索、引用、续写与对话调用。
1. 支持的文件格式
类型 | 扩展名 | 说明 |
---|---|---|
文本 | .md / .mdx / .txt | Markdown 建议优先(结构清晰) |
办公 | .docx / .doc | 仅正文(复杂样式会被简化) |
会提取可选文本层;扫描件需自行 OCR 后导入 | ||
结构化 | .csv / .json (规划中) | 即将支持;用于表格/结构数据 |
注意:加密 PDF、图片扫描无文字层、受 DRM 保护的文件无法索引(需先转换)。
2. 三种导入方式
2.1 拖拽导入(最快)
- 在应用中打开「知识库」模块
- 直接将文件或文件夹拖入窗口
- 弹出任务队列 → 显示解析 / 分片 / 向量化进度
适合:临时批量导入、桌面已有整理好的目录。
2.2 按钮选择导入
- 点击「上传文件」或「上传文件夹」
- 在系统选择器中多选(Cmd/Shift 支持范围与离散选择)
- 确认后加入解析队列
适合:精确挑选少量文件。
2.3 目录同步(持续更新)
- 点击「添加同步目录」
- 选择一个本地文件夹
- 开启后:新增 / 修改 / 删除 会被监听并同步索引(延迟数秒)
适合:长期维护的项目仓库 / 研究文献目录。
提示:移动或重命名大量文件可能触发重建;建议在空闲时段操作。
3. 索引过程说明
导入后会进入内部流水线(按文件逐步执行):
- 解析(Parsing):解码文本、清理多余格式
- 结构抽取(Structure):尝试识别标题、列表、分节(Markdown/Docx 最佳)
- 分块(Chunking):按语义或长度切片(避免超长输入)
- 向量化(Embedding):生成向量表示(取决于是否已配置嵌入模型)
- 建立倒排索引(Keyword Index)
- 附加分析(可选):摘要 / 主题标签(开启深度搜索时)
状态指示:
- 等待中 / 解析中 / 索引中 / 已完成 / 失败
失败常见原因:文件损坏、无文本层、编码错误。
6. 更新与删除策略
一旦上传,Notez不会执行任何的更新或者删除,除非用户手动操作。
7. 隐私与本地性
- 所有原始文件、解析缓存、向量均存储于本地应用数据目录
- 仅在调用外部大模型时,将相关上下文片段(截断后)随请求发送
- 未开启模型配置时,只建立关键字索引(功能受限但完全离线)
8. 与 AI 功能的联动
功能 | 使用导入成果方式 |
---|---|
智能续写 | 自动检索相似片段并融合 |
Chat 问答 | 基于向量召回 + 关键词过滤 |
引用溯源 | 返回片段 + 原文件名 + 标题锚点 |
选中文本增强 | 反向检索上下文提供补充证据 |
若某文件未被引用:检查是否完成嵌入构建。
9. 常见问题 (FAQ)
Q: PDF 乱码?
A: 可能是图片扫描或自定义字体。先用 OCR(如 ocrmypdf
)转换为可选文本。
Q: 新增文件很晚才出现?
A: 查看队列是否堆积;大文件 / 并发多时会排队。可暂停再重排优先级(规划中)。
Q: 重复内容太多影响检索?
A: 可在设置中开启「重复分片折叠」。或手动合并零散笔记。
Q: 未配置嵌入模型还能用吗?
A: 只能关键词检索,不支持语义相关、引用智能排序。
Q: 删除源文件后引用还在?
A: 旧引用会显示为失效(标记),点击可触发清理。
10. 故障排查速览
症状 | 排查步骤 |
---|---|
全部导入失败 | 检查磁盘权限(macOS 系统设置 > 隐私 > 文件与文件夹) |
单文件失败 | 在日志面板查看解析错误;尝试转存为 UTF-8 |
向量化卡住 | 是否已正确配置嵌入模型 URL / Key / 模型名 |
Chat 不引用本地 | 检查片段数量是否为 0;是否没有选中「右侧的参考文献」 |
速度慢 | 减少并发;拆分超大 PDF;关闭暂不需要的深度搜索 |
11. 最佳实践清单
- 初次导入:先整理目录再批量同步,避免后期频繁重构
- 优先 Markdown:结构信号最好,模型引用更精准
- 统一标签风格:英文小写 + 连字符,如:
deep-learning
,contract-law
- 定期清理陈旧版本,避免语义冲突
12. 下一步
完成导入后,可以继续:
- 试用智能检索:输入自然语言问题观察结果
- 在文档中调用续写,验证引用是否准确
- 配置多个模型对比响应质量
—— 以上即为导入与索引流程