diff --git a/docs/zh/docs/dak/user-guide/corpus/create-corpus.md b/docs/zh/docs/dak/user-guide/corpus/create-corpus.md index b907fbb..4689994 100644 --- a/docs/zh/docs/dak/user-guide/corpus/create-corpus.md +++ b/docs/zh/docs/dak/user-guide/corpus/create-corpus.md @@ -9,12 +9,12 @@ hide: 2. 参考下列要求填写语料库基本信息,并点击 **下一步** 。 - * 语料库名称:名称包含大小写字母、数字和符号(限制20个字符)。 + * **语料库名称**:名称包含大小写字母、数字和符号(限制20个字符)。 - * 向量化模型服务:可选择 `bge-large-zh` 和 `bge-large-en`。 + * **向量化模型服务**:可选择 `bge-large-zh` 和 `bge-large-en`。 - * 访问级别:可选择公开/私有/指定工作空间。 + * **可见范围**:可选择公开/私有/指定工作空间。 - * 简介:简要描述语料库中的内容信息,可包含中英文、数字,(限制 100 个字符)。 + * **简介**:简要描述语料库中的内容信息,可包含中英文、数字,(限制 100 个字符)。 - ![创建语料库](./images/create-corpus.png) + ![创建语料库](./images/create-corpus.jpg) diff --git a/docs/zh/docs/dak/user-guide/corpus/format-update.md b/docs/zh/docs/dak/user-guide/corpus/format-update.md index ee7b9e5..f0a2f2a 100644 --- a/docs/zh/docs/dak/user-guide/corpus/format-update.md +++ b/docs/zh/docs/dak/user-guide/corpus/format-update.md @@ -14,4 +14,4 @@ hide: **格式化导入** 目前只支持 csv、xlsx 文件,并且要求文件内容格式如下。 如果是其他类型的文件,请正常使用上传数据的方式导入。 -![format-updte](./images/format-update.png) + ![format-updte](./images/format-update.png) diff --git a/docs/zh/docs/dak/user-guide/corpus/image-upload.md b/docs/zh/docs/dak/user-guide/corpus/image-upload.md index 3f880ec..767880a 100644 --- a/docs/zh/docs/dak/user-guide/corpus/image-upload.md +++ b/docs/zh/docs/dak/user-guide/corpus/image-upload.md @@ -1,4 +1,4 @@ -# 导入图文 +# 图文导入 在导入图文前,需要将导入的语料进行处理后再导入(目前仅支持 Word 和 Excel 的图文处理)。 @@ -24,40 +24,34 @@ Q:问题,A:答案。 对于 xlsx 文档,请按照模板要求整理,插图请尽量放一个在单元格中,尽量不要横跨几个单元格放置。 -## 处理语料 +## 生成图文语料 -### 准备环境 +1. 登录环境: https://console.d.run/ai-tools/lab? 密码:aitools。 -我们提供了基础镜像来处理图文:`release.daocloud.io/aigc/aitools:1.0` + ![登录环境](./images/picture4.jpg) -- `/home/aitools/input` 替换成实际输入文件的目录 -- `/home/aitools/output` 替换成实际输出处理后文件的目录 +2. 上传语料文件,进入目录 /app/corpus_processing/input 下,上传语料文件到此目录下。 -```shell -# 主机上创建输入、输出目录 -mkdir -p /home/aitools/output /home/aitools/input -chmod 777 -R /home/aitools/output /home/aitools/input + ![上传文件](./images/picture5.jpg) -# 运行常驻服务到后台 -docker run -d -p 8888:8888 --name aitools \ - -v /home/aitools/input:/app/corpus_processing/input \ - -v /home/aitools/output:/app/corpus_processing/output \ - -e JUPYTER_TOKEN=aitools \ - --restart=always release.daocloud.io/aigc/aitools:1.0 -``` +3. 点击运行代码。 -### 处理数据 + ![运行代码](./images/picture6.jpg) -1. 文件上传到预设的输入目录 `/home/aitools/input` +4. 下载生成图文语料文件。进行目录/app/corpus_processing/output 下载 zip 文件。 -2. 使用以下命令运行工具镜像中的脚本 + ![下载文件](./images/picture7.jpg) - ```shell - docker exec aitools sh run.sh - ``` +5. 清理环境。清理输入和输出文件,以及清理运行日志文件。 -### 导入处理好的文件 + ![清理环境](./images/picture8.jpg) + + !!! note + + 该环境为公共的环境,私有的语料文件操作后,建议执行清理环境操作。 + +### 导入下载的文件 1. 点击 **语料导入** -> **图文导入** -2. 将处理好的文件上传,并进行向量化,等待处理成功即可 +2. 将处理好的文件上传,并进行向量化,等待处理成功 diff --git a/docs/zh/docs/dak/user-guide/corpus/images/create-corpus.jpg b/docs/zh/docs/dak/user-guide/corpus/images/create-corpus.jpg new file mode 100644 index 0000000..8c80cc2 Binary files /dev/null and b/docs/zh/docs/dak/user-guide/corpus/images/create-corpus.jpg differ diff --git a/docs/zh/docs/dak/user-guide/corpus/images/create-corpus.png b/docs/zh/docs/dak/user-guide/corpus/images/create-corpus.png deleted file mode 100644 index 65a79d8..0000000 Binary files a/docs/zh/docs/dak/user-guide/corpus/images/create-corpus.png and /dev/null differ diff --git a/docs/zh/docs/dak/user-guide/corpus/images/manage-corpus.png b/docs/zh/docs/dak/user-guide/corpus/images/manage-corpus.png deleted file mode 100644 index 8ac7f1b..0000000 Binary files a/docs/zh/docs/dak/user-guide/corpus/images/manage-corpus.png and /dev/null differ diff --git a/docs/zh/docs/dak/user-guide/corpus/images/manage-corpus01.jpg b/docs/zh/docs/dak/user-guide/corpus/images/manage-corpus01.jpg new file mode 100644 index 0000000..864ed53 Binary files /dev/null and b/docs/zh/docs/dak/user-guide/corpus/images/manage-corpus01.jpg differ diff --git a/docs/zh/docs/dak/user-guide/corpus/images/manage-corpus02.jpg b/docs/zh/docs/dak/user-guide/corpus/images/manage-corpus02.jpg new file mode 100644 index 0000000..6e16dd5 Binary files /dev/null and b/docs/zh/docs/dak/user-guide/corpus/images/manage-corpus02.jpg differ diff --git a/docs/zh/docs/dak/user-guide/corpus/images/manual.jpg b/docs/zh/docs/dak/user-guide/corpus/images/manual.jpg new file mode 100644 index 0000000..f6ae4eb Binary files /dev/null and b/docs/zh/docs/dak/user-guide/corpus/images/manual.jpg differ diff --git a/docs/zh/docs/dak/user-guide/corpus/images/manual.png b/docs/zh/docs/dak/user-guide/corpus/images/manual.png deleted file mode 100644 index 90e718c..0000000 Binary files a/docs/zh/docs/dak/user-guide/corpus/images/manual.png and /dev/null differ diff --git a/docs/zh/docs/dak/user-guide/corpus/images/picture4.jpg b/docs/zh/docs/dak/user-guide/corpus/images/picture4.jpg new file mode 100644 index 0000000..74c6414 Binary files /dev/null and b/docs/zh/docs/dak/user-guide/corpus/images/picture4.jpg differ diff --git a/docs/zh/docs/dak/user-guide/corpus/images/picture5.jpg b/docs/zh/docs/dak/user-guide/corpus/images/picture5.jpg new file mode 100644 index 0000000..91d4d2a Binary files /dev/null and b/docs/zh/docs/dak/user-guide/corpus/images/picture5.jpg differ diff --git a/docs/zh/docs/dak/user-guide/corpus/images/picture6.jpg b/docs/zh/docs/dak/user-guide/corpus/images/picture6.jpg new file mode 100644 index 0000000..7f35acf Binary files /dev/null and b/docs/zh/docs/dak/user-guide/corpus/images/picture6.jpg differ diff --git a/docs/zh/docs/dak/user-guide/corpus/images/picture7.jpg b/docs/zh/docs/dak/user-guide/corpus/images/picture7.jpg new file mode 100644 index 0000000..6728b7a Binary files /dev/null and b/docs/zh/docs/dak/user-guide/corpus/images/picture7.jpg differ diff --git a/docs/zh/docs/dak/user-guide/corpus/images/picture8.jpg b/docs/zh/docs/dak/user-guide/corpus/images/picture8.jpg new file mode 100644 index 0000000..44ac28e Binary files /dev/null and b/docs/zh/docs/dak/user-guide/corpus/images/picture8.jpg differ diff --git a/docs/zh/docs/dak/user-guide/corpus/images/upload-data01.jpg b/docs/zh/docs/dak/user-guide/corpus/images/upload-data01.jpg new file mode 100644 index 0000000..f1b0ccc Binary files /dev/null and b/docs/zh/docs/dak/user-guide/corpus/images/upload-data01.jpg differ diff --git a/docs/zh/docs/dak/user-guide/corpus/images/upload-data02.jpg b/docs/zh/docs/dak/user-guide/corpus/images/upload-data02.jpg new file mode 100644 index 0000000..9161ad1 Binary files /dev/null and b/docs/zh/docs/dak/user-guide/corpus/images/upload-data02.jpg differ diff --git a/docs/zh/docs/dak/user-guide/corpus/images/upload-data03.jpg b/docs/zh/docs/dak/user-guide/corpus/images/upload-data03.jpg new file mode 100644 index 0000000..2b9d504 Binary files /dev/null and b/docs/zh/docs/dak/user-guide/corpus/images/upload-data03.jpg differ diff --git a/docs/zh/docs/dak/user-guide/corpus/images/upload-data04.jpg b/docs/zh/docs/dak/user-guide/corpus/images/upload-data04.jpg new file mode 100644 index 0000000..3f9d4e8 Binary files /dev/null and b/docs/zh/docs/dak/user-guide/corpus/images/upload-data04.jpg differ diff --git a/docs/zh/docs/dak/user-guide/corpus/images/upload-data05.jpg b/docs/zh/docs/dak/user-guide/corpus/images/upload-data05.jpg new file mode 100644 index 0000000..42504b2 Binary files /dev/null and b/docs/zh/docs/dak/user-guide/corpus/images/upload-data05.jpg differ diff --git a/docs/zh/docs/dak/user-guide/corpus/images/upload-date.png b/docs/zh/docs/dak/user-guide/corpus/images/upload-date.png deleted file mode 100644 index 7a57b4e..0000000 Binary files a/docs/zh/docs/dak/user-guide/corpus/images/upload-date.png and /dev/null differ diff --git a/docs/zh/docs/dak/user-guide/corpus/manage-corpus.md b/docs/zh/docs/dak/user-guide/corpus/manage-corpus.md index 95eb158..7c40176 100644 --- a/docs/zh/docs/dak/user-guide/corpus/manage-corpus.md +++ b/docs/zh/docs/dak/user-guide/corpus/manage-corpus.md @@ -10,8 +10,11 @@ hide: - 查看语料库中文件名称,向量化状态,文件分片数以及创建时间。 - 选择点击操作中 **导出** 按钮,可以将某一文件导出。 - 点击操作中 **删除** 按钮,可以将文件在语料库中删除。 + + ![语料库01](./images/manage-corpus01.jpg) + - 点击上方的 **文件分片** 进入到文件分片详情,可以查看文件的所有分块信息。 - 输入文件分片描述来搜索具体的分片,其中文本相似度用于衡量搜索内容和语料库中分块的相似度。这里用【欧氏距离】来作为相似度计算指标,故相似度越小,则距离越接近,文本越相似。 - 在文件分片中点击某一分片的 **┇** 按钮,即可编辑语料分片内容/删除某一分片。 -![语料库](./images/manage-corpus.png) + ![语料库02](./images/manage-corpus02.jpg) diff --git a/docs/zh/docs/dak/user-guide/corpus/manual.md b/docs/zh/docs/dak/user-guide/corpus/manual.md index fdf6bf2..321e5af 100644 --- a/docs/zh/docs/dak/user-guide/corpus/manual.md +++ b/docs/zh/docs/dak/user-guide/corpus/manual.md @@ -9,6 +9,6 @@ hide: 2. 点击 **手工录入** 后,会弹出 **新增文件分片** 弹框 -![manual](./images/manual.png) + ![manual](./images/manual.jpg) -在箭头位置录入信息,如对信息有备注可在附加分片文本中录入。 +在箭头位置录入信息,如对信息有备注可在附加信息中录入。 diff --git a/docs/zh/docs/dak/user-guide/corpus/upload-date.md b/docs/zh/docs/dak/user-guide/corpus/upload-date.md index 6dc18ed..5b4ad37 100644 --- a/docs/zh/docs/dak/user-guide/corpus/upload-date.md +++ b/docs/zh/docs/dak/user-guide/corpus/upload-date.md @@ -1,34 +1,39 @@ -# 文件导入 - -## 上传数据 +--- +hide: + - toc +--- -1. 点击语料库旁的 **┇** 按钮 +# 文件导入 -2. 点击 **语料导入** ,选择上传的数据 +1. 点击语料库旁的 **┇** 按钮,选择 **文件导入** 方式。 -3. 在导入数据界面,点击 **上传数据** + ![upload-data01](./images/upload-data01.jpg) - 选择自己想要上传的文件,目前支持 pdf、txt、docx、doc、csv、xlsx - 单个文件的大小不建议超过 50 M,文件上传数量限制为50个。 +1. **导入数据** :点击 **上传文件**,并选择文件分片的处理方式:标准处理、自定义处理(即插件处理,请到插件接入处查看) -4. 将文件上传完成后,可以在 **文件上传结果** 中查看 + ![upload-data02](./images/upload-data02.jpg) - ![upload-date](./images/upload-date.png) + !!! note -5. 上传成功后,点击 **下一步** + - 目前支持 pdf、txt、docx、doc、csv、xlsx 等格式,单个文件的大小不建议超过 50M,文件上传数量限制为 50 个。 + + - 分片规则之标准处理。 + + ```template + 1. PDF、TXT、DOC、DOCX 支持自定义分隔符; + 2. 设置分隔符,不设置分片大小,仅根据分隔符划分文档; + 3. 不设置分隔符,设置分片大小,仅根据分片大小拆分文档; + 4. 设置分隔符并设置分片大小,在分片大小内,最终根据分隔符匹配进行分割。 + ``` -6. 选择文件分片的处理类型:标准处理、自定义处理(即插件处理,请到插件接入处查看) +1. **分片预览** :预览分片是否正确,如果不正确可以回到上一步修改分片规则或文件内容。 -7. 数据向量化过程后,查看文件分片数量、重复分片数量、本次导入分片数以及向量化状态 + ![upload-data03](./images/upload-data03.jpg) -8. 当向量化处理成功后,点击 **下一步** +1. **数据向量化** :查看文件分片数量、重复分片数量、本次导入分片数以及向量化状态,当向量化处理成功后,点击 **下一步** -9. 待文件状态为文件处理完成后,点击 **关闭** 即可 + ![upload-data04](./images/upload-data04.jpg) -### 标准处理 +1. 待文件状态为文件处理完成后,点击 **确定** -- PDF、TXT、DOC、DOCX 支持自定义分隔符 -- CSV、xlsx 按照一行分片 -- 设置分隔符,不设置分片大小,仅根据分隔符划分文档 -- 不设置分隔符,设置分片大小,仅根据分片大小拆分文档 -- 设置分隔符并设置分片大小,在分片大小内,最终根据分隔符匹配进行分割 + ![upload-data05](./images/upload-data05.jpg) diff --git a/docs/zh/navigation.yml b/docs/zh/navigation.yml index 7080ea7..ede25cd 100644 --- a/docs/zh/navigation.yml +++ b/docs/zh/navigation.yml @@ -170,7 +170,7 @@ nav: - 创建语料库: dak/user-guide/corpus/create-corpus.md - 语料管理: dak/user-guide/corpus/manage-corpus.md - 语料导入: - - 上传数据: dak/user-guide/corpus/upload-date.md + - 文件导入: dak/user-guide/corpus/upload-date.md - 手动录入: dak/user-guide/corpus/manual.md - 图文导入: dak/user-guide/corpus/image-upload.md - 格式化导入: dak/user-guide/corpus/format-update.md