Merge pull request d-run#156 from yyyhhhh/corpus-new

语料库部分文档更新
windsonsea · Nov 26, 2024 · c993343 · c993343
2 parents 17c4edb + 4371125
commit c993343
Show file tree

Hide file tree

Showing 25 changed files with 58 additions and 56 deletions.
diff --git a/docs/zh/docs/dak/user-guide/corpus/create-corpus.md b/docs/zh/docs/dak/user-guide/corpus/create-corpus.md
@@ -9,12 +9,12 @@ hide:
 
 2. 参考下列要求填写语料库基本信息，并点击 **下一步** 。
 
-    * 语料库名称：名称包含大小写字母、数字和符号（限制20个字符）。
+    * **语料库名称**：名称包含大小写字母、数字和符号（限制20个字符）。
 
-    * 向量化模型服务：可选择 `bge-large-zh` 和 `bge-large-en`。
+    * **向量化模型服务**：可选择 `bge-large-zh` 和 `bge-large-en`。
 
-    * 访问级别：可选择公开/私有/指定工作空间。
+    * **可见范围**：可选择公开/私有/指定工作空间。
 
-    * 简介：简要描述语料库中的内容信息，可包含中英文、数字，（限制 100 个字符）。
+    * **简介**：简要描述语料库中的内容信息，可包含中英文、数字，（限制 100 个字符）。
 
-    ![创建语料库](./images/create-corpus.png)
+    ![创建语料库](./images/create-corpus.jpg)
diff --git a/docs/zh/docs/dak/user-guide/corpus/format-update.md b/docs/zh/docs/dak/user-guide/corpus/format-update.md
@@ -14,4 +14,4 @@ hide:
     **格式化导入** 目前只支持 csv、xlsx 文件，并且要求文件内容格式如下。
     如果是其他类型的文件，请正常使用上传数据的方式导入。
 
-![format-updte](./images/format-update.png)
+    ![format-updte](./images/format-update.png)
diff --git a/docs/zh/docs/dak/user-guide/corpus/image-upload.md b/docs/zh/docs/dak/user-guide/corpus/image-upload.md
@@ -1,4 +1,4 @@
-# 导入图文
+# 图文导入
 
 在导入图文前，需要将导入的语料进行处理后再导入（目前仅支持 Word 和 Excel 的图文处理）。
 
@@ -24,40 +24,34 @@ Q：问题，A：答案。
 
 对于 xlsx 文档，请按照模板要求整理，插图请尽量放一个在单元格中，尽量不要横跨几个单元格放置。
 
-## 处理语料
+## 生成图文语料
 
-### 准备环境
+1. 登录环境: https://console.d.run/ai-tools/lab? 密码：aitools。
 
-我们提供了基础镜像来处理图文：`release.daocloud.io/aigc/aitools:1.0`
+    ![登录环境](./images/picture4.jpg)
 
-- `/home/aitools/input` 替换成实际输入文件的目录
-- `/home/aitools/output` 替换成实际输出处理后文件的目录
+2. 上传语料文件，进入目录 /app/corpus_processing/input 下，上传语料文件到此目录下。
 
-```shell
-# 主机上创建输入、输出目录
-mkdir -p /home/aitools/output /home/aitools/input
-chmod 777 -R /home/aitools/output /home/aitools/input
+    ![上传文件](./images/picture5.jpg)
 
-# 运行常驻服务到后台
-docker run -d -p 8888:8888 --name aitools \
-    -v /home/aitools/input:/app/corpus_processing/input \
-    -v /home/aitools/output:/app/corpus_processing/output \
-    -e JUPYTER_TOKEN=aitools \
-    --restart=always release.daocloud.io/aigc/aitools:1.0
-```
+3. 点击运行代码。
 
-### 处理数据
+    ![运行代码](./images/picture6.jpg)
 
-1. 文件上传到预设的输入目录 `/home/aitools/input`
+4. 下载生成图文语料文件。进行目录/app/corpus_processing/output 下载 zip 文件。
 
-2. 使用以下命令运行工具镜像中的脚本
+    ![下载文件](./images/picture7.jpg)
 
-    ```shell
-    docker exec aitools sh run.sh
-    ```
+5. 清理环境。清理输入和输出文件，以及清理运行日志文件。
 
-### 导入处理好的文件
+    ![清理环境](./images/picture8.jpg)
+
+    !!! note
+
+        该环境为公共的环境，私有的语料文件操作后，建议执行清理环境操作。
+
+### 导入下载的文件
 
 1. 点击 **语料导入** -> **图文导入**
 
-2. 将处理好的文件上传，并进行向量化，等待处理成功即可
+2. 将处理好的文件上传，并进行向量化，等待处理成功
diff --git a/docs/zh/docs/dak/user-guide/corpus/images/create-corpus.jpg b/docs/zh/docs/dak/user-guide/corpus/images/create-corpus.jpg
diff --git a/docs/zh/docs/dak/user-guide/corpus/images/create-corpus.png b/docs/zh/docs/dak/user-guide/corpus/images/create-corpus.png
diff --git a/docs/zh/docs/dak/user-guide/corpus/images/manage-corpus.png b/docs/zh/docs/dak/user-guide/corpus/images/manage-corpus.png
diff --git a/docs/zh/docs/dak/user-guide/corpus/images/manage-corpus01.jpg b/docs/zh/docs/dak/user-guide/corpus/images/manage-corpus01.jpg
diff --git a/docs/zh/docs/dak/user-guide/corpus/images/manage-corpus02.jpg b/docs/zh/docs/dak/user-guide/corpus/images/manage-corpus02.jpg
diff --git a/docs/zh/docs/dak/user-guide/corpus/images/manual.jpg b/docs/zh/docs/dak/user-guide/corpus/images/manual.jpg
diff --git a/docs/zh/docs/dak/user-guide/corpus/images/manual.png b/docs/zh/docs/dak/user-guide/corpus/images/manual.png
diff --git a/docs/zh/docs/dak/user-guide/corpus/images/picture4.jpg b/docs/zh/docs/dak/user-guide/corpus/images/picture4.jpg
diff --git a/docs/zh/docs/dak/user-guide/corpus/images/picture5.jpg b/docs/zh/docs/dak/user-guide/corpus/images/picture5.jpg
diff --git a/docs/zh/docs/dak/user-guide/corpus/images/picture6.jpg b/docs/zh/docs/dak/user-guide/corpus/images/picture6.jpg
diff --git a/docs/zh/docs/dak/user-guide/corpus/images/picture7.jpg b/docs/zh/docs/dak/user-guide/corpus/images/picture7.jpg
diff --git a/docs/zh/docs/dak/user-guide/corpus/images/picture8.jpg b/docs/zh/docs/dak/user-guide/corpus/images/picture8.jpg
diff --git a/docs/zh/docs/dak/user-guide/corpus/images/upload-data01.jpg b/docs/zh/docs/dak/user-guide/corpus/images/upload-data01.jpg
diff --git a/docs/zh/docs/dak/user-guide/corpus/images/upload-data02.jpg b/docs/zh/docs/dak/user-guide/corpus/images/upload-data02.jpg
diff --git a/docs/zh/docs/dak/user-guide/corpus/images/upload-data03.jpg b/docs/zh/docs/dak/user-guide/corpus/images/upload-data03.jpg
diff --git a/docs/zh/docs/dak/user-guide/corpus/images/upload-data04.jpg b/docs/zh/docs/dak/user-guide/corpus/images/upload-data04.jpg
diff --git a/docs/zh/docs/dak/user-guide/corpus/images/upload-data05.jpg b/docs/zh/docs/dak/user-guide/corpus/images/upload-data05.jpg
diff --git a/docs/zh/docs/dak/user-guide/corpus/images/upload-date.png b/docs/zh/docs/dak/user-guide/corpus/images/upload-date.png
diff --git a/docs/zh/docs/dak/user-guide/corpus/manage-corpus.md b/docs/zh/docs/dak/user-guide/corpus/manage-corpus.md
@@ -10,8 +10,11 @@ hide:
 - 查看语料库中文件名称，向量化状态，文件分片数以及创建时间。
 - 选择点击操作中 **导出** 按钮，可以将某一文件导出。
 - 点击操作中 **删除** 按钮，可以将文件在语料库中删除。
+
+    ![语料库01](./images/manage-corpus01.jpg)
+
 - 点击上方的 **文件分片** 进入到文件分片详情，可以查看文件的所有分块信息。
 - 输入文件分片描述来搜索具体的分片，其中文本相似度用于衡量搜索内容和语料库中分块的相似度。这里用【欧氏距离】来作为相似度计算指标，故相似度越小，则距离越接近，文本越相似。
 - 在文件分片中点击某一分片的 **┇** 按钮，即可编辑语料分片内容/删除某一分片。
 
-![语料库](./images/manage-corpus.png)
+    ![语料库02](./images/manage-corpus02.jpg)
diff --git a/docs/zh/docs/dak/user-guide/corpus/manual.md b/docs/zh/docs/dak/user-guide/corpus/manual.md
@@ -9,6 +9,6 @@ hide:
 
 2. 点击 **手工录入** 后，会弹出 **新增文件分片** 弹框
 
-![manual](./images/manual.png)
+    ![manual](./images/manual.jpg)
 
-在箭头位置录入信息，如对信息有备注可在附加分片文本中录入。
+在箭头位置录入信息，如对信息有备注可在附加信息中录入。
diff --git a/docs/zh/docs/dak/user-guide/corpus/upload-date.md b/docs/zh/docs/dak/user-guide/corpus/upload-date.md
@@ -1,34 +1,39 @@
-# 文件导入
-
-## 上传数据
+---
+hide:
+  - toc
+---
 
-1. 点击语料库旁的 **┇** 按钮
+# 文件导入
 
-2. 点击 **语料导入** ，选择上传的数据
+1. 点击语料库旁的 **┇** 按钮，选择 **文件导入** 方式。
 
-3. 在导入数据界面，点击 **上传数据**
+    ![upload-data01](./images/upload-data01.jpg)
 
-    选择自己想要上传的文件，目前支持 pdf、txt、docx、doc、csv、xlsx
-    单个文件的大小不建议超过 50 M，文件上传数量限制为50个。
+1. **导入数据** ：点击 **上传文件**，并选择文件分片的处理方式：标准处理、自定义处理（即插件处理，请到插件接入处查看）
 
-4. 将文件上传完成后，可以在 **文件上传结果** 中查看
+    ![upload-data02](./images/upload-data02.jpg)
 
-    ![upload-date](./images/upload-date.png)
+    !!! note
 
-5. 上传成功后，点击 **下一步**
+        - 目前支持 pdf、txt、docx、doc、csv、xlsx 等格式，单个文件的大小不建议超过 50M，文件上传数量限制为 50 个。
+        
+        - 分片规则之标准处理。
+
+            ```template
+            1. PDF、TXT、DOC、DOCX 支持自定义分隔符；
+            2. 设置分隔符，不设置分片大小，仅根据分隔符划分文档；
+            3. 不设置分隔符，设置分片大小，仅根据分片大小拆分文档；
+            4. 设置分隔符并设置分片大小，在分片大小内，最终根据分隔符匹配进行分割。
+            ```
 
-6. 选择文件分片的处理类型：标准处理、自定义处理（即插件处理，请到插件接入处查看）
+1. **分片预览** ：预览分片是否正确，如果不正确可以回到上一步修改分片规则或文件内容。
 
-7. 数据向量化过程后，查看文件分片数量、重复分片数量、本次导入分片数以及向量化状态
+    ![upload-data03](./images/upload-data03.jpg)
 
-8. 当向量化处理成功后，点击 **下一步**
+1. **数据向量化** ：查看文件分片数量、重复分片数量、本次导入分片数以及向量化状态，当向量化处理成功后，点击 **下一步**
 
-9. 待文件状态为文件处理完成后，点击 **关闭** 即可
+    ![upload-data04](./images/upload-data04.jpg)
 
-### 标准处理
+1. 待文件状态为文件处理完成后，点击 **确定**
 
-- PDF、TXT、DOC、DOCX 支持自定义分隔符
-- CSV、xlsx 按照一行分片
-- 设置分隔符，不设置分片大小，仅根据分隔符划分文档
-- 不设置分隔符，设置分片大小，仅根据分片大小拆分文档
-- 设置分隔符并设置分片大小，在分片大小内，最终根据分隔符匹配进行分割
+    ![upload-data05](./images/upload-data05.jpg)
diff --git a/docs/zh/navigation.yml b/docs/zh/navigation.yml
@@ -170,7 +170,7 @@ nav:
                   - 创建语料库: dak/user-guide/corpus/create-corpus.md
                   - 语料管理: dak/user-guide/corpus/manage-corpus.md
                   - 语料导入:
-                      - 上传数据: dak/user-guide/corpus/upload-date.md
+                      - 文件导入: dak/user-guide/corpus/upload-date.md
                       - 手动录入: dak/user-guide/corpus/manual.md
                       - 图文导入: dak/user-guide/corpus/image-upload.md
                       - 格式化导入: dak/user-guide/corpus/format-update.md