Skip to content

Commit

Permalink
Merge pull request d-run#156 from yyyhhhh/corpus-new
Browse files Browse the repository at this point in the history
语料库部分文档更新
  • Loading branch information
windsonsea authored Nov 26, 2024
2 parents 17c4edb + 4371125 commit c993343
Show file tree
Hide file tree
Showing 25 changed files with 58 additions and 56 deletions.
10 changes: 5 additions & 5 deletions docs/zh/docs/dak/user-guide/corpus/create-corpus.md
Original file line number Diff line number Diff line change
Expand Up @@ -9,12 +9,12 @@ hide:

2. 参考下列要求填写语料库基本信息,并点击 **下一步**

* 语料库名称:名称包含大小写字母、数字和符号(限制20个字符)。
* **语料库名称**:名称包含大小写字母、数字和符号(限制20个字符)。

* 向量化模型服务:可选择 `bge-large-zh``bge-large-en`
* **向量化模型服务**:可选择 `bge-large-zh``bge-large-en`

* 访问级别:可选择公开/私有/指定工作空间。
* **可见范围**:可选择公开/私有/指定工作空间。

* 简介:简要描述语料库中的内容信息,可包含中英文、数字,(限制 100 个字符)。
* **简介**:简要描述语料库中的内容信息,可包含中英文、数字,(限制 100 个字符)。

![创建语料库](./images/create-corpus.png)
![创建语料库](./images/create-corpus.jpg)
2 changes: 1 addition & 1 deletion docs/zh/docs/dak/user-guide/corpus/format-update.md
Original file line number Diff line number Diff line change
Expand Up @@ -14,4 +14,4 @@ hide:
**格式化导入** 目前只支持 csv、xlsx 文件,并且要求文件内容格式如下。
如果是其他类型的文件,请正常使用上传数据的方式导入。

![format-updte](./images/format-update.png)
![format-updte](./images/format-update.png)
44 changes: 19 additions & 25 deletions docs/zh/docs/dak/user-guide/corpus/image-upload.md
Original file line number Diff line number Diff line change
@@ -1,4 +1,4 @@
# 导入图文
# 图文导入

在导入图文前,需要将导入的语料进行处理后再导入(目前仅支持 Word 和 Excel 的图文处理)。

Expand All @@ -24,40 +24,34 @@ Q:问题,A:答案。

对于 xlsx 文档,请按照模板要求整理,插图请尽量放一个在单元格中,尽量不要横跨几个单元格放置。

## 处理语料
## 生成图文语料

### 准备环境
1. 登录环境: https://console.d.run/ai-tools/lab? 密码:aitools。

我们提供了基础镜像来处理图文:`release.daocloud.io/aigc/aitools:1.0`
![登录环境](./images/picture4.jpg)

- `/home/aitools/input` 替换成实际输入文件的目录
- `/home/aitools/output` 替换成实际输出处理后文件的目录
2. 上传语料文件,进入目录 /app/corpus_processing/input 下,上传语料文件到此目录下。

```shell
# 主机上创建输入、输出目录
mkdir -p /home/aitools/output /home/aitools/input
chmod 777 -R /home/aitools/output /home/aitools/input
![上传文件](./images/picture5.jpg)

# 运行常驻服务到后台
docker run -d -p 8888:8888 --name aitools \
-v /home/aitools/input:/app/corpus_processing/input \
-v /home/aitools/output:/app/corpus_processing/output \
-e JUPYTER_TOKEN=aitools \
--restart=always release.daocloud.io/aigc/aitools:1.0
```
3. 点击运行代码。

### 处理数据
![运行代码](./images/picture6.jpg)

1. 文件上传到预设的输入目录 `/home/aitools/input`
4. 下载生成图文语料文件。进行目录/app/corpus_processing/output 下载 zip 文件。

2. 使用以下命令运行工具镜像中的脚本
![下载文件](./images/picture7.jpg)

```shell
docker exec aitools sh run.sh
```
5. 清理环境。清理输入和输出文件,以及清理运行日志文件。

### 导入处理好的文件
![清理环境](./images/picture8.jpg)

!!! note

该环境为公共的环境,私有的语料文件操作后,建议执行清理环境操作。

### 导入下载的文件

1. 点击 **语料导入** -> **图文导入**

2. 将处理好的文件上传,并进行向量化,等待处理成功即可
2. 将处理好的文件上传,并进行向量化,等待处理成功
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file not shown.
Binary file not shown.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file not shown.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file not shown.
5 changes: 4 additions & 1 deletion docs/zh/docs/dak/user-guide/corpus/manage-corpus.md
Original file line number Diff line number Diff line change
Expand Up @@ -10,8 +10,11 @@ hide:
- 查看语料库中文件名称,向量化状态,文件分片数以及创建时间。
- 选择点击操作中 **导出** 按钮,可以将某一文件导出。
- 点击操作中 **删除** 按钮,可以将文件在语料库中删除。

![语料库01](./images/manage-corpus01.jpg)

- 点击上方的 **文件分片** 进入到文件分片详情,可以查看文件的所有分块信息。
- 输入文件分片描述来搜索具体的分片,其中文本相似度用于衡量搜索内容和语料库中分块的相似度。这里用【欧氏距离】来作为相似度计算指标,故相似度越小,则距离越接近,文本越相似。
- 在文件分片中点击某一分片的 **** 按钮,即可编辑语料分片内容/删除某一分片。

![语料库](./images/manage-corpus.png)
![语料库02](./images/manage-corpus02.jpg)
4 changes: 2 additions & 2 deletions docs/zh/docs/dak/user-guide/corpus/manual.md
Original file line number Diff line number Diff line change
Expand Up @@ -9,6 +9,6 @@ hide:

2. 点击 **手工录入** 后,会弹出 **新增文件分片** 弹框

![manual](./images/manual.png)
![manual](./images/manual.jpg)

在箭头位置录入信息,如对信息有备注可在附加分片文本中录入
在箭头位置录入信息,如对信息有备注可在附加信息中录入
47 changes: 26 additions & 21 deletions docs/zh/docs/dak/user-guide/corpus/upload-date.md
Original file line number Diff line number Diff line change
@@ -1,34 +1,39 @@
# 文件导入

## 上传数据
---
hide:
- toc
---

1. 点击语料库旁的 **** 按钮
# 文件导入

2. 点击 **语料导入** ,选择上传的数据
1. 点击语料库旁的 **** 按钮,选择 **文件导入** 方式。

3. 在导入数据界面,点击 **上传数据**
![upload-data01](./images/upload-data01.jpg)

选择自己想要上传的文件,目前支持 pdf、txt、docx、doc、csv、xlsx
单个文件的大小不建议超过 50 M,文件上传数量限制为50个。
1. **导入数据** :点击 **上传文件**,并选择文件分片的处理方式:标准处理、自定义处理(即插件处理,请到插件接入处查看)

4. 将文件上传完成后,可以在 **文件上传结果** 中查看
![upload-data02](./images/upload-data02.jpg)

![upload-date](./images/upload-date.png)
!!! note

5. 上传成功后,点击 **下一步**
- 目前支持 pdf、txt、docx、doc、csv、xlsx 等格式,单个文件的大小不建议超过 50M,文件上传数量限制为 50 个。
- 分片规则之标准处理。

```template
1. PDF、TXT、DOC、DOCX 支持自定义分隔符;
2. 设置分隔符,不设置分片大小,仅根据分隔符划分文档;
3. 不设置分隔符,设置分片大小,仅根据分片大小拆分文档;
4. 设置分隔符并设置分片大小,在分片大小内,最终根据分隔符匹配进行分割。
```

6. 选择文件分片的处理类型:标准处理、自定义处理(即插件处理,请到插件接入处查看)
1. **分片预览** :预览分片是否正确,如果不正确可以回到上一步修改分片规则或文件内容。

7. 数据向量化过程后,查看文件分片数量、重复分片数量、本次导入分片数以及向量化状态
![upload-data03](./images/upload-data03.jpg)

8. 当向量化处理成功后,点击 **下一步**
1. **数据向量化** :查看文件分片数量、重复分片数量、本次导入分片数以及向量化状态,当向量化处理成功后,点击 **下一步**

9. 待文件状态为文件处理完成后,点击 **关闭** 即可
![upload-data04](./images/upload-data04.jpg)

### 标准处理
1. 待文件状态为文件处理完成后,点击 **确定**

- PDF、TXT、DOC、DOCX 支持自定义分隔符
- CSV、xlsx 按照一行分片
- 设置分隔符,不设置分片大小,仅根据分隔符划分文档
- 不设置分隔符,设置分片大小,仅根据分片大小拆分文档
- 设置分隔符并设置分片大小,在分片大小内,最终根据分隔符匹配进行分割
![upload-data05](./images/upload-data05.jpg)
2 changes: 1 addition & 1 deletion docs/zh/navigation.yml
Original file line number Diff line number Diff line change
Expand Up @@ -170,7 +170,7 @@ nav:
- 创建语料库: dak/user-guide/corpus/create-corpus.md
- 语料管理: dak/user-guide/corpus/manage-corpus.md
- 语料导入:
- 上传数据: dak/user-guide/corpus/upload-date.md
- 文件导入: dak/user-guide/corpus/upload-date.md
- 手动录入: dak/user-guide/corpus/manual.md
- 图文导入: dak/user-guide/corpus/image-upload.md
- 格式化导入: dak/user-guide/corpus/format-update.md
Expand Down

0 comments on commit c993343

Please sign in to comment.