Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于训练数据需要ocr结果的思考 #9

Open
whalefa1I opened this issue May 22, 2021 · 4 comments
Open

关于训练数据需要ocr结果的思考 #9

whalefa1I opened this issue May 22, 2021 · 4 comments

Comments

@whalefa1I
Copy link

tab_pre.py代码中表述的可能是合并单元格后单元格内部换行,参考:.\pubtabnet\train\PMC1626454_002_00.png
image

通过横向投影直方图确定有几个H_Start,如果不为1才要进行后续处理,所以可能是这个思路

@cqray1990
Copy link

@whalefa1I 他制作的label json文件是如何的呢?

@whalefa1I
Copy link
Author

@whalefa1I 他制作的label json文件是如何的呢?

我现在缺少ocr文件,可能需要手动加上一些row/col信息。我可以跑出来一些他制作的label Json文件,你可以尝试下载pubtab net 数据集自己进行尝试,通过断点并注释掉需要ocr文件的那行,可以看出来是可以有文件生成的。最近学校有点忙,可能得下周才能继续淦,有问题随时沟通。具体来说他的训练数据是通过html数据自带的行列号信息生成邻接矩阵,并通过横向投影确定是否存在cell内部分行,如果没分行就简单处理(就是这里可以跑通),如果判断存在分行就复杂处理(我还没时间做ocr文件)。然后通过邻接矩阵寻找到单元格横向纵向的关系,我记得纵向是father 横向是mother。您先尝试下载数据集,然后缺少的先注释掉的方式进行尝试,随时沟通!

@Suki-07
Copy link

Suki-07 commented May 27, 2021

@whalefa1I 您好!我有些问题想请教你可以+wx交流吗,我最近也在做这个,如果可以的话你可以加我吗19937382642

@SWJDADA
Copy link

SWJDADA commented Oct 11, 2023

可以提供一份训练数据吗》原链接失效了

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants