-
Notifications
You must be signed in to change notification settings - Fork 24
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于训练数据需要ocr结果的思考 #9
Comments
@whalefa1I 他制作的label json文件是如何的呢? |
我现在缺少ocr文件,可能需要手动加上一些row/col信息。我可以跑出来一些他制作的label Json文件,你可以尝试下载pubtab net 数据集自己进行尝试,通过断点并注释掉需要ocr文件的那行,可以看出来是可以有文件生成的。最近学校有点忙,可能得下周才能继续淦,有问题随时沟通。具体来说他的训练数据是通过html数据自带的行列号信息生成邻接矩阵,并通过横向投影确定是否存在cell内部分行,如果没分行就简单处理(就是这里可以跑通),如果判断存在分行就复杂处理(我还没时间做ocr文件)。然后通过邻接矩阵寻找到单元格横向纵向的关系,我记得纵向是father 横向是mother。您先尝试下载数据集,然后缺少的先注释掉的方式进行尝试,随时沟通! |
@whalefa1I 您好!我有些问题想请教你可以+wx交流吗,我最近也在做这个,如果可以的话你可以加我吗19937382642 |
可以提供一份训练数据吗》原链接失效了 |
tab_pre.py代码中表述的可能是合并单元格后单元格内部换行,参考:.\pubtabnet\train\PMC1626454_002_00.png
通过横向投影直方图确定有几个H_Start,如果不为1才要进行后续处理,所以可能是这个思路
The text was updated successfully, but these errors were encountered: