有小伙伴愿意发起gluon-ocr项目吗

看到有gluon-cv,gluon-nlp,不知道有没有小伙伴愿意发起gluon-ocr

7赞

前排支持一下:clap:t2:

用keras 搞出了识别,检测还不会,楼主会的话教教我啊

前排支持一下

ctpn吗?

目前成形的工程用的只有pytorch和tf还有caffe的,
mxnet的很少.楼主可以看看tridenet三叉戟网络 那个开源了,上面实现了fastercnn还有一些检测的标准模块,而且支持半精度.
楼主看看
ocr 识别crnn pytorch
通用定位
检测 fastercnn two stage版本的 慢但是框子准 需要2秒1个 tf版
one stage版本的 ssd 快 但是框子不准 而且不适合长条 tf版
yolov3 很快 只有darknet版本
上面两个都是支持多分类的
看了论文
专业定位适合ocr的
textbox textbox++都适合长条,后者还支持倾斜框子 但是都只支持2分类 前景背景 而且只有caffe版
pytorch上还有east适合倾斜的多边形 可以替换textbox系列
但是上面这些除了trident以外都没有mxnet版本的
另外ocr识别中还有样本识别不够的问题 就是crnn那部分样本会不够(定位ok是因为大部分版面都是大致固定的)
就是有些字词没有 需要人造数据 推荐网上有个crnn生成数据的
其实看将门的分享当中 有一个人讲过cyclegan 可以将制造的样本的样式变成和真的一致 可能可以用在这里
还有一个就是在训练识别的时候再接一个头去识别这个图片是真实的还是造的 然后要求他的损失很高,
就是要求通过这个隐含的层也没有办法识别它是不是制造的图片
我现在只是拿图片的底板手工ps几十张底板然后用字体黏贴汉字的,然后和真实一起混合训练的,然后混合好后再使用data_augment(网上一个数据增强包做数据增强)
现在都没有看到mxnet有ocr的包 都是tf+pytorch的,但是gulon和pytroch很像了,所以pytroch可能可以转过去.

3赞

楼主加油,转完了我们可以试试,看看精度会不会掉.
trident可以试试那个是mxnet实现的

在做一个mxnet-ocr的,只完成了一些代码

数据集也是个大问题诶,目前wild text的识别数据集似乎比较多,印刷体和手写体的数据集没看到有特别好的。

我这里几万张带标签图片,感觉也够了

我目前也只搞出了识别,检测还没开始研究

谢谢支持

你自己的私有数据集吗?

天池有相关比赛,数据集最好自己做,比赛的模糊,质量不一。现在横行识别率98,纵向的还没写。现在提交天池答案遇到点问题(b,32,w,1),test的时候图片格式差异大,经过缩放后,w范围120到1678。如果一张张识别的话要识别14k次,而且py会崩溃。我想问一下,如果全放在(b,32,1678,1)这样的全0数组会影响准确率吗

是的,数据量不是很大

支持支持,来一发。

目前发现的有

识别

crnn

检测

psenet

east

可以试试我的 breezedeus/cnocr ,mxnet实现的ocr,欢迎集成文字检测功能~

一些实例如下:

1赞