基于EAST的自然场景下文本检测项目实战总结

东方耀 · 发表于 2019-9-19 21:03:04

对自然场景下图片中的文字区域进行检测
TextBoxes TextBoxes++都是基于ssd改进的
文本检测算法：定位文字所在区域
传统的检测框架(SSD,YOLO, Faster-RCNN):效果不理想
针对文本检测问题专门设计的框架：
1、Top-down和 bottom-up
2、CTPN、EAST、 SegLink、 Textboxes、 Textboxes++、RRPN、 Dmpnet、 Pixellink、FTSN、 Wordsup等

●技术难点
1、多边形区域
2、扭曲形变
3、字体多样
4、场景环境多样
5、光照、尺度、颜色
6、语种等等

数据集资源：ICDAR官网下载(需要翻墙)：https://rrc.cvc.uab.es/?ch=4&com=downloads
选择Challenges---> Incidental Scene Text无法翻墙的朋友看这里：链接: https://pan.baidu.com/s/12YSefBWdPaXv0ndWT-lR7Q 提取码: p3ne

端到端识别数据库：一个网络包含文字区域定位与文字内容识别
也可以用两个网络来完成：比如用TextBox++进行文字区域定位
用CRNN算法进行文本内容的识别

核心研究方向：
1、自然场景下文本的端到端识别
2、海量视频中快速检索感兴趣的文字
3、文本和图片更好的融合
4、专业领域下的版面分析问题

EAST介绍:An Efficient and Accurate Scene Text Detector
旷世科技,CVPR2017
使用FCN生成多尺度融合的特征图,进行像素级的文本块预测
支持旋转矩形框、任意四边形两种文本区域标注形式
提供了方向信息,可以检测各个方向的文本
对较长的文本检测效果不好,感受野不够长

A tensorflow implementation of EAST text detector
https://github.com/argman/EAST

安装tensorflow与相应的依赖之后（看requirements.txt）：
1、修改icdar.py文件 tf.app.flags.DEFINE_string('training_data_path','')训练数据路径txt_fn = txt_fn.replace('img_', 'gt_img_') 根据图片路径修改gt标注文件路径
2、修改训练multigpu_train.py文件
3、开始训练 python3 multigpu_train.py

网络结构在：nets/resnet_v1.py
模型文件在：model.py

EAST模型的测试：
python3 eval.py

tf.app.flags.DEFINE_string('test_data_path', 'test/', '')
tf.app.flags.DEFINE_string('gpu_list', '0', '')
tf.app.flags.DEFINE_string('checkpoint_path', 'model_pretrained/east_icdar2015_resnet_v1_50_rbox/', '')
tf.app.flags.DEFINE_string('output_dir', 'test_output/', '')
tf.app.flags.DEFINE_bool('no_write_images', False, 'do not write images')

东方耀 · 发表于 2019-9-19 22:34:22

Cross point does not exist
Traceback (most recent call last):
File "/home/dfy888/py3_tensorflow_works/EAST/icdar.py", line 666, in generator
score_map, geo_map, training_mask = generate_rbox((new_h, new_w), text_polys, text_tags)
File "/home/dfy888/py3_tensorflow_works/EAST/icdar.py", line 526, in generate_rbox
if point_dist_to_line(p1, new_p2, p0) > point_dist_to_line(p1, new_p2, p3):
File "/home/dfy888/py3_tensorflow_works/EAST/icdar.py", line 253, in point_dist_to_line
return np.linalg.norm(np.cross(p2 - p1, p1 - p3)) / np.linalg.norm(p2 - p1)
TypeError: unsupported operand type(s) for -: 'NoneType' and 'float'

复制代码

东方耀 · 发表于 2019-9-19 22:34:57

Cross point does not exist
Traceback (most recent call last):
File "/home/dfy888/py3_tensorflow_works/EAST/icdar.py", line 666, in generator
score_map, geo_map, training_mask = generate_rbox((new_h, new_w), text_polys, text_tags)
File "/home/dfy888/py3_tensorflow_works/EAST/icdar.py", line 526, in generate_rbox
if point_dist_to_line(p1, new_p2, p0) > point_dist_to_line(p1, new_p2, p3):
File "/home/dfy888/py3_tensorflow_works/EAST/icdar.py", line 253, in point_dist_to_line
return np.linalg.norm(np.cross(p2 - p1, p1 - p3)) / np.linalg.norm(p2 - p1)
TypeError: unsupported operand type(s) for -: 'NoneType' and 'float'

复制代码

xsoft · 发表于 2020-2-3 15:52:10

谢谢老师提供的资料。

		自动登录	找回密码
密码			立即注册

[课堂笔记] 基于EAST的自然场景下文本检测项目实战总结