Leetcode-145. 二叉树的后序遍历(JAVA)

Docker安装Nginx、Tomcat

  返回  

OCR竞赛实践(二)

2021/7/21 1:07:04 浏览:

OCR竞赛实践(二)

1.图像处理

输入文本经过扫描仪进入计算机后,由于纸张的厚薄、光洁度和印刷质量都会造成文字畸变,产生断笔、粘连和污点等干扰,所以在进行文字识别之前,要对带有噪声的文字图像进行处理。由于这种处理工作是在文字识别之前,所以被称为预处理。预处理一般包括灰度化、二值化,倾斜检测与校正,行、字切分,平滑,规范化等等。

必须先去除噪声,通过外设采集的图像通常为彩色图像,彩色图像会夹杂一些干扰信息,灰度化处理的主要目的就是滤除这些信息,灰度化的实质其实就是将原本由三维描述的像素点,映射为一维描述的像素点。
其中,摄像头拍摄的图片,大多数是彩色图片,彩色图像采用RGB三通道分解,所含的信息量巨大,对于图片的内容,我们可以简单的分为前景和背景,为了让计算机更快的,更好的识别文字,我们可以简单地分为前景和背景,为了让计算机更快的,更好的识别文字,我们需要对彩色图进行处理,使图片只剩下前景信息和背景信息,可以简单的定义前景信息为黑色,背景信息为白色,这就是二值化图。

2.多模态处理

本次比赛提供的csv文件中,目的是通过图像识别出文字信息,类似于多模态的任务,而不是简单的目标检测等分类任务,因此对图像中文字的识别需要格外用心,精度要求很高,同时识别出的文字信息,未来也可以做为多模态系统的nlp部分,达到cv与nlp的结合

3.优化思路

调整模型超参数并重新finetune

改进检测流程(前置方向检测等)

尝试在其它模型基础上finetune

添加均衡化和透视变换等预处理

搭建更优的模型结构并从零训练

联系我们

如果您对我们的服务有兴趣,请及时和我们联系!

服务热线:18288888888
座机:18288888888
传真:
邮箱:888888@qq.com
地址:郑州市文化路红专路93号