基于机器视觉的药品名称识别方法研究开题报告-论文开题网

1. 研究目的与意义

随着科技的进步，现代化生活水平逐渐提高，但是在某些领域，自动化生产并未完全实现。就比如说目前的自动化药房中，在补药环节仍以人工或半自动补药方式为主，并没有完全实现自动化。因此，实现补药环节的机器人操作受到广泛关注与研究。然而要实现补药自动化，药品识别是关键。药品名称位于上表面醒目位置，可通过文字识别出药名。因此，本课题拟对药品名称识别的图像预处理、文本检测、药品区域确定、药品文字识别方法进行理论分析和实验研究。

本课题希望利用摄像头和微型计算机，来设计一种应用于药房的智能检测识别设备，通过设备对药盒上印刷字的识别，来进一步节省人工成本，实现药房补药环节的进一步智能化。

2. 课题关键问题和重难点

本文将研究一种基于机器视觉的药品名称识别系统。该系统由主控模块、摄像头信息采集模块以及图像存储模块组成。在此系统中，以主控模块为核心，通过摄像头采集到的图像信息，在通过图像存储模块保存后，交由主控模块进行数据处理，来尽可能的识别出药品名称。

需要解决的问题如下：

(1) 寻找合适的摄像头模块。摄像头获取信息是整个智能识别系统的首要环节，因此摄像头也是识别设备的关键部件。摄像头的分辨率、视野广度等性能都会影响识别功能的准确性。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 国内外研究现状（文献综述）

随着自动化、信息化与智能控制技术的不断发展进步，自动化药房的研究与产品开发也都引起了广泛关注。自动化药房系统由药品存取机器人和药品信息化管理系统组成，以机器人代替传统的人工来取药，不仅可以减轻药剂师的工作强度、提高发药效率，降低药品发错的概率，而且可以充分利用药房空间。机器人取药的关键在于准确判断目标药品的存放位置和药品名称。当然，利用包装盒上的条形码扫描会更容易识别药品，但由于不同药品的条形码位置不尽相同，有时需要先将药盒翻转以及确定条形码的位置；而药品包装盒平放（自动化药房的摆放方式）时，药品名称是一定位于上表面，位置固定，因此只需要采集药盒上表面图像即可对药品名称进行识别，为了能够处理任意方向文本、曲线文本、畸变文本，增强文字识别的泛化能力，有效防止误检，某些产品采用CRAFT^{REF _Ref127537493 \r \h}^[1]算法和OCR^{REF _Ref127537943 \n\h}^[3]技术相结合，对药品名称进行识别，以提高识别的效率和准确率。

而在企业的生产活动中，会产生大量的业务数据。事实上，企业很难确保其所积累数据的质量，原因是多种多样的，如录入错误、完整性约束缺失、信息的多种描述方式等。更复杂的是，相互独立的数据源不仅表述相同实体时使用的值不相同，甚至存储结构、关于数据的基本假设也不相同。企业的生产活动又是以其数据为基础，大到市场分析、决策；小到业务查询，都是在业务数据之上的操作。显然，企业所累积数据的质量没有保证，其所做操作也将无法保存。为了达到企业对业务数据去重的目的，需要一种高效、准确、自动的匹配方法，快速准确地发现描述同一实体的不同记录。

为了解决上述应用中的难题，人们针对不同的情况使用了不同的名称，而这一类问题研究距今已经有了50年的历史。这个问题虽早提出的时候使用的是“记录连接^{REF _Ref127537768 \n \h}^[2] (Record Linkage)或者叫记录匹配 (Record Match),是由研究统计学的人提出的。之后，同样的问题被数据库人描述为 merge-purge,即数据去室(Data Deduplication) 或实体识别^{REF _Ref127537768 \n \h}^[2] (InstanceIdentification)。在人工智能领域，它被称之为Name Matching。某些产品将用记录匹配这个名称来称呼这项工作。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 研究方案

1、设计方案

对目标药盒药品名进行识别，包括文字检测和文字识别两部分。目前基于深度学习的文本检测主要有基于区域建议、基于图像分割和基于形态等方法。本方案拟采用基于单字和字间亲和度的CRAFT算法，这种方法比以往的文本检测算法更具备鲁棒性，能处理任意方向的文本、曲线文本，以及畸变文本，具有较强的泛化能力。为了使产品能精确定位自然图像的每个字符，该算法还训练了一个深度学习神经网络来对字符区域和字符间的亲和力进行预测，而且采用了弱监督方式来训练模型。在识别检测到全部文字区域后，按照药品名称的文本特征来确定药名区域。

确定文本区域后，模型开始对区域内的文字进行识别，这就是视觉感知中的核心技术，目的是从图像中提取到文字信息。本方案拟将CRAFT算法和OCR技术结合，对药品名称进行进一步识别。整个模型的运行过程分为图像预处理。文本区域识别以及文字识别三部分，系统结构图如图4-1所示。

SHAPE \* MERGEFORMAT

图像预处理

图像灰度化处

理

图像锐化

CRAFT文本检测

药名区域确定

OCR文字识别

文本区域识别

文字识别

图4-1 药盒药名识别系统结构图

其中图像预处理包括图像灰度化、滤波降噪、图像锐化、边缘检测以及查找轮廓并裁剪。

(1)灰度化：将原彩图像转化为灰度图像的过程。采用平均值法，将彩色图像中三个分量的亮度求平均值得到灰度图像。灰度化后的图像仍能反映出图像色度和高亮等级的分布和特征。

(2)滤波降噪：因为图像采集环境良好，所以噪声的成分相对来说较简单。中值滤波由于运算简单而且速度快，比较适合用于此情景。

(3)图像锐化：经过滤波后，对图像进行了积分运算或平均值运算，图像会变得模糊，细节会变得平缓，因此需要对图像进行逆运算来一定程度上抵消滤波带来的影响，比如使用微分运算，来使图像变得更加清晰，可辨认。

(4)边缘检测：边缘检测采用Canny算法，对药名文本区域进行识别和分割。

(5)轮廓查找并提取：确定药盒数据，为后续查找剔除不正确选项，保留类似选择，以供备选。

除此以外，文本区域的检测则是在查找到药盒轮廓并进行分割之后，通过确定文本区域，并截取出药名区域，然后再进行药品名称的识别工作。

(1)文本检测：基于神经网络的场景文本检测方法是当下应用最广泛的文本检测方法之一。本方案拟采用字符级的文本检测方法CRAFT。这种算法通过挖掘每个字符和字符间的亲和度来有效的检测文本区域。

(2)药品名称区域定位：CRAFT算法见到文本区域之后，系统还会对药名区域进行定位。经过对大量药盒的数据统计发现，药盒上的文本区域中，药名区域的文字相对来说会较大于其他文本。因此，本方案采取的定位思路是：将识别到的所以文本区域按照宽度排序，然后选出适合的文本区域，再进行识别。

最后就是文字识别方法——文字识别方法的目标是已处于定位区域内的文字，其中的主要问题就是如何将一副文字图片转录为一串与之对应的字符。市面上相对流行的文字识别方法有Tesseract-OCR和百度OCR两种算法。Tesseract是一款文字识别引擎。其基础上的LSTM神经网络是一种改进的循环神经网络，解决了普通RNN在实际应用中难以处理长文本的缺陷。而百度OCR是目前基于深度学习较为成熟的文字识别技术，能适用于不同的业务场景对识别速度和进度的要求。

２、软件流程图

系统开始运行后，摄像头开始采集图像信息，然后将采集到的图像交由主控模块进行图像预处理——灰度化处理、滤波处理以及锐化处理，然后再进行文本区域的识别，通过CRAFT算法检测文本，并将采集到的图像进行分割，最后借助OCR算法进行文字识别。

SHAPE \* MERGEFORMAT

摄像头采集图像

终止

图像灰度化处理

图像滤波

图像锐化

CRAFT文本检测

药名区域确定

OCR文字识别

图4-2 药盒药名识别系统软件流程图