搜索
您的当前位置:首页正文

浅析ocr技术应用于微信小程序的研究

来源:欧得旅游网
ELECTRONICS WORLD・探索与观察引言:通过运用OCR技术创建“图文识别”微信小程序,实现高校科研项目纸质版材料智能识别,并以统一的格式上传至后台数据库,完成数据存档和使用等功能。同时,OCR技术应用于手机微信小程序最大程度地发挥自身的优势,但由于技术水平有限,在微信使用的过程并不是全能,特别是在识别率方面,可能受到软件质量、纸质材料、图片质量、文档格式、扫描参数等因素的影响而造成其识别率下降。本文对科研成果数字化过程中OCR技术应用手机微信小程序进行了研究和分析。1.项目建设背景

随着时代的发展、生活保障的健全,智能手机已经非常普及,手机似乎成为了人们每天不可缺少的工具。而腾讯微信(WeChat)作为移动端即时通讯类应用软件的领头羊,其2019年拥有的活跃账户数达11.33亿(数据来源:腾讯官方发布的2019年第二季度及中期业绩[OL].https://www.tencent.com/zh-cn/articles/8003571565778809.pdf),是一个庞大的应用群体。而微信小程序是微信发现页的一种应用程序,用户通过打开想要安装的小程序,即可使用。小程序的文件很小,安装小程序只需零点几秒至几秒的时间,不再使用该小程序时也无需对其卸载,实现了应用程序的“触手可及,用完即走”的梦想。用户通过扫二维码或搜小程序名字即可以加载使用小程序,微信小程序的便捷性已经决定了它必然的潮流。本项目的开发基于微信小程序,用户打开项目设计的小程序,通过拍照上传即可获得可编辑的格式化的相应的文字,通过这种OCR技术应用于手机微信小程序具有很高的研究价值。

同时,本文是针对于目前各大高校的科技成果转化率低、高校尚未录入数据库的纸质版科研项目材料存在数量庞大等问题,本项目旨通过移动数据端扫描文件使用“图文同步推广”在达到三个目的:一是更新资料存档形式;二是实现数据库信息共享;三是实现科研成果的进一步推广和使用。2.OCR在微信中的实际应用介绍

20世纪30年代末,德国籍研究员Taushek首次将字符模板匹配运用到字符识别过程中,并因此获得了一项OCR相关专利,人类开始慢慢走进了利用OCR自动识别图片的文字的新时代。直到21世纪,随着配备高分辨率相机的智能手机的普及,学术界开始对照片文字识别进行详细研究。2014年8月,Microsoft Research Asia在ICR(国际模式识别大会)上发布,根据对自然场景中标准数据集(ICDAR-2013测试集)的识别,最终识别结果表明,该算法达到了92.1%的准确度和92.3%的召回率。相比国外,国内对OCR技术的研究相对较晚,而且汉字比英文字母、阿拉伯字母复杂得多(常用汉字在4000到7000个),汉字之间也有许多相似的,这无疑使得利用OCR技术识别汉字增加了很大的难度。但是通过最近几年政府对文字识别这一领域投入了大量经济和一系列方针,现如今对印刷体汉字识别的技术已经颇为成熟。现在OCR识别技术广泛应用于快递单据的识别、车牌的字符识别、“小猿搜题APP”、百度AI等(刘明英.档案数字化过程中OCR技术的应用分析[J].中国高新技术

• 94 •

企业,2017(04))。

OCR识别技术是一门研究如何将图像中的文字转化为可编辑文本的学科,是指电子设备检查的图片上的字符,通惠华州南浅过检查亮暗的模式确定字符的形状,再大农析用字符识别的方法将形状转化为计算机学业语言的过程。其操作比较简单,即将图 大潘学OCR像、文字做一个转化,使其全部翻译成若技计算机文字,从而达到识别出的文字能帆陈 术够再次使用并对其分析、影像资料的储雨宁应存量减少,最方便的是还可以节省因键 用盘输入的人力物力和时间。本项目应用李于OCR技术应用于微信小程序主要是实现 鎏微高校科研项目纸质版材料智能识别,并 信以统一的格式上传至后台数据库,完成潘小数据存档和使用等功能。

红程 刘序3.OCR在微信中建设内容和探讨

越的到目前为止,OCR技术的发展已经锋研非常成熟,但这仅用于计算机方面比较郭 究

多,比如为大众所熟知的汉字识别软件亮 有清华紫光、汉王尚书等,这些软件都比较成熟,对汉字的识别精度也都较高,陈 但是相比于PC端,OCR技术在移动端上的俊研究就显得稍微落后,主要是因为受到威设备的限制,如拍摄的图片的质量不佳梁 或者上传的图片不清晰等。而百度开发丽的百度翻译和作业帮,金山公司开发的仪

金山金山词霸,腾讯公司的QQ和微信,阿里云公司的支付宝,这些都是OCR识别技术运用在移动端平台上的成功实例(陈小庆.基于Android平台的OCR识别技术研究与实现[D].成都:电子科技大学,2016)。而本项目研究应用是解决高校科技成果转化问题,更是一种挑战的研究。如今各大高校的科技成果整体推广应用水平仍然不够,我国科技成果转化的总体情况还是较为不乐观。在研究中还发现,由于纸质版科研项目成果还有很多没有录入系统,所以科研项目信息并不能方便高效的实现共享。“一键录入”系统正是基于高校信息录入困难、科研信息未能共享的需求而研发,目的是通过创建图文识别程序,实现科研信息快速识别入库,减轻工作负担;搭建知识的仓库,共享科研项目的资源,以促进高校科技成果高效转化。此项目建设内容主要包括:3.1 产品开发目标

通过OCR技术方便快捷地将高校积存尚未录入的纸质版科研项目材料方便快捷录入电子数据库,使积存且尚未录入的纸质版数据转化为电子数据,并分类存档,以达到减少人力与设备的费用、提高纸质版材料向电子版材料转化的效率、改进管理信息的服务、构建知识仓库的目的,从而实现高校科研信息共享。3.2 产品开发功能

快速录入:通过微信小程序拍照扫描纸质文档,然后快速将其识别并录入到电子数据库;

ELECTRONICS WORLD・探索与观察智能识别:通过调用OCR技术可以高效、智能地扫描识别的文件信息;信息共享:通过产品推广逐步实现高校间科研信息的共享;数据分类:输入的数据将根据国家颁布的有关科研项目编号编码的标准进行归类。3.3 产品开发的技术

OCR技术应用于微信小程序为:图象输入、图象预处理、文字检测、文字识别、文本输出、上传至个人云空间。即使程序实际的工作过程只需几秒即可完成,但识别的准确度是OCR技术永恒的问题,因此OCR技术重中之重的研究方向是怎样把错误的信息进行纠正、提升识别的准确率。图像输入的方法有两种:使用手机摄像头为项目素材拍照并上传图像,或者直接从本地相册中上传图像。(此步骤为人工操作)图象预处理通常是对图象成像问题进行校正,常见的图象预处理过程有如下:图象分割、几何变换、文字方向校正、光线校正、增强图象和除去模糊等。文本检测的任务也相对比较简单,检测图像中文本的位置和范围,它主要解决了“文本在哪里,文本的宽度为多大”的问题。在文字检测之后,程序将开始识别图像中文本的内容,并将其转化为可编辑的文本信息,这就是文本识别的任务。文本识别除了要解决“每个字符是什么”的问题之外,还不得不解决“这个字符我有没有识别错误?”的难题,这个环节也叫做文本校正,程序在找到错误之后会尽可能对其修复。而到了移动操作一般是在微信小程序中打开相机并拍照上传材料,即可完成图像输入。3.4 产品录入方式的优势

操作便捷:通过移动端微信小程序对文档、图片或者影像或者科研项目纸质材料进行识别一般都是几秒的时间,远远高于传统的手工录入,并录入数据库,操作简便、快捷,使得文档、图片或者影像或者科研项目纸质版材料信息录入方式获得了质的突破;数据齐全:连接微信程序的数据库将结合文档、图片或者影像或者科研项目纸质材料关键字段属性、现实需求三方面进行设计,分类清晰,内容齐全,OCR文字识别的质量要高于传统手工的录入,虽然OCR文字识别的准确率上看,无法达到100%的准确,但是与手工录入相比,准确率还是高很多;满足需求:OCR文字识别技术在连接微信程序使用的过程中,通常只是一部手机或者一个电脑,只需要人操作即可,并且工作效率很高,极大地节省了人力资源的消耗,从而解决人力资源不足的问题,还可以解决本项目的应用到解决高校科研项目纸质材料存在的问题,有利于满足高校关于快速录入纸质数据并有序归入个人云空间以及进行长期有效存储的需求,是想资源的优化配置。

综上所述,OCR技术在手机移动端微信小程序使用过程中是很可行的,可以有效弟提高项目录入与输出的速度,保障项目的质量,大大减少文档等管理工作所需的工作人员及其工作量,更大限度地降低了文档等管理工作中的人力消耗。基金项目:2018年广东省大学生创新创业课题“高校科技成果转化创业实践途径的调查研究”(项目编号10564033)。

随着社会现代化进程的逐步提高及我国经济的高速发展,为满足社会大众的用电需求量,我国电网设备不断完善,现阶段我国已成为世界上第一大电力生产国与使用国,而电力物联网的发展关乎我国电网系统的走势与发展。因此,针对电力互联网的关键技术分析是一项不容忽视的重要课题,本文基于现有的电力物联网技术,对其关键技术进行分析,并其探讨电网物联网的应用前景。

引言:电力物联网是一种依靠信息通信技术、物联网技术、电力设备信息采集技术等建立起来的,当前网络发展中出现的网络管理技术与传统电网系统管理技术相结合,逐步为电网系统化、高智能发展奠定基础,因此,电力互联网的关键技术的发展与实际应用是十分重要的研究课题。

图1 电力物联网的系统框图

1.电力物联网的基本特征及其作用

电力物联网指的是,通过使用各式各样的信息采集设备收集相关信息,并通过信息汇总将现有的信息总结与分析,结合电网运行的实际情况,把最终信息分析结果反馈给用户及设计者。在一个系统的电力物联网中,不仅包含信息收集设备,同时还有信息处理与大数据分析等数据分析装置,进而组成系统完整的智能电力网络系统。电力物联网的功能:

(1)实时监测电力系统中各设备的实际运行情况,如:压强、温度、体积等;(2)实时监测系统中各设备的运行数据;

(3)即时追踪工作人员;

(4)给技术员提供可靠的信息。电力物联网与智能电网均采用传感设备将实时信息进行收集整理,进而实现电力系统设备与网络相连,这在很大程度上有助于实施监控设备的实际状况,有助于更好地掌握设备状况与处理设备故障。同时,有助于使用者与管理者实时掌握与监控电网系统的运营,使用电力数据传输与管理平台,很大程度上保证了电力系统数据的准确收集与处理,能够实现电力信息实时可靠的传输,进而保证了电力系统运行的稳定性与准确性。

广东电网有限公司肇庆供电局 林敬超

电力物联网的关键技术与应用前景分析

• 95 •

因篇幅问题不能全部显示,请点此查看更多更全内容

Top