OCR文字识别

一、OCR的定义

OCR(optical character recognition):是一种文字识别技术,简单来说就是可以将任何介质上(纸、图片、文档、广告牌等)的文字信息识别出来。

二、业务场景

类型业务场景
卡证识别身份证识别:我们每天拿身份证做核酸,是不是已经有带入感了,自动识别并录入用户身份信息,可应用于金融、保险、电商、O2O、直播等场景,对用户、商家、主播等进行实名身份认证,有效降低用户输入成本,控制业务风险。
卡证识别银行卡识别:金融远程身份认证,可应用于金融场景用户实名认证,有效降低用户输入成本,提升用户体验。
卡证识别营业执照识别:商家资质审查,应用于电商、零售、O2O等行业的商户入驻审查场景,实现商户信息的自动化审查和录入,大幅度提升服务标准和运营效率。
卡证识别户口本识别:身份信息登记,识别户口本上的姓名、性别、出生地、出生日期、身份证号等信息,应用于新生儿建档、户口迁移、个人信贷申请、社会救济金申请等政务办理场景,帮助政务部门快速完成核验和登记,提升办事效率。
卡证识别护照识别:可应用于境外旅游产品预订、酒店入住登记等场景,满足护照信息自动录入的需求,有效提升信息录入效率,降低用户输入成本,提升用户使用体验。
财务票据识别票据识别:财税报销,针对企业员工提交的原始票据粘贴单,快速完成各类报销凭证的自动切分及结构化识别,应用于内部报销、核算、记录等场景,减轻员工报销难度,提升财务核算效率,简化报销流程。
交通场景识别行驶证识别:司机身份认证,综合应用行驶证、驾驶证和身份证识别技术,自动识别录入用户身份信息和车辆信息,可应用于网约车用户注册、货车司机身份审查等场景,有效提升信息录入效率,优化用户体验。
通用类型纸质文档电子化,提高信息录入、存档、检索的效率。

三、配置步骤

  1. 先确认你要识别的信息类型,然后去CRM里购买资源包

2 同时创建好要存储识别信息的字段,例如想存储身份证上的姓名和身份证号信息

  1. 资源包生效后,到对象里创建图片类型或附件字段(或用已有图片或附件字段)——>开启OCR能力——>选择识别类型,以下以身份证类型为例——>配置字段映射
  1. 自动回填,到对象新建数据页面,上传身份证图片,系统会自动回填姓名、身份证号到页面字段上。
以上为图的OCR识别图例(附件的OCR识别可类比)

四、常见问题

4.1 支持格式

  • 图片请求格式支持:PNG、JPG、JPEG、BMP、TIFF、PNM、WebP
  • 发票识别同时可支持pdf和ofd格式两种。

4.2 问题排查

以下五种常见情况会影响OCR识别准确度问题:

  1. 图片尺寸过小,图片尺寸小于15px,无法进行识别;
  2. 图片画质太差,例如图片过暗,文字内容不可辨识;
  3. 文字内容存在水印、印章、褶皱等遮挡;
  4. 图片样式与接口支持类型不符。例如,身份证识别只支持识别二代居民身份证,不支持识别护照、银行卡等;
  5. 如果有返回错误码,请参考错误码排查问题。
错误码 错误信息 描述
1 Unknown error 未知错误,请再次请求
2 Service temporarily unavailable 服务暂不可用,请再次请求
3 Unsupported openapi method 调用的API不存在,请检查请求URL后重新尝试,一般为URL中有非英文字符,如"-",可手动输入重试
4 Open api request limit reachedr 集群超限额,请再次请求
6 No permission to access data 无接口调用权限,创建应用时未勾选相关文字识别接口,请联系产研侧解决
14 IAM Certification failed IAM鉴权失败,建议用户参照文档自查生成sign的方式是否正确,或换用控制台中ak sk的方式调用
17 Open api daily request limit reached 免费测试资源使用完毕,每天请求量超限额,请联系产研侧解决
18 Open api qps request limit reached QPS超限额,免费额度并发限制为2QPS,开通按量后付费或购买次数包后并发限制为10QPS,如您需要更多的并发量,请联系产研侧解决
19 Open api total request limit reached 请求总量超限额,已支持计费的接口,请联系产研侧解决
100 Invalid parameter 无效的access_token参数,token拉取失败,请联系产研侧解决。
110 Access token invalid or no longer valid access_token无效,token有效期为30天,请注意需要定期更换,也可以每次请求都拉取新token
111 Access token expired access token过期,token有效期为30天,请注意需要定期更换,也可以每次请求都拉取新token
216100 invalid param 请求中包含非法参数,请检查后重新尝试
216101 not enough param 缺少必须的参数,请检查参数是否有遗漏
216102 service not support 请求了不支持的服务,请检查调用的url
216103 param too long 请求中某些参数过长,请检查后重新尝试
216110 appid not exist appid不存在,请重新核对信息是否为后台应用列表中的appid
216200 empty image 图片为空,请检查后重新尝试
216201 image format error 上传的图片格式错误,现阶段我们支持的图片格式为:PNG、JPG、JPEG、BMP、TIFF、PNM、WebP,请进行转码或更换图片
216202 image size error 上传的图片大小错误,现阶段我们支持的图片大小为:base64编码后小于4M,分辨率不高于4096x4096,请重新上传图片
216306 Upload file error 上传文件失败,请检查提交请求接口的请求参数
216308 Pdf_file_num exceeds the number of pdf pages 参数pdf_file_num大于PDF文件实际页数
216401 Create task failed 提交请求失败
216402 Query task failed 获取结果失败
216603 Check pdf page num failed 获取PDF文件页数失败,请检查PDF文件以及base64编码
216604 Insufficient available quota 请求总量超限额,您可以购买或申请更多限额
216630 recognize error 识别错误,请再次请求,请确保图片中包含对应卡证票据
216631 recognize bank card error 识别银行卡错误,出现此问题的原因一般为:您上传的图片非银行卡正面,上传了异形卡的图片、上传的银行卡正面图片不完整或模糊
216633 recognize idcard error 识别身份证错误,出现此问题的原因一般为:您上传了非身份证图片、上传的身份证图片不完整或模糊
216634 detect error 检测错误,请再次请求
216600 business verify failed 企业核验相关服务请求失败,请再次请求,仅适用于企业核验相关服务:企业工商信息查询(标准版/高级版)、企业三/四要素核验
282000 internal error 服务器内部错误,如果您使用的是高精度接口,报这个错误码的原因可能是您上传的图片中文字过多,识别超时导致的,建议您对图片进行切割后再识别,其他情况请再次请求
282003 missing parameters: (参数名) 请求参数缺失
282005 batch processing error 处理批量任务时发生部分或全部错误,请根据具体错误码排查
282006 batch task limit reached 批量任务处理数量超出限制,请将任务数量减少到10或10以下
282100 image transcode error 图片压缩转码错误
282102 target detect error 未检测到图片中识别目标,请确保图片中包含对应卡证票据,出现此问题的原因一般为:您上传了非卡证图片、图片不完整或模糊
282103 target recognize error 图片目标识别错误,请确保图片中包含对应卡证票据,出现此问题的原因一般为:您上传了非卡证图片、图片不完整或模糊
282110 urls not exit URL参数不存在,请核对URL后再次提交
282111 url format illegal URL格式非法,请检查url格式是否符合相应接口的入参要求
282112 url download timeout url下载超时,请检查url对应的图床/图片无法下载或链路状况不好,或图片大小大于3M,或图片存在防盗链,您可以重新尝试以下,如果多次尝试后仍不行,建议更换图片地址
282113 url response invalid URL返回无效参数
282114 url size error URL长度超过1024字节或为0
282134 officialWeb service exception 增值税发票验真接口,国税局端网络超时(一般因地方税务局升级或系统调整造成,建议您第2日重试)
282808 request id: xxxxx not exist request id xxxxx 不存在
282809 result type error 返回结果请求错误(不属于excel或json)
282810 image recognize error 图像识别错误,请再次请求

如果持续出现以上错误,请联系产研侧解决。

2024-07-09
0 0