zhencon

电子发票的目前有PDF和ofd两种。虽然有标准发票尺寸,但各地具体文件格式有差异。甚至还有原来的机打发票和区块链发票。包括近期推广的全电发票。
总体看种类多格式差异大。如何准确提取发票中信息,并生成格式化数据报表就成为很多从业者的工作难题。发票提取到底如何实现?哪种技术更适合?下面简单分析下:

1、目前主要有PDF 、OFD、OCR 三种技术。对比分析如下:

图片OCR技术 PDF、OFD解码技术
通过PDF和ofd转图片/文件扫描或拍照,进行OCR识别。 直接PDF和OFD文件编码级别提取发票信息。
优点:统一转为图片的识别 优点:精准无误。
缺点:需要转为图片,OCR需要训练,存在识别模糊和错别字问题。 对图片清晰度有要求。 缺点:引擎解码实现有技术工作量。

2、解决办法和工具

(1)办公软件自带的pdf处理插件。

  office和国产office类软件wps、adobe pdf 、PDF转换软件。
 **问题**:无法针对发票进行专门处理。

(2) 在线的发票处理平台。

  网页版或web浏览器的形式提供发票处理。

问题: 收费高(按张收费),有数量限制。需要上传发票到别人平台,财务数据泄露。给企业带来不可估量的风险。
在线发票处理

(3) 专用客户端发票软件。

  专门针对发票进行解码识别。
比如:zhencon tech的票格子软件。 内置PDF和ofd专用解码引擎,电子发票批量转excel。

没有数量限制。不上传数据。有免费额度。简单好用。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述