👨🏻‍🔬 ✏️ 🕔 识别私人示例中的文件-可用的付费和免费解决方案概述 📢 🖖🏽 ⏮️

你好！这是我工作所在公司的典型情况。在会计中，有一个永恒的仓促，没有足够的人，每个人都在做绝对重要的事情，但实际上是无用的。这种情况不适合管理层。

更具体地说，问题在于会计资源不足以完成当前任务，而且没人愿意为新员工分配费率。因此，他们决定从上面削减一些任务，并腾出会计师的时间来处理更多有用的事情。诸如扫描和识别文档，进行复制，将其添加到其他日常工作中之类的工作就落到了刀下。

因此，作为一名分析师，我面临着寻找一种解决方案的任务，该解决方案可识别公司典型的文件-发票-将其结构化为可用存储以及1C格式。一种方便，可理解且不会花费公司一分钱的解决方案。

原来的经历很有趣，我决定分享自己设法收集的东西。也许我错过了一些东西，如果有任何补充，欢迎在评论中提出。

文件扫描程序，文件识别程序并不是市场上的新解决方案，可以在免费程序中找到它，也可以在系统中找到它。

我从免费程序开始：

glmageReader
文书工作
越南OCR
CuneiForm。

在通过此类程序确认我们的发票期间，我看到了以下内容：

在VietOCR，Paperwork，glmageReader等程序中，您可以配置扫描文件在特定文件夹中的存储，Paperwork甚至可以根据标签对它们进行排序。
它们通常可以很好地处理文本，并且在无法正确识别文本的情况下，某些程序可以在导出文件之前手动更改内容。

但是，还有一些问题：

使用pdf扫描和png有区别。并非总是能够成功将png转换为pdf。
这些程序大多数都难以应对表格文档的识别，即使是最简单的格式。结果，我们得到了没有标记字段的可识别文本。
有时，字体不正确地确定，因此，在转换时，所有识别的文本会相互重叠。
在识别过程中，有时需要通过关键字进行旋转和坐标位移对齐。
在某些程序中，表格被识别为图片，并被导出为新的Word文档，也被图片截断，甚至很难看到。
在某些程序中编辑可识别的内容时，出现了问题，字体或文本本身也发生了变化。

该技术运行良好，考虑到程序是免费的，上述问题是可以接受的。但是，我一直在寻找更简化的解决方案。

然后，我在ABBYY FineReader 15 Corporate中研究了识别度

在7天的试用期内，我也研究了该平台。

注意事项：

当我打开png文件时，它被完美读取，结果，它成功转换为pdf，而不会损失图像和文本的质量。
, . png , .
- pdf. .
, , .
OCR pdf -. - .
, , . , , .
在这里，您可以设置自动转换传入的文档，这些文档将根据指定的时间表定期从指定的文件夹中提取。
它使您可以比较文档的版本，即使它们的格式不同。由于文档和编辑量很大，因此非常方便。

使用该软件给我带来了愉快的体验。但是，当我转向ABBYY Flexicapture系统解决方案的价格标签时（我只需要系统解决方案），我发现该解决方案（尤其是定制解决方案）的费用相当可观，约为40万卢布/月。及以上一万页。

我开始寻找替代方案。如何释放员工的双手，获得高质量的文档识别，而不必担心数据的安全性和结构。

然后，我决定对以前已经研究过的ELMA RPA进行更好的研究。

供应商建议将将数据导出到ERP的大部分工作从会计人员转移到机器人。实际上，这正是解决我所面临问题的方法。为了熟悉该系统，我从供应商那里获取了该系统的试用版。

在这里，我发现识别并不是要将接收到的数据转换为新的文档文件。

这里的主要目标是识别文档的详细信息，并将其传输到其他系统/站点/应用程序。此外，机器人会将所有信息放在需要的地方：它们会自动找到必要的文件夹，并以所需的格式保存它们。

我查看了系统中的哪些识别类型：

模式识别

我们提供了基于文档模板识别加载的文档的功能。据我所知，这种识别是免费的，Tesseract引擎已连接到其中。

注意事项：

这种类型的识别适用于jpg和png格式的扫描，但尚不考虑pdf。但是产品还很年轻，我认为一切都在前面。
免费社区版中包含这种类型的识别
文本方便地标记为块，可以根据我们在机器人上下文中创建的变量进行匹配。因此，手动配置我们将要准确识别的内容。
他认出了我们的发票50/50，并视情况更改了一些字眼。:)

但是，这种情况下的卖方说，这种类型的识别适用于具有文本结构或浅色形式的简单文档。而且他建议使用另一种类型的识别来识别发票智能实验室。

过程是相同的，我们加载模板并通过它识别它。但是这里模板被发送到云服务器。

我们从服务器收到响应（无论它是否识别这种类型的文档），如果识别出，则将传递模板结构（用于映射的变量）以匹配需要在RPA流程中编写的变量。

在播放过程中，我们已经发送了一个我们希望识别的文档，并从iLab服务器收到了有关识别的响应。

我对这种认可所指出的是：

pdf, jpg png.
. .
- .
, 1. , , , , .
Community Edition . , (, , .), , 100 500 . ( , , .)

文档识别过程本身很难在视频上显示，因为它发生在框中，并且屏幕空了几秒钟。因此，我将识别出的数据分别输入笔记本以进行可视化。

在记事本中识别文档

因此，机器人在1C中写入了相同的数据，并在其中创建了一个新文档：

1C中的文档识别和创建

我们设法通过价格找出了什么：例如，如果我们想通过ilab识别进行大规模工作，那么对于我们的10,000个文档，我们将必须支付：

约18万卢布。一次
加上40万卢布。与协调器一起购买机器人
总计：580,000卢布。

该机器人是不受限制的，并且一段时间内可以容纳10,000个文档。事实证明，这是非常有利可图的，至少在我们为所有事情支付一次的事实上。

总的来说，我们喜欢该平台中的识别功能：

, , . .
, , , . .
. 15 , — . , .
, .

:

自由程序比我期望的更好地处理文档识别任务，但是由于这些自由程序，不可能大幅度加快工作量
之后，ABBYY FineReader可以很好地处理和识别文档，但是，要获得系统解决方案，您需要强大的财务能力。
ELMA RPA对文档识别的质量，可变性以及识别后的存储和传输功能感到惊讶，但应记住该产品还很年轻。

识别私人示例中的文件-可用的付费和免费解决方案概述

我从免费程序开始：

然后，我在ABBYY FineReader 15 Corporate中研究了识别度

然后，我决定对以前已经研究过的ELMA RPA进行更好的研究。

模式识别

:

More articles: