如何搜索将近100年积累的文档。NPO Energomash和ABBYY的经验

许多人都知道ABBYY处理并从各种文档中提取数据。但是我们的产品还有其他有趣的可能性。特别是,使用ABBYY智能搜索解决方案,您可以快速方便地从公司系统中搜索电子文档中有意义的信息。俄罗斯大型公司(例如,火箭发动机制造商NPO Energomash)已经使用了这种方法



长期实践表明,从开始工作到将太空发动机推向市场所需的时间为5至7年。同时,为了保持领先地位,有必要将开发和生产时间减少到3-4年。另外,竞争的加剧导致需要将制造的发动机的成本显着降低30-50%。



如果不引入现代数字技术,就无法实现这些指标。最先进的公司不仅在生产的各个阶段,而且还在产品生命周期的各个阶段都使用创新的方法。公司数字化程度越高,问题就越尖锐:如何利用大数据为自己带来最大利益?



NPO Energomash拥有90多年的工作经验,已积累了一个世纪的文档(纸质和电子文档),其中包含有关测试人员和设计师发展的宝贵信息。大多数文档已经存储在公司的信息系统(IS)中。根据IDC研究,大型组织的员工平均使用5-6个内部IS。平均而言,大约36%的时间用于搜索信息-在一家大公司中,每天的工作时间为数千。



今天,我们将告诉您我们如何帮助NPO Energomash创建基于ABBYY Intelligent Search的企业智能信息检索系统(KIIPS)-与流行的搜索引擎一样方便快捷。



Energomash有什么作用,加加林有什么作用



自1929年5月15日成立以来,Energomash不仅在俄罗斯而且还在国外制造了超过12,000种用于运载火箭的发动机。这些“马达”被用来发射第一颗人造地球卫星,第一颗宇航员尤里·加加林(Yuri Gagarin)进入太空“沃斯托克1号”,飞向“暴风雪”飞机,美国的运载火箭阿特拉斯和安塔雷斯仍在发射。例如,2020年3月26日火箭Atlas V型,配备俄罗斯发动机,带来了进入轨道美军战略卫星通信系统。 2020年上半年,Energomash开发的发动机成功地进行了11次太空发射,占全球所有发射的24.4%。



如今,Energomash成为国有公司Roscosmos的一部分,领导着火箭推进系统的集成结构,其中包括该行业的领先企业。



近年来,该公司一直积极引入大规模的IT解决方案,这些解决方案广泛使用了数据分析,机器学习和自然语言处理技术的所有功能。该公司设定了到2021年实现全数字化制造的战略目标。



例如,在“数字设计和生产技术”项目的框架内»关键任务之一是实施PLM系统(产品生命周期自动化管理系统)。其目标是确保创建电子设计文档(ECD)并在此基础上对NPO Energomash的技术和生产部门中的发动机及其他工作流程进行建模,并准备在行业企业之间交换ECD。



为什么有必要搜索Energomash的宇宙



为了实现创建数字化产品的战略目标,该公司正在基于大量数据的基础上开展一系列项目。其中之一是创建公司智能信息检索系统的项目。



该项目的目标是保存,增加数字生产的服务并将其投入数十年的工作中积累的企业知识和能力。



在项目框架内,解决了两个任务:



1)。使设计人员和工程师更容易在过去几年中的文档中找到有用的信息。



苏联创造了许多发展,但并未全部实现,因为投资并不总是分配给他们,或者技术发展水平不允许完成计划。在我们这个时代,这种发展可以找到第二生命。为此,该公司要求经验丰富的设计师分享他们的研究成果和图纸,这些研究成果和图纸仍在纸上。这将有助于数字化有价值的数据,将其保存很多年,并将知识转移给年轻的科学家和工程师。



当然,Energomash以前是在电子系统中搜索文档的,但是对于员工而言,查找工作所需的信息并不容易。



在扰流板下方,我们将更详细地告诉您该过程的安排方式。
7 . , - , , - – , , . , , :



  • ;
  • ;
  • , , .


, , , , . , , : . , .



:



  • . , , ;
  • , , .


. « » () , . , « », , , , , , . , , . - , «».



, , , , , .



2)。简化并加快对服务单位数据的搜索:会计师,律师和其他专家,他们负责撰写,编辑,协调会计系统中的文档并交换信息。



该公司希望员工能够通过简单地在一个搜索字符串中输入查询来收集和分析他们需要的财务,制造以及其他相关信息,以通过不同的公司系统完成工作。必须创建对公司信息系统中存储的数据的单点访问,并根据每个系统中用户的权限提供对信息的定界访问。



它为什么如此重要?在接下来的7年中,全球超过一半的数据将存储在公司系统中希捷和IDC数据年龄报告。为了始终掌握必要的信息,您需要快速找到它。因此,根据IDC和ABBYY “俄罗斯的人工智能市场”的一项研究,在接下来的两年中,IT代表(48%)和业务部门(33%)的代表看到了将AI用于公司搜索和文档分类的巨大机会。



为了应对这些任务,该公司需要在众多IP上进行便捷的端到端搜索。Energomash考虑了几种搜索引擎,但最终决定尝试ABBYY智能搜索。首先,选择受到了自然语言处理技术的影响,这些自然语言处理技术使您可以通过意义而不是仅通过关键词来查找与搜索查询相关的文档。其次,区分用户对搜索结果的访问权限的能力。我们稍后会再告诉您有关此事的更多信息-我们是如何开始的。



搜索的第一个“退出”



Energomash决定从研究,设计和计算工作的信息数据库(IDB)中检查3,000个文档的智能搜索工作。

为此,ABBYY开发了IDB连接器的原型,该连接器将ABBYY Intelligent Search连接到文档库。连接器是一个Java程序,用于将文档加载到索引中。怎么运行的?



1)。首先,我们建立全文搜索索引



粗略地说,全文索引是文档中所有单词及其元数据(文档编号,标题,创建日期)的列表。全文索引的创建速度非常快,可让您通过关键字(在文本中出现的关键字)搜索必要的信息。



图片





要建立全文索引,您需要一个连接器。它将搜索解决方案连接到特定的信息系统,并收集(​​“索引”)每个文档的特征,例如:



  • 文件存储IP的名称,
  • 文件的最后修改日期,
  • 源文件中的文件版本,
  • 文件格式
  • 拟定文件所用语言的代码,
  • IS中文档的路径,
  • 最后索引文件的日期
  • 等等。


将来,这些特征将不仅有助于加快文档搜索速度,而且还简化了为连接器使用它们的逻辑。特别是,连接器分析同一文档的不同版本,以便仅将最后一个版本放入索引中。连接器还接收有关已从源中删除的文档的信息。



ABBYY Intelligent Search内置的搜寻器(搜索机器人)有助于创建搜索索引。他会定期轮询连接器,检查IS中是否出现了新文档,已删除了哪些文档,对文档的访问权限如何更改。因此,索引以给定的频率更新。



不仅索引了文本文档,还索引了图形文件。例如,可以扫描没有文本层的JPEG或PDF图纸副本。使用图像时,搜索解决方案首先会自动识别文本并将其添加到搜索索引中。



此外,系统可以处理ZIP,RAR,TAR存档文件-前提是它们不受密码保护。解压缩档案,识别其中的图像,索引文本。







搜索索引包含一组任意字段,也可以用于过滤搜索结果(文档作者,创建日期,产品编号等)。



2)。然后我们应用自然语言处理技术



在后台,搜索索引富含语义信息。为此,我们使用了已有的语义语言本体-换句话说,是对现实世界中对象和现象的描述。我们已经在这里这里谈论过如何在Habré上创建此模型



使用机器学习和自然语言处理技术,每个文档都会分析文本中每个单词的句子语法,形态和语义含义。此信息补充搜索索引并有可能通过关键字搜索不到,但通过同义词,下义词以及传达相同含义但表达方式不同的其他构造。因此,搜索引擎可以更准确地搜索公司资源中的信息。







如果我们的同龄人用他自己的话制定了一个搜索查询,并且想要查找40岁的文档,那么他所需要的主题可能被其他术语所称,这将非常方便。例如,对于查询“框架缺陷”,系统将选择与此术语相关的所有可能的语义表达。结果可能包括“挠度”,“”,“扭结”或“违反设计技术文档事实”。



这是另一个示例:



图片

推力波动的搜索结果还将显示包含短语“推力变化”的文本



自然语言处理技术还可以帮助搜索引擎自动更正查询文本中的拼写错误。例如,系统将理解单词“ bearing”中存在错误,并将立即搜索提及“ bearing”的文档。



首次发布的结果



为了评估智能搜索引擎的工作,Energomash专家使用IDB内置搜索引擎ABBYY Intelligent Search完成了大约30个IDB文档查询。然后他们比较了搜索结果:两个系统都找到了哪些文档,片段中突出显示了哪些短语。结果,内置在IDB中的搜索未返回某些查询的结果,因为它只能检测关键词,而不能检测相关词。 ABBYY智能搜索已返回与所有查询相关的文档。



至于速度,在满足硬件平台要求的同时像流行的搜索引擎一样,搜索响应不超过一秒钟的时间。最复杂的查询最多需要3秒钟。



在成功的试点项目之后,Energomash决定在公司智能信息搜索系统的核心使用ABBYY智能搜索解决方案。



让我们走得更远



Energomash将7个公司资源与该搜索相关联:LanDocs电子文件管理系统,文件存储,IDB,TeamCenter产品生命周期支持系统,Garaktika ERP和AMM资源管理系统以及项目管理信息系统。已为每个信息系统创建一个单独的索引。这使搜索引擎的管理更加灵活,并有可能为每个系统分别重建索引,设置新条件。通过公司内部主页上的公司门户组织对公司搜索系统的访问。该项目是与合作伙伴LANIT共同实施的,LANIT是俄罗斯最大的多元化IT公司集团。



公司搜索系统的主要模块:



  • 搜索查询和搜索结果的主页;
  • 管理面板(为每个信息系统设置索引,过滤器,元数据);
  • 统计文件数量(显示该期间每个信息系统的索引中的文件数量)。


企业搜索系统自2020年7月1日起投入商业运行。在启动时,已索引了50万份文档。预计到年底,随着该系统的积极使用和新信息源的连接,索引中的文档数量将超过100万。



如何确保安全



像任何大型企业一样,NPO Energomash的文档并非供所有员工使用。启动该项目时,关键的安全要求是根据每个信息系统的角色模型提供对文档的访问。为此:



1)。本地信息存储



ABBYY搜索解决方案部署在NPO Energomash内部电路中的单独服务器上。所有搜索索引及其丢失时的备份及其设置都存储在此处。



2)。信息系统的角色模型



为了安全起见,针对每个信息系统组织了用户对搜索结果的访问权限的区分。连接到ABBYY Intelligent Search的所有公司系统都支持域授权。用户使用域帐户登录系统,执行请求,并在搜索结果中看到文档,其中考虑了每个信息系统的文档预览设置和直接在公司搜索系统本身中进行的访问级别,并考虑了对源信息系统本身中文档的访问... 如果用户有权在源系统中使用文档,则可以通过单击链接直接从公司搜索系统过渡到原始文档。



对未来的计划



根据Energomash的想法,智能信息检索将有助于简化和加速企业的业务流程,例如,间接加速新产品进入市场,提高其质量并降低成本。旧文档中保留的想法和项目可用于企业的现代发展。例如,在发展的基础上创造出全新的事物,并在世界市场上保持领先地位。



让我们还提及我们的未来计划:



  • 将来,计划将Energomash结构中其他企业的信息源连接到公司搜索系统。在这种情况下,搜索索引可以扩展到200万个文档。
  • , , – . , - . , , : , - , . , , . , , .
  • Energomash还计划探索使用搜索功能构建复杂分析报告的可能性。





您认为,使用公司搜索还可以解决什么其他任务?



All Articles