首页 > 最新资讯 > 在 NVIDIA NGC 上体验一键 PDF 转 Word
在 NVIDIA NGC 上体验一键 PDF 转 Word

在 NVIDIA NGC 上体验一键 PDF 转 Word

2022-11-03 14:13

#人工智能 #深度学习


PaddleOCR 发版 v2.6,带来全新升级的 PP-StructureV2 智能文档分析系统,实现一键 PDF 转 Word。欢迎广大开发者使用 NVIDIA 与飞桨共同深度适配的 NGC 飞桨容器在 NVIDIA GPU 上体验!

1. PaddleOCR v2.6 版本升级

随着企业数字化进程不断加速,PDF 转 Word 的功能、纸质文本的电子化存储、文件复原与二次编辑、信息检索等应用都有着强烈的企业需求。目前市面上已有一些软件,但普遍需要繁琐的安装注册操作,大多还存在额度限制。此外,最终转换效果也依赖于版面形态,无法做到针对性适配。

针对开发者的需求,飞桨文字识别套件 PaddleOCR 全新发布 PP-StructureV2 智能文档分析系统,支持一行命令实现 PDF 转 Word 功能,文字、表格、标题、图片都可完整恢复,一键实现 PDF 编辑自由!

文档分析示例

PP-StructureV2 智能文档分析系统升级点包括以下 2 方面:

系统功能升级:新增图像矫正和版面复原模块,支持标准格式 PDF 和图片格式 PDF 解析!

系统性能优化:

版面分析:发布轻量级版面分析模型,度提升 11 倍,平均 CPU 耗时仅需 41ms!

表格识别:设计 3 大优化策略,预测耗时不变情况下,模型精度提升 6%。

关键信息抽取:设计视觉无关模型结构,语义实体识别精度提升 2.8%,关系抽取精度提升超过 9.1%。

 

GitHub 传送门:

https://github.com/PaddlePaddle/PaddleOCR

1.1 PP-StructureV2 智能文档分析系统优化策略概述

 

PP-StructureV2 系统流程图如下所示,文档图像首先经过图像矫正模块,判断整图方向并完成转正,随后可以完成版面信息分析与关键信息抽取 2 类任务。

在版面分析任务中,图像首先经过版面分析模型,将图像划分为文本、表格、图像等不同区域,随后对这些区域分别进行识别,如,将表格区域送入表格识别模块进行结构化识别,将文本区域送入 OCR 引擎进行文字识别,最后使用版面恢复模块将其恢复为与原始图像布局一致的 Word 或者 PDF 格式的文件。

在关键信息抽取任务中,首先使用 OCR 引擎提取文本内容,然后由语义实体识别模块获取图像中的语义实体,最后经关系抽取模块获取语义实体之间的对应关系,从而提取需要的关键信息。

从算法改进思路来看,对系统中的 3 个关键子模块,共进行了 8 个方面的改进:

版面分析

PP-PicoDet:轻量级版面分析模型

FGD:兼顾全局与局部特征的模型蒸馏算法

表格识别

PP-LCNet: CPU 友好型轻量级骨干网络

CSP-PAN:轻量级高低层特征融合模块

SLAHead:结构与位置信息对齐的特征解码模块

关键信息抽取

VI-LayoutXLM:视觉特征无关的多模态预训练模型结构

TB-YX:考虑阅读顺序的文本行排序逻辑

UDML:联合互学习知识蒸馏策略

最终,与 PP-StructureV1 相比:

版面分析模型参数量减少 95%,推理速度提升 11 倍,精度提升 0.4%;
表格识别预测耗时不变,模型精度提升 6%,端到端 TEDS 提升 2%;
关键信息抽取模型速度提升 2.8 倍,语义实体识别模型精度提升 2.8%;关系抽取模型精度提升 9.1%。

PP-StructureV2 优化详细策略解析三日课回放,可以扫描下方二维码,加入 PaddleOCR 官方交流群获取。除此之外,入群福利还包括:社区开发者基于 PP-StructureV2 开发的 PDF2Word 应用程序、《动手学 OCR》电子书、10 个 OCR 场景应用垂类模型等。

PP-StructureV2 技术报告:

https://arxiv.org/abs/2210.05391v2

2. NGC 飞桨容器介绍

如果您希望体验 PaddleOCRv2.6 的新特性,欢迎使用 NGC 飞桨容器。NVIDIA 与百度飞桨共同开发了 NGC 飞桨容器,将最新版本的飞桨与最新的 NVIDIA 的软件栈(如 CUDA)进行了无缝的集成与性能优化,最大程度的释放飞桨框架在 NVIDIA 最新硬件上的计算能力。这样,用户不仅可以快速开启 AI 应用,专注于创新和应用本身,还能够在 AI 训练和推理任务上获得飞桨+NVIDIA 带来的飞速体验。

最佳的开发环境搭建工具 - 容器技术。

 

容器其实是一个开箱即用的服务器。极大降低了深度学习开发环境的搭建难度。例如你的开发环境中包含其他依赖进程(redis,MySQL,Ngnix,selenium-hub等等),或者你需要进行跨操作系统级别的迁移。

容器镜像方便了开发者的版本化管理

容器镜像是一种易于复现的开发环境载体

容器技术支持多容器同时运行

最好的 PaddlePaddle 容器

NGC 飞桨容器针对 NVIDIA GPU 加速进行了优化,并包含一组经过验证的库,可启用和优化 NVIDIA GPU 性能。此容器还可能包含对 PaddlePaddle 源代码的修改,以最大限度地提高性能和兼容性。此容器还包含用于加速 ETL (DALI, RAPIDS)、训练(cuDNN, NCCL)和推理 (TensorRT)工作负载的软件。

PaddlePaddle 容器具有以下优点:

 

适配最新版本的 NVIDIA 软件栈(例如最新版本 CUDA),更多功能,更高性能。

更新的 Ubuntu 操作系统,更好的软件兼容性

按月更新

满足 NVIDIA NGC 开发及验证规范,质量管理

通过飞桨官网快速获取

 

环境准备

 

使用 NGC 飞桨容器需要主机系统(Linux)安装以下内容:

Docker 引擎

NVIDIA GPU 驱动程序

NVIDIA 容器工具包

有关支持的版本,请参阅 NVIDIA 框架容器支持矩阵NVIDIA 容器工具包文档

不需要其他安装、编译或依赖管理。无需安装 NVIDIA CUDA Toolkit。

NGC 飞桨容器正式安装:

要运行容器,请按照 NVIDIA Containers For Deep Learning Frameworks User’s Guide 中 Running A Container 一章中的说明发出适当的命令,并指定注册表、存储库和标签。有关使用 NGC 的更多信息,请参阅 NGC 容器用户指南。如果您有 Docker 19.03 或更高版本,启动容器的典型命令是:

*详细安装介绍 《NGC 飞桨容器安装指南》

https://www.paddlepaddle.org.cn/documentation/docs/zh/install/install_NGC_PaddlePaddle_ch.html

*详细产品介绍视频

【飞桨开发者说|NGC 飞桨容器全新上线 NVIDIA 产品专家全面解读】 

https://www.bilibili.com/video/BV16B4y1V7ue?share_source=copy_web&vd_source=266ac44430b3656de0c2f4e58b4daf82

3. 飞桨与 NVIDIA NGC 合作介绍

目前飞桨已拥有超过 470 万的开发者。而在过去五年,飞桨与 NVIDIA 团队紧密合作,双方深度融合,做了大量适配工作,如下图所示。

今年,NVIDIA 在国内也已经设立了专门的工程团队支持,赋能飞桨生态。

而为了让更多的开发者能用上基于 NVIDIA 最新的高性能硬件和软件栈。当前,NVIDIA 团队正在进行全新一代 GPU 的适配工作,以及提高飞桨对 CUDA Operation API 的使用率,让飞桨的开发者拥有优秀的用户体验及极致性能。

以上的各种适配,仅仅是让飞桨的开发者拥有高性能的推理训练成为可能。但是,这些离行业开发者还很远,门槛还很高,难度还很大。

为此,我们将刚刚这些集成和优化工作,整合到三大产品线中。其中 NGC 飞桨容器最为闪亮。

NVIDIA NGC Container – 最佳的飞桨开发环境,集成最新的 NVIDIA 工具包(例如 CUDA)

 

 

相关新闻