百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

PaddleSharp:跨越一年的版本更新与亮点

csdh11 2025-02-10 11:58 28 浏览

PaddleSharp:跨越一年的版本更新与亮点

我始终坚信,开源社区是技术进步的重要推动力,也是我抽出我业余时间,投入到PaddleSharp这个项目的原因,这个项目充分展现了.NET在复杂计算领域的潜力。今天很高兴地告诉大家,PaddleSharp有了新版本!

先来说说背景,有的朋友可能知道,PaddleSharp过去老版本存在一些东西过时或者无法使用的情况。但是,时光恰恰是优化和革新的好理由和契机,我在距离上一篇文章发布之后,做了许多优化,下面我挑重要的部分做介绍。

整体体验

文档和示例

我一直在更新Github首页的使用文档和示例:

  • https://github.com/sdcb/PaddleSharp (项目首页+整体介绍+推理库部分)
  • https://github.com/sdcb/PaddleSharp/blob/master/docs/ocr.md (PaddleOCR)
  • https://github.com/sdcb/PaddleSharp/blob/master/docs/detection.md (PaddleDetection)
  • https://github.com/sdcb/PaddleSharp/blob/master/docs/rotation-detection.md (RotationDetection)
  • https://github.com/sdcb/PaddleSharp/blob/master/docs/paddle2onnx.md (Paddle模型转Onnx)

里面包含了大致介绍、使用方式、使用示例、注意事项等。

我会持续维护这些文档,尤其是有客户有时向我反馈一些问题,我会将里面一些常见的问题和解决办法写在上面文档中,因此建议初接触PaddleSharp的朋友看看。

xml注释和snuget调试

作为一名程序员,编程体验很重要,方法怎么用,一个是看示例,另一个就是看注释。

为此我将PaddleSharp中所有的公有方法、受保护方法都加上了详尽的xml注释,这一点在Github上显示了超过9000行代码变动,以后在Visual Studio中鼠标放在PaddleSharp里面的类、参数、方法上时,就会显示详尽的注释,比如下面这个注释:

/// 
/// Returns an Action delegate that configures PaddleConfig for use with Onnx.
///

/// The number of CPU threads to use for math operations. A value of 0 sets it to minimum of 4 and the available number of processors.
/// Flag to enable or disable Onnx runtime optimization.
/// Flag to enable or disable memory optimization.
/// Flag to enable or disable logging with glog.
/// The ONNX Runtime paddle device definition.
public static Action Onnx(int cpuMathThreadCount = 0, bool enableOnnxOptimization = true, bool memoryOptimized = true, bool glogEnabled = false)
{
return cfg =>
{
cfg.OnnxEnabled = true;
if (enableOnnxOptimization) cfg.EnableOnnxOptimization();
cfg.CpuMathThreadCount = cpuMathThreadCount switch
{
0 => Math.Min(4, Environment.ProcessorCount),
_ => cpuMathThreadCount
};
CommonAction(cfg, memoryOptimized, glogEnabled);
};
}

可见它会每个成员函数、参数、返回值都作出了详尽的xml注释。

以此为基础,我还将所有的.NET包发布了.snuget包,这些包自带pdb调试符号文件,以后编程中按F11即可单步调试进入PaddleSharp的源代码中,。

Paddle推理库

设备管理

其中,一项重要的改变在于设备使用接口的设计。老版本中只有
PaddleConfig.Defaults.UseGpu
这一设备启用选项,为了增强扩展性和用户体验,便对其进行了扩展:新版本中我引入了下列设备:

  • PaddleDevice.Gpu()
  • PaddleDevice.Openblas()
  • PaddleDevice.Onnx()
  • PaddleDevice.Mkldnn()
  • PaddleDevice.TensorRt()(需要和PaddleDevice.Gpu()配合使用)

不同的方法代表着不同的设备类型,这无疑为用户提供了更大的选择空间,这是PaddleOCR的新版本使用示例(它需要作为PaddleOcrAll的参数传进去):

// 注:需要先安装如下NuGet包:
// * Sdcb.PaddleInference
// * Sdcb.PaddleOCR
// * Sdcb.PaddleOCR.Models.LocalV3
// * Sdcb.PaddleInference.runtime.win64.mkl
// * OpenCvSharp4.runtime.win
FullOcrModel model = LocalFullModels.ChineseV3;

byte[] sampleImageData;
string sampleImageUrl = @"https://www.tp-link.com.cn/content/images2017/gallery/4288_1920.jpg";
using (HttpClient http = new HttpClient())
{
Console.WriteLine("Download sample image from: " + sampleImageUrl);
sampleImageData = await http.GetByteArrayAsync(sampleImageUrl);
}

// 下面的PaddleDevice.Mkldnn()是新加的
// 之前是用的PaddleConfig.Defaults.UseMkldnn = true
// 如果想要GPU,则改为PaddleDevice.Gpu()即可
using (PaddleOcrAll all = new PaddleOcrAll(model, PaddleDevice.Mkldnn())
{
AllowRotateDetection = true, /* 允许识别有角度的文字 */
Enable180Classification = false, /* 不允许识别旋转角度大于90度的文字 */
})
{
// 如果需要读取本地文件,使用如下被注释的代码
// using (Mat src2 = Cv2.ImRead(@"C:\test.jpg"))
using (Mat src = Cv2.ImDecode(sampleImageData, ImreadModes.Color))
{
PaddleOcrResult result = all.Run(src);
Console.WriteLine("Detected all texts: \n" + result.Text);
foreach (PaddleOcrResultRegion region in result.Regions)
{
Console.WriteLine($"Text: {region.Text}, Score: {region.Score}, RectCenter: {region.Rect.Center}, RectSize: {region.Rect.Size}, Angle: {region.Rect.Angle}");
}
}
}

其中用于设备管理的代码在:

using (PaddleOcrAll all = new PaddleOcrAll(model, PaddleDevice.Mkldnn())

它可以换为PaddleDevice.Openblas()(表示不使用Mkldnn):

using (PaddleOcrAll all = new PaddleOcrAll(model, PaddleDevice.Openblas())

或者换成PaddleDevice.Gpu()(表示使用GPU——但必须先安装Gpu的相关包并配好环境):

using (PaddleOcrAll all = new PaddleOcrAll(model, PaddleDevice.Gpu())

当然,我会尽量简化和清晰地解释这个部分。以下是我的修改提案:

库加载方式优化

在旧版PaddleSharp中,库加载方式主要有两种:在.NET Framework中采用Autoload方式,在.NET Core中采用SearchPathLoad方式。然而,这两种方式在某些情况下并不理想,特别是在Linux环境下。

Autoload方式

Autoload方式的主要问题在于,PaddleSharp依赖于paddle_inference_c.dll,而paddle_inference_c.dll又依赖于其他dll如openblas.dll。即使paddle_inference_c.dll成功加载,也可能因为其他依赖dll的问题导致推理失败。

解决办法是在调用依赖dll加载的函数前,先调用一个不会触发加载的函数,例如PaddleConfig.Version。然后在当前进程模型中找到paddle_inference_c模块,定位到它所在的文件夹,并把文件夹路径导入到环境变量中。

SearchPathLoad方式

SearchPathLoad方式利用了.NET Core 3.1引入的AppContext变量:
NATIVE_DLL_SEARCH_DIRECTORIES
。这种方式不需要读取进程模块就能知道dll的位置。

但是,这种方法在Linux环境下行不通。因为LinuxLD_LIBRARY_PATH环境变量必须在进程启动前被确定。一旦进程启动,环境变量的值就被缓存起来,运行时的修改对程序无效。

新的加载方式

为了解决上述问题,新的PaddleSharp版本采用了逐步加载依赖的方式。在Linux环境中,依次加载以下动态库:

  1. libgomp.so.1
  2. libiomp5.so
  3. libdnnl.so.2
  4. libmklml_intel.so
  5. libonnxruntime.so.1.11.1
  6. libpaddle2onnx.so.1.0.0rc2

这种新的加载方式有效解决了在Linux环境下的问题。

PaddleOCR

已经支持表格识别

这个许多客户反馈了许久,我在大概2023年五一的时候实现了表格识别功能,同时表格识别的模型我都加入了
Sdcb.PaddleOCR.Models.LocalV3
/
Sdcb.PaddleOCR.Models.Online
包,可以全离线表格识别或者按需下载模型表格识别。

它的使用示例如下(最新版本请参考这个链接:
https://github.com/sdcb/PaddleSharp/blob/master/docs/ocr.md#table-recognition ):

// Install following packages:
// Sdcb.PaddleInference
// Sdcb.PaddleOCR
// Sdcb.PaddleOCR.Models.LocalV3
// Sdcb.PaddleInference.runtime.win64.mkl (required in Windows, linux using docker)
// OpenCvSharp4.runtime.win (required in Windows, linux using docker)
using PaddleOcrTableRecognizer tableRec = new(LocalTableRecognitionModel.ChineseMobileV2_SLANET);
using Mat src = Cv2.ImRead(Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.MyPictures), "table.jpg"));
// Table detection
TableDetectionResult tableResult = tableRec.Run(src);

// Normal OCR
using PaddleOcrAll all = new(LocalFullModels.ChineseV3);
all.Detector.UnclipRatio = 1.2f;
PaddleOcrResult ocrResult = all.Run(src);

// Rebuild table
string html = tableResult.RebuildTable(ocrResult);

效果如图:

Raw tableTable model outputRebuilt table

值得注意的是,PaddleSharp的表格识别是基于飞桨的深度学习模型,对于一些规整的表格,它的效果可能不如使用传统的OpenCV算法,如果想了解传统算法,可以参考我2021年.NET Conf China做的技术分享的pdf:[.NET玩转计算机视觉OpenCV - 周杰](
https://io.starworks.cc:88/cv-public/2021/.NET%E7%8E%A9%E8%BD%AC%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89OpenCV.pdf
)

两个新的模型包LocalV3/Online

新版本中,还引入了两个新的本地模型包:
Sdcb.PaddleOCR.Models.LocalV3
/
Sdcb.PaddleOCR.Models.Online
。一个表示完全本地——不用联网即可使用OCR,另一个表示需要联网,模型按需下载。

下面是使用
Sdcb.PaddleOCR.Models.LocalV3
的示例:

FullOcrModel model = LocalFullModels.EnglishV3; // 将EnglishV3换为其它模型,如ChineseV3
using (PaddleOcrAll all = new PaddleOcrAll(model))
{
// ...
}

下面是使用
Sdcb.PaddleOCR.Models.Online
的示例:

FullOcrModel model = await OnlineFullModels.EnglishV3.DownloadAsync();
using (PaddleOcrAll all = new PaddleOcrAll(model))
{
// ...
}

其中值得一提的是LocalV3,它将所有已知PaddleOCR的v3模型都包含了,安装这个包可以实现完全不联网部署。

为什么我需要淘汰原来的Sdcb.PaddleOCR.KnownModels

说来话长,首先KnownModels有下面几个缺点:

  • 主要原因是OCR需要使用的文字检测、180度分类、文字识别3个模型会下载到以语言命名的同一个文件夹中:

    C:\Users\ZhouJie\AppData\Roaming\paddleocr-models\ppocr-v3>tree /f
    C:.
    │ key.txt

    ├─cls
    │ inference.pdiparams
    │ inference.pdiparams.info
    │ inference.pdmodel

    ├─det
    │ inference.pdiparams
    │ inference.pdiparams.info
    │ inference.pdmodel

    └─rec
    inference.pdiparams
    inference.pdiparams.info
    inference.pdmodel

    如上图,每个模型的cls文件夹都可能重复占用磁盘空间、且需要重复下载——这不合理。

    因此我引入了
    Sdcb.PaddleOCR.Models.Online
    ,已经下载过的模型不会重复下载,这个行为和PaddleOCR上游Python代码一致。

  • 次要问题是它的命名,KnownModels不能代表它是本地模型还是线上模型(虽然它本质是线上模型、按需下载),如果使用LocalV3Online,则可以清晰地看出是本地模型或者线上模型。

识别阶段走batch

关于性能问题,新版本也做了一些重要的升级。OCR文字识别阶段能够自动支持batch处理,且走batch时会排序,将一样宽的文字行做一批识别,这样大大优化了程序的性能。

据一些客户的测试反馈,PaddleSharpPaddleOCR的性能表现很好,甚至在某些场景下和官方的C++Python版本相比有更好的表现。

总结

其实上面只是一些主要的,其实PaddleSharp项目还有许多非常有意思功能增强,比如RotationDetectionPaddle2Onnx,以后有机会我一一介绍。

想尝试PaddleSharp的朋友,欢迎访问我的[Github](
https://github.com/sdcb/PaddleSharp
)

,也请给个Star??

DotNet骚操作


相关推荐

Github霸榜的SpringBoot全套学习教程,从入门到实战,内容超详细

前言...

SpringBoot+LayUI后台管理系统开发脚手架

源码获取方式:关注,转发之后私信回复【源码】即可免费获取到!项目简介本项目本着避免重复造轮子的原则,建立一套快速开发JavaWEB项目(springboot-mini),能满足大部分后台管理系统基础开...

Spring Boot+Vue全栈开发实战,中文版高清PDF资源

SpringBoot+Vue全栈开发实战,中文高清PDF资源,需要的可以私我:)SpringBoot致力于简化开发配置并为企业级开发提供一系列非业务性功能,而Vue则采用数据驱动视图的方式将程序...

2021年超详细的java学习路线总结—纯干货分享

本文整理了java开发的学习路线和相关的学习资源,非常适合零基础入门java的同学,希望大家在学习的时候,能够节省时间。纯干货,良心推荐!第一阶段:Java基础...

探秘Spring Cache:让Java应用飞起来的秘密武器

探秘SpringCache:让Java应用飞起来的秘密武器在当今快节奏的软件开发环境中,性能优化显得尤为重要。SpringCache作为Spring框架的一部分,为我们提供了强大的缓存管理能力,让...

3,从零开始搭建SSHM开发框架(集成Spring MVC)

目录本专题博客已共享在(这个可能会更新的稍微一些)https://code.csdn.net/yangwei19680827/maven_sshm_blog...

Spring Boot中如何使用缓存?超简单

SpringBoot中的缓存可以减少从数据库重复获取数据或执行昂贵计算的需要,从而显著提高应用程序的性能。SpringBoot提供了与各种缓存提供程序的集成,您可以在应用程序中轻松配置和使用缓...

我敢保证,全网没有再比这更详细的Java知识点总结了,送你啊

接下来你看到的将是全网最详细的Java知识点总结,全文分为三大部分:Java基础、Java框架、Java+云数据小编将为大家仔细讲解每大部分里面的详细知识点,别眨眼,从小白到大佬、零基础到精通,你绝...

1,从零开始搭建SSHM开发框架(环境准备)

目录本专题博客已共享在https://code.csdn.net/yangwei19680827/maven_sshm_blog1,从零开始搭建SSHM开发框架(环境准备)...

做一个适合二次开发的低代码平台,把程序员从curd中解脱出来-1

干程序员也有好长时间了,大多数时间都是在做curd。现在想做一个通用的curd平台直接将我们解放出来;把核心放在业务处理中。用过代码生成器,在数据表设计好之后使用它就可以生成需要的controller...

设计一个高性能Java Web框架(java做网站的框架)

设计一个高性能JavaWeb框架在当今互联网高速发展的时代,构建高性能的JavaWeb框架对于提升用户体验至关重要。本文将从多个角度探讨如何设计这样一个框架,让我们一起进入这段充满挑战和乐趣的旅程...

【推荐】强&牛!一款开源免费的功能强大的代码生成器系统!

今天,给大家推荐一个代码生成器系统项目,这个项目目前收获了5.3KStar,个人觉得不错,值得拿出来和大家分享下。这是我目前见过最好的代码生成器系统项目。功能完整,代码结构清晰。...

Java面试题及答案总结(2025版持续更新)

大家好,我是Java面试分享最近很多小伙伴在忙着找工作,给大家整理了一份非常全面的Java面试场景题及答案。...

Java开发网站架构演变过程-从单体应用到微服务架构详解

Java开发网站架构演变过程,到目前为止,大致分为5个阶段,分别为单体架构、集群架构、分布式架构、SOA架构和微服务架构。下面玄武老师来给大家详细介绍下这5种架构模式的发展背景、各自优缺点以及涉及到的...

本地缓存GuavaCache(一)(guava本地缓存原理)

在并发量、吞吐量越来越大的情况下往往是离不开缓存的,使用缓存能减轻数据库的压力,临时存储数据。根据不同的场景选择不同的缓存,分布式缓存有Redis,Memcached、Tair、EVCache、Aer...