在aarch64平台与x86平台下使用cpu进行PaddleOCR的C++推理，性能差距巨大是正常的吗？ #14280

huameinan219 · 2024-11-27T06:41:29Z

huameinan219
Nov 27, 2024

运行平台：
aarch64: FT-2000+与Kunpeng-920(服务器cpu)，paddle_inference为编译paddle-release/2.6生成的预测库，opencv-3.4.7
x86：Intel 13th i5-1340P(笔记本cpu)，paddle_inference为官方提供的基于paddle-2.3的预测库，opencv-3.4.7
其中x86平台未开启mkl，在x86这边推理耗时大概1.5秒左右，而在鲲鹏920上耗时为40多秒，飞腾2000要100多秒，且在aarch64这边均开启了40个线程，x86这边只使用了10个线程。

GreatV · 2024-11-30T03:12:51Z

GreatV
Nov 30, 2024
Maintainer

在aarch64平台与x86平台下使用CPU进行PaddleOCR的C++推理时，性能差距巨大的情况确实可能是正常的，原因如下：

1. 硬件架构差异

x86架构（Intel i5-1340P）：
- 高度优化的指令集（如AVX2、AVX512）可以显著提升矩阵计算和向量化操作的效率。
- 通常具有更高的主频和更高性能的单核计算能力。
aarch64架构（FT-2000+ 和 Kunpeng-920）：
- 更注重功耗优化，单核性能通常较低。
- 多核扩展性较好，但在某些任务中，任务分解和线程调度可能未充分利用多核优势。

2. 线程数与并行化性能

您提到在aarch64平台开启了40个线程，而在x86平台仅使用了10个线程。然而：
- 线程数增加并不一定带来线性性能提升，尤其是在任务本身的计算密集型特性不足或内存带宽受限的情况下。
- 如果任务的并行化程度不高（如OCR中的某些推理步骤），线程数过多可能会引入额外的线程管理开销，反而导致性能下降。

3. 软件优化问题

MKL和MKLDNN优化：
- x86平台通常有Intel MKL库的支持，即使未显式启用，部分操作可能会默认使用MKL优化。
- 在aarch64平台，如果未使用类似的高性能数学库（如ARM Compute Library），性能可能会显著落后。
编译器和编译选项：
- 对于aarch64平台，编译时是否使用了优化选项（如-O3）和平台相关优化（如NEON）至关重要。
- 如果预测库在不同平台上使用了不同的编译参数，性能差距可能进一步扩大。

4. 模型推理框架的差异

您提到使用了不同版本的paddle_inference库：
- x86平台使用的是官方基于Paddle 2.3的库，而aarch64平台使用的是从Paddle 2.6源码编译的库。这可能导致优化层面的差异。
- 较新的版本可能包含更多针对特定架构的优化。
精度设置：
- 在aarch64上，您使用了FP16精度，而在x86上使用了FP32。这种精度差异可能影响推理速度，但FP16通常比FP32更快，因此性能差距的根本原因可能不在这里。

5. 模型和任务特性

OCR任务中，识别模型（rec）通常是性能瓶颈。从您提供的信息来看，rec模型的推理时间差异很大。
使用的模型大小（如PP-OCRv3与PP-OCRv4）和输入图像尺寸是否一致？如果模型不同，性能差距可能与架构无关，而是模型本身的复杂度。

针对性能优化的建议

使用MKLDNN加速
- 在aarch64平台上编译paddle_inference时，确保启用MKLDNN支持，或者尝试ARM Compute Library等加速库。
线程优化
- 调整cpu_math_library_num_threads参数，测试最佳线程数。过多线程可能导致资源竞争而降低效率。
检查库版本一致性
- 确保不同平台使用相同版本的paddle_inference库。尝试在aarch64上用Paddle 2.3进行编译，或者在x86上用Paddle 2.6进行测试，排除版本差异的影响。
启用指令集优化
- 确保在aarch64平台上编译时启用了NEON指令集优化。
模型量化
- 如果模型支持，尝试使用量化后的模型（如INT8）以提升推理速度。
分析性能瓶颈
- 使用Paddle提供的Profiler工具或其他性能分析工具（如perf、gprof）找出具体的性能瓶颈（如矩阵计算、IO操作）。
- 检查是否this->predictor_->Run()是主要耗时步骤。如果是，可能需要优化模型加载和推理流程。

参考讨论

相关的Issues和Discussions提供了一些有价值的调试思路：

Issue #13900：提到Python和C++推理速度差异的原因主要在于this->predictor_->Run()，建议检查推理库的配置和参数。
Discussion #13898：确认C++和Python环境下的模型和参数配置是否完全一致。

希望以上分析能帮助您更好地理解性能差异并优化推理速度！

Response generated by 🤖 feifei-bot | chatgpt-4o-latest

1 reply

huameinan219 Dec 2, 2024
Author

感谢回复，这边后来试了一下，把aarch64这边的CPU线程数修改为1时，推理速度能得到很大的改善，如果设置为2，都会导致推理速度大大降低，可能是paddle_inference对这两款cpu的多线程调度存在问题？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

在aarch64平台与x86平台下使用cpu进行PaddleOCR的C++推理，性能差距巨大是正常的吗？ #14280

{{title}}

Replies: 1 comment 1 reply

{{title}}

{{title}}

Select a reply

在aarch64平台与x86平台下使用cpu进行PaddleOCR的C++推理，性能差距巨大是正常的吗？ #14280

huameinan219 Nov 27, 2024

Replies: 1 comment · 1 reply

GreatV Nov 30, 2024 Maintainer

1. 硬件架构差异

2. 线程数与并行化性能

3. 软件优化问题

4. 模型推理框架的差异

5. 模型和任务特性

针对性能优化的建议

参考讨论

huameinan219 Dec 2, 2024 Author

huameinan219
Nov 27, 2024

Replies: 1 comment 1 reply

GreatV
Nov 30, 2024
Maintainer

huameinan219 Dec 2, 2024
Author