背景说明

在最近的项目开发中,遇到一个Python处理性能问题

由于实时数据量较大(每秒有2100条日志,且每条日志平均大小在1kB左右),且受制于硬件资源限制,使用Python做实时数据处理,无法完成当前规模的数据集处理能力,数据越积越多,数据入库延时越来越长!

  • 第一版Python实现,其处理性能:840/s
  • 优化版Python实现,其处理性能:1100/s

离2100/s,才刚满足其一半的性能,这是不能接受的!

结论:在不使用Python多并发处理或增加硬件资源条件下,Python是不能完成当前系统性能要求的!

补充说明:

开3~4个Python数据处理进程能够刚刚满足系统性能要求,但是数据处理仅是系统一个模块,系统还有其他功能模块,对数据处理硬件资源要求,CPU不超过2个逻辑核心,内存最大不超过4GB;

关于硬件资源,由于项目规模原因,设备资源是有限的。

解决方案

本身知道Python运行速度并不快,跟其他编程语言(Java、Golang、C++等)性能差距较大。平时项目开发,使用Python都没有任何问题。确实没有重视Python性能方面的问题。

综合考虑,就眼下项目实际情况,为解决数据处理性能问题,采用Golang方案,使用Go语言重写数据处理模块代码逻辑,并最终解决了数据处理的性能问题

最后说一下Go版数据处理性能:Go版数据处理性能是Python版的4到5倍,2100条日志处理只用了0.3s,仅使用单核CPU未并非处理,而且也只使用了单核 CPU 60%的处理性能!

Python性能测试

接下来进入主题,Python运行效率慢于其他编程语言,到底有多慢呢?那我们做一个Python的性能测试。

1.测试内容:

求0~N之间质数个数,具体求以下整数区间质数个数:

  • 0~1w
  • 0~4w
  • 0~10w
  • 0~20w
  • 0~50w
  • 0~100w

强调说明:本测试只是用来说明Python运行效率,语言其他方面的对比不属于该测试范畴!

2.测试编程语言包括:

测试编程语言有:C语言、Java、node.js、Golang、Python等,通过不同语言测试结果,对比得出Python的运行效率结论。

语言版本说明:

  • C语言:gcc version 8.1.0
  • Java:1.8.0_121
  • Nodejs:v10.15.3
  • Golang:v1.12.7
  • Python:v3.7.3

除了Python,选择了C语言、Java、Nodejs、Golang作为性能对比测试语言,代表了当前主流的、使用广泛的编程语言

3.测试环境说明:

  • 在windows10最新版本;
  • java代码打包成可执行jar包,python代码生产pyc文件,C代码和Go代码生产各自的可执行代码;

  • 求素数过程采用相同的方法(两层for循环)

4.测试结果:

5.测试结论:

这5种编程语言,C语言运行效率最高,Python的运行效率最差。

C语言、Java、Node.js、Golang的运行效率比Python成几何倍数高。

举一个比较明显测试结果,求0~20w之整数区间的质数个数,这个过程:

  • C语言用时6s
  • Java用时7s
  • Nodejs用时8s
  • Golang用时17s
  • Python用时121s,是C语言的20倍,是Java的17倍,是Nodejs的15倍,是Go的7倍
开发效率和运行效率

对编程而言,开发效率和运行效率是始终是对立的:

  • 追求开发效率高,其运行效率不快;
  • 追求运行效率高,其开发效率不快;

既能保证开发效率,又能兼顾运行效率,那只能等到量子计算机普及了,扯远了....

Python的开发效率

Python运行效率不高,但是其开发效率很高,这就是Python的优势,简单易学习,快速入门、实现短周期迭代开发,加之拥有丰富的、功能强大第三方库,一旦你使用Python一段时间,你就会对它上瘾,产生依赖,离不开它,再使用其他编程语言,各种不适应,因为Python给我们开发带来了太多方便,这就是Python开发效率!

再举个例子

网上有这样一个段子,同样一个功能模块,使用C语言实现需要写几百行代码,使用Java实现需要写100行代码,使用Python实现就需要十几行代码,这个一点不夸张,确实是这样,虽然Python运行效率不强,但是Python的开发效率快。

综述

这个测试目的:是对Python这门语言有一个正确的认知,不仅要知道Python功能强大,优势众多,应用广泛,但性能是Python不能规避的问题,只有了解了这些,我们才能正确运用Python!