python多线程能提高效率吗

2024年11月19日 11:19

有3个网友回答

网友（1）：

如果你的代码是CPU密集型，多个线程的代码很有可能是线性执行的。所以这种情况下多线程是鸡肋，效率可能还不如单线程因为有context switch

但是：如果你的代码是IO密集型，多线程可以明显提高效率。例如制作爬虫（我就不明白为什么Python总和爬虫联系在一起…不过也只想起来这个例子…），绝大多数时间爬虫是在等待socket返回数据。这个时候C代码里是有release GIL的，最终结果是某个线程等待IO的时候其他线程可以继续执行。

反过来讲：你就不应该用Python写CPU密集型的代码…效率摆在那里…

如果确实需要在CPU密集型的代码里用concurrent，就去用multiprocessing库。这个库是基于multi process实现了类multi thread的API接口，并且用pickle部分地实现了变量共享。

再加一条，如果你不知道你的代码到底算CPU密集型还是IO密集型，教你个方法：

multiprocessing这个module有一个dummy的sub module，它是基于multithread实现了multiprocessing的API。

假设你使用的是multiprocessing的Pool，是使用多进程实现了concurrency

from multiprocessing import Pool

如果把这个代码改成下面这样，就变成多线程实现concurrency

from multiprocessing.dummy import Pool

两种方式都跑一下，哪个速度快用哪个就行了。

UPDATE:
刚刚才发现concurrent.futures这个东西，包含ThreadPoolExecutor和ProcessPoolExecutor，可能比multiprocessing更简单

网友（2）：

很多爬虫工作者都遇到过抓取速度非常慢，现在的大多数网站都具备了反爬虫技术，对IP的访问频率限制很严格。如果想提升爬虫的速度，大家可以尝试以下方法。

一、尽量减少访问次数。
单次爬虫任务的大多耗时在网络请求等待响应，所以能减少网络请求就尽量减少请求，这样既能减少目标网站的压力，也能减少代理服务器的压力，提高工作效率。

二、精简流程，减少重复。
大部分网站并不是严格意义上的树状结构，而是多重交叉的网状结构，所以从多个入口深入的网页会有很多重复，一般根据URL或者ID进行唯一性判别，爬过的就不需要再爬。一些数据如果可以在一个页面内获取到，也可以在多个页面下获取到，那就选择只在一个页面内获取。

三、多线程任务。
大量爬虫是一个IO阻塞的任务，所以采用多线程的并发方式可以有效地提高整体速度。多线程可以更好地提高资源利用率，程序设计也更加坚定，程序响应也更快。

四、分布式任务。
上面三点都做到极致了，但是单机单位时间内能爬取到的网页数量还不足以达到目标，在指定时间内还不能及时的完成任务，那么就只能多机器来同时进行爬虫任务了，这就是分布式爬虫。

做好以上几点，基本可以将爬虫的效率提升大半，另外爬虫代理ip也是不可缺少的尤其是对于量大的任务，IPIDEA提供全球ip的同时更注重保护数据的安全，也可以减少反爬虫策略的触发，一举多得。

网友（3）：

python因为有GIL全局解释器锁，所以python的多线程不能利用多核，但是如果是io密集型的项目，多线程效率也很好，我就是用多线程来做爬虫的。