Python 杂项

关于 *args 和 **kwargs参数的用法

  • 允许你传入0个或任意个参数,这些可变参数在函数调用时自动组装为一个tuple。
def f(a,*args):
print(args)

f(1,2,3,4)


def calc(*numbers):
sum = 0
for n in numbers:
sum = sum + n * n
print(sum)

calc(1,2,3,4)

** ,关键字参数允许你传入0个或任意个含参数名的参数,这些关键字参数在函数内部自动组装为一个dict。

def d(**kargs):
print(kargs)

d(a=1,b=2)

#在函数混合使用*以及**。
def h(a,*args,**kargs):
print(a,args,kargs)

h(1,2,3,x=4,y=5)

def person(name,age,**kw):
print('name:',name,'age:',age,'other:',kw)

person('Adam', 45, gender='M', job='Engineer')

关于多线程与多进程

作者:DarrenChan陈驰
链接:https://www.zhihu.com/question/23474039/answer/269526476
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

在介绍Python中的线程之前,先明确一个问题,Python中的多线程是假的多线程! 为什么这么说,我们先明确一个概念,全局解释器锁(GIL)。

Python代码的执行由Python虚拟机(解释器)来控制。Python在设计之初就考虑要在主循环中,同时只有一个线程在执行,就像单CPU的系统中运行多个进程那样,内存中可以存放多个程序,但任意时刻,只有一个程序在CPU中运行。同样地,虽然Python解释器可以运行多个线程,只有一个线程在解释器中运行。

对Python虚拟机的访问由全局解释器锁(GIL)来控制,正是这个锁能保证同时只有一个线程在运行。在多线程环境中,Python虚拟机按照以下方式执行。
1.设置GIL。
2.切换到一个线程去执行。
3.运行。
4.把线程设置为睡眠状态。
5.解锁GIL。
6.再次重复以上步骤。

对所有面向I/O的(会调用内建的操作系统C代码的)程序来说,GIL会在这个I/O调用之前被释放,以允许其他线程在这个线程等待I/O的时候运行。如果某线程并未使用很多I/O操作,它会在自己的时间片内一直占用处理器和GIL。也就是说,I/O密集型的Python程序比计算密集型的Python程序更能充分利用多线程的好处。我们都知道,比方我有一个4核的CPU,那么这样一来,在单位时间内每个核只能跑一个线程,然后时间片轮转切换。但是Python不一样,它不管你有几个核,单位时间多个核只能跑一个线程,然后时间片轮转。看起来很不可思议?但是这就是GIL搞的鬼。任何Python线程执行前,必须先获得GIL锁,然后,每执行100条字节码,解释器就自动释放GIL锁,让别的线程有机会执行。这个GIL全局锁实际上把所有线程的执行代码都给上了锁,所以,多线程在Python中只能交替执行,即使100个线程跑在100核CPU上,也只能用到1个核。通常我们用的解释器是官方实现的CPython,要真正利用多核,除非重写一个不带GIL的解释器。

作者:yegle
链接:https://www.zhihu.com/question/23474039/answer/24695447
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

如果你的代码是CPU密集型,多个线程的代码很有可能是线性执行的。所以这种情况下多线程是鸡肋,效率可能还不如单线程因为有context switch但是:如果你的代码是IO密集型,多线程可以明显提高效率。例如制作爬虫(我就不明白为什么Python总和爬虫联系在一起…不过也只想起来这个例子…),绝大多数时间爬虫是在等待socket返回数据。这个时候C代码里是有release GIL的,最终结果是某个线程等待IO的时候其他线程可以继续执行。反过来讲:你就不应该用Python写CPU密集型的代码…效率摆在那里…

如果确实需要在CPU密集型的代码里用concurrent,就去用multiprocessing库。这个库是基于multi process实现了类multi thread的API接口,并且用pickle部分地实现了变量共享。再加一条,如果你不知道你的代码到底算CPU密集型还是IO密集型,教你个方法:multiprocessing这个module有一个dummy的sub module,它是基于multithread实现了multiprocessing的API。

假设你使用的是multiprocessing的Pool,是使用多进程实现了concurrency

from multiprocessing import Pool

如果把这个代码改成下面这样,就变成多线程实现concurrency

from multiprocessing.dummy import Pool

两种方式都跑一下,哪个速度快用哪个就行了。

刚刚才发现concurrent.futures这个东西,包含ThreadPoolExecutor和ProcessPoolExecutor,可能比multiprocessing更简单

作者:find goo
链接:https://www.zhihu.com/question/23474039/answer/132530023
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

多线程还是有用的,多进程有多进程的好处,多线程有多线程的好处。多进程稳定,启动时开销大点,但如果你的运行时间远大于多进程的时间,用多进程比较方便,如postgresql用多进程,chrome 多进程。如果你只是想做个定时器样的简单东西,对稳定性要求低些,如vb,c#类似的定时器,用多线程吧,但线程的同步要注意了。python的线程更加类似定时器,python的线程不是真线程,但有的场合用这种定时器也能解决很多问题,因为开销小,开启也方便。进程和线程,一个是重量级的,一个轻量级的,重量级的进程有保护区,进程上下文都是操作系统保护的,而线程是自己管理,需要一定的技术,不能保证在并发时的稳定性(多进程也不稳定,但很容易看出来,因为多出了进程容易发现),而python的更像是定时器,定时器有时也可以模拟线程,定时器多时的开销比线程的开销要小,真线程有下上文开销,一个操作系统启动多进程和多线程会达到切换饱和是有数量的,真线程或进程太多都会导致cpu占用率居高不下,而定时器可以开n多。很多东西不是一种比另外一种先进,而是一种互补的关系,计算机的计算单位切换有优点必有缺点,关键在找到合适的使用方式扬长避短。

参考教程

https://learnku.com/docs/pymotw