Python为什么不太需要关注垃圾回收呢?

发表于:2022-1-17 09:37

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:佚名    来源:Linux公社

#
Python
#
python
分享:
  · 垃圾回收
  我们作为Python程序员也是非常幸福的,我们日常不太需要关注内存管理和垃圾回收,是因为CPython的解释器有一套自己的机制来处理。那么,在Python的世界里为什么不太需要关注垃圾回收呢?
  这是因为Python自己的解释器自动做了垃圾回收相应的处理,在绝大部分场景下是不需要人为的干涉的。另外,大家对于Python的共识就是开发效率。因为其是一个胶水语言,在很多场景下高性能以及内存问题其实并不凸显,而且现在服务器资源很便宜而人力资源很贵的情况下。
  使用Python做Web开发,工作很多年也不太会遇到内存管理和垃圾回收的。在Web应用几乎都是使用多进程模型的,一则是会有定期超时重启的机制,二是每次上线的操作也会进程的重启。所以不会有某个进程长时间的驻留,使其占用很多内存,导致内存泄漏。所以,GC的缺陷基本不太会对Web开发产生很大的影响。且CPython也足够完善,基本不太会出现内存泄漏这样的问题。大部分场景下,都是因为开发者错误的使用或者是误判导致内存占用不正常。
  · 引用计数
  Python的垃圾回收是建立在引用技术上的,所以理解引用计数也是非常重要的。而引用计数的原理就是,当一个对象的引用被创建或者复制时,对象的引用计数加1;当一个对象的引用被销毁时,对象的引用计数减1;当对象的引用计数减少为0时,就意味着对象已经没有被任何人使用了,可以将其所占用的内存立刻释放了。
  引用计数这种机制的特点是,有比较好的实时性,但是引用计数会有一个循环引用的问题。比如说A引用了B,而B又引用了A,导致每一个对象的引用计数都不为0,那么A和B占用的内存资源永远都不会被回收。所以,就需要一些回收算法来解决这个问题,而Python就是使用了标记清除和分代回收机制。
  https://mp.weixin.qq.com/s/KJm4cIZ8Ms96r3N9rT8M9w 
  · 标记清除
  上面我们说了,标记-清除就是为解决循环引用的问题。最理想的情况下,比如说有两个对象A和B,其中A有一个B的引用,就会将B的引用计数减1。然后顺着引用达到B,因为B有一个引用了A,同样将A的引用计数减少1。这样,就将引用计数中循环引用的环给摘除。
  但是,还会存在另外一个问题。假设对象A,它有一个对象C的引用,而C并没有引用A。如果将C的引用计数减少1,而最后A没有被回收,显然我们错误将C的引用计数减少了1。这样,将导致在未来的某个时段出现了一个对C的悬空引用。这就要求我们在C没有被删除的情况下,复用C的引用计数。如果采用这样方案的话,那么维护这个引用计数的复杂度就会成倍的增加。而这个标记清除采用了更好的做法来解决这个问题。
  标记清除采用了更好的做法,它并不改动真实的引用计数,而是将集合中对象的引用计数复制一份副本,改动该对象引用的副本。对于副本做任何的改动,都不会影响到对象生命周期的维护。
  · 分代回收
  分代回收是在面试中,常常会被问到的一个问题。分代回收的核心思想就是,对象存活的时间越长,越不可能是垃圾,应该更少的去回收。且Python将所有的对象分为0、1、2三代,所有的新建对象都是0代对象。但是,当某一代对象经历过垃圾回收,依然存活,那么它就被归入下一代对象,即1代或者2代了。
  分代回收的预值,可以使用如下代码进行查看。通常,返回一个元组且包含三个数值,默认值为(700, 10, 10)。其中第一个数值700表示,从上一个垃圾回收到现在分配内存的数目减去释放内存的数目。如果这个数值到了700,则会对第一代的垃圾对象进行回收,并且给第二个数值加1。当第二个数值增加到10的时候,就会对第一代和第二代的垃圾对象进行回收,并且给第三个数值加1。当第三个数值增加到10的时候,则三代都会被回收,然后初始化为(0, 0, 0)并继续开始计数。
  需要注意的是,如果没有十分必要的场景,这个分代回收的默认值通常是不需要我们人为的改动的。
  In [1]: import gc  
  In [2]: gc.get_threshold()  
  Out[2]: (700, 10, 10) 
  · 强制回收
  上面介绍了Python的自动垃圾回收机制,而Python也支持在某一刻特定的时间点,使用gc.collect()方法强制回收。不会,通常我们是不适用强制回收的,而是使用下面这种禁用垃圾回收的方式。
  · 禁用垃圾回收
  这个垃圾回收机制不是挺好的,那我们会什么还要禁用呢。通常我们禁用GC的一个场景就是,某一段代码中需要加载大量的原始数据,尤其是有大量的新建、删除对象这样的操作。也就是执行某一段代码的时候,会自动触发很多次的垃圾回收。但是,我们需要知道Python执行垃圾回收的时候,它会暂停当前的工作。所以,这种工作耗时越多就会拖累我们程序的运行时间。
  那我们怎么办呢?我们通常都会在执行这段代码之前,禁用垃圾回收,执行完之后再手动开启。熟悉开源项目的同学可以会看到,有些项目中会使用gc.set_threshold(0)而不用gc.disable这种写法。是因为有些第三方的库会隐式的启用GC让gc.disable不起作用了,而使用gc.set_threshold(0)就不会有第三方的库把垃圾回收开启了,除非我们想要把它开启。
  gc.disable()  
  do somethings  
  gc.enable()  

  本文内容不用于商业目的,如涉及知识产权问题,请权利人联系51Testing小编(021-64471599-8017),我们将立即处理
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号