当前位置：移动技术网 > IT编程>脚本编程>Python > 从排序数组中删除重复项引发的对python内存分配的小思考

从排序数组中删除重复项引发的对python内存分配的小思考

2018年06月02日 | 移动技术网IT编程 | 我要评论

思比特物流,卡徒txt全集下载,南京电视台直播南京

引子：

Leetcode上：从排序数组中删除重复项

// nums 是以“引用”方式传递的。也就是说，不对实参做任何拷贝
int len = removeDuplicates(nums);

// 在函数里修改输入数组对于调用者是可见的。
// 根据你的函数返回的长度, 它会打印出数组中该长度范围内的所有元素。
for (int i = 0; i < len; i++) {
    print(nums[i]);
}

我当时的解决方法：
class Solution:
    def removeDuplicates(self, nums):
        """
        :type nums: List[int]
        :rtype: int
        """
        nums = list(set(nums))
        return len(nums)

然而这个方法一直没通过，我看了测试过程后才发现原来nums并没有被修改。这是为什么呢？原来nums = list(set(nums))这个被重新赋值的nums并不是指向的原来传进来的nums 的地址，set（）后重新申请了一块空间，然后list（）又重新申请了一块空间，最后将nums指向这个空间当然就不是原来的实参（形参）原来的空间了，自然实参的值没有得到改变。

python中不需要像C++中那样传引用或是传地址，而是只用在函数内对传进来的变量重新赋值即可，python函数传参的过程可看做是深拷贝，地址是相同的，所以可以通过改变形参的值来改变实参的值。但是如果是整型是不可以的。
a = 1
print(id(a)) =>1624465632
def do1(nums):
  nums = 2
do1(a)
print(id(a)) =>1624465632
print(a)    => a=1
----
b = [1,2]
print(id(b)) =>2578463263304
def do2(list):
  list.append(3)
do2(b)
print(id(b)) =>2578463263304
print(b)   => [1,2,3]
a=1只是a引用了1，指向了1这个地址。10的引用计数位0的时候,解释器会自动回收。

当然这跟python中整型分配内存空间的方式也有关。

num = 10
print(id(num)) 
print(id(10) )
#=>结果是相同的.
#num_2=10 id(num_2)=id(num)=id(10)
更进一步说明:
print(num is 10) # => True

其中操作符is的作用就是判断两个是否指向同一个内存。在python中，相当于给"10"这个数值分配了内存，然后让变量"num"去指向“10”(可以看做是指针)，num可以看做是10的引用。而python中的id()则可以用来查询地址。

在python中，一开始初始化存储在内存的东西是不可以更改的，python中对内存的操作是由解释器来管理的。对于整型来说，我们并不能改变地址，我们所能更改的只是它的指向。

然而对于python的内置数据类型如列表list(),字典{}，集合{}来说。又是另外一种情况。

list1 = [1,2,3]   
list2 = [1,2,3]
print(id(list1) )   # =>1904062761544
print(id(list2) )   # =>1904062762952
print(id([1,2,3]))  # =>1904092664008
#=>结果是不同的.
更进一步说明:
print(list1 is list2) # => False

Python中list内存的分配方式是动态的：

创建时：
if (numfree) {
    numfree--;
    op = free_list[numfree];
    _Py_NewReference((PyObject *)op);
} else {
    op = PyObject_GC_New(PyListObject, &PyList_Type);
    if (op == NULL)
        return NULL;
}
resize时：
    new_allocated = (newsize >> 3) + (newsize < 9 ? 3 : 6);
    /* check for integer overflow */
    if (new_allocated > PY_SIZE_MAX - newsize) {
        PyErr_NoMemory();
        return -1;
    } else {
        new_allocated += newsize;
    }

即使是相同内容的列表，但他们的地址是不同的，相当于仅仅是一次浅拷贝。

至于为什么整型、元组不能改变他们内存上的值，而字典、列表可以，我个人认为主要还是python对它们内存管理方式上的不同。学识尚欠，不敢误言，以后整明白了再补上吧。

Python sys.getsizeof(int())

print(id(2)) #=>1624465664
print(id(3)) #=>1624465696
print(id(4)) #=>1624465728

发现整型地址之间只差了32，这似乎意味着在64位里python是占4字节的。于是为了证实这个想法，我使用了sys.getsizeof(int())。

△.注：sys.getsizeof(int()) 为<class 'int'>这个类的总大小

>>> sys.getsizeof(0)
24
>>> sys.getsizeof(1)
28
>>> sys.getsizeof(2 ** 30 - 1)
28
>>> sys.getsizeof(2 ** 30)
32
>>> sys.getsizeof(2 ** 60 - 1)
32
>>> sys.getsizeof(2 ** 60)
36

可以看到的是，随着存储的数字大小不同，int占有的空间也是不同的，越大的数，需要的存储空间越大。这种能够变得更长的表现暗示着它像列表之类的数据类型。事实上，在C语言中python的int是这样定义的：

typedef struct {
    PyObject_HEAD
    long ob_ival;   #类型为长整型
} PyIntObject;
为了避免每次需要一个新的整数对象时都要申请新的对象，python提前为未使用的整数对象分配了一块空的区间。
struct _intblock {
    struct _intblock *next;
    PyIntObject objects[N_INTOBJECTS];
};
typedef struct _intblock PyIntBlock;

▲.0是没有价值的，所以不在存储值内，所以getsizeof(0)==24.

通常在32、64位中的int都是4字节的，然而得到的结果明显远大于这个值，原因是在python中int已经很完善了，实现多种功能的同时，就意味着它需要占用更多的空间，消耗更多的内存。

总的来说，这些都是跟硬件有关的,在32位和64位中不同数据类型所占的空间还是不同的。

继续讨论下那块已经提前分配好的整数空间

print(id(-6))  #3221839702960
print(id(-5))  #1624465440
print(id(255)) #1624473760
print(id(256)) #1624473792
print(id(257)) #2143657436272
print(id(258)) #2143657438960

可以看到-6到-5和256到257，地址突然跃变了，这其实是因为重新为[-5,256]之外的数分配了新的内存空间。

#define NSMALLPOSINTS           257
#define NSMALLNEGINTS           5
static PyIntObject *small_ints[NSMALLNEGINTS + NSMALLPOSINTS];

A specific structure is used to refer small integers and share them so access is fast. It is an array of 262 pointers to integer objects. Those integer objects are allocated during initialization in a block of integer objects we saw above. The small integers range is from -5 to 256. Many Python programs spend a lot of time using integers in that range so this is a smart decision.

if integer value in range -5,256:
    return the integer object pointed by the small integers array at the
    offset (value + 5).
else:
    if no free integer object available:
        allocate new block of integer objects
    set value of the next free integer object in the current block
    of integers.
    return integer object

为了让更小的数字被访问的更快，事先python已经为[-5,256]之间的整数分配好了内存。如果要使用这个范围里面的数直接访问即可,加上相应的偏移量就能得到正确的数值，（-5的偏移量为0，-4的偏移量则为1）。如果不在这个范围内，python将另外创建个新的block来存放PyIntObject。

参考：
https://stackoverflow.com/questions/10365624/sys-getsizeofint-returns-an-unreasonably-large-value

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]