Python 浮点数的冷知识

由 demi 提交于周一, 23 九月 2019 - 11:37

作者：豌豆花下猫”
来源：Python猫（微信号：python_cat）”

上周的PyCoder's Weekly上分享了一篇小文章，它里面提到的冷知识很有意思，作者稍作补充，分享给大家。

它提到的部分问题，读者们可以先思考下：
  •   若两个元组相等，即 a==b 且 a is b，那么相同索引的元素（如a[0] 、b[0]）是否必然相等？
  •   若两个对象的 hash 结果相等，即 hash(a) == hash(b)，那么它们是否必然相等呢？

答案当然都为否（不然就不叫冷知识了），大家可以先尝试回答一下，然后再往下看。

好了，先来看看第一个问题。两个相同的元组 a、b，它们有如下的关系：

<pre>>>> a = (float('nan'),)
>>> b = a
>>> a # (nan,)
>>> b # (nan,)

>>> type(a), type(b)
(<type 'tuple'>, <type 'tuple'>)

>>> a == b
True

>>> a is b # 即 id(a) == id(b)
True

>>> a[0] == b[0]
False</pre>

以上代码表明：a 等于 b（类型、值与 id 都相等），但是它们的对位元素却不相等。

两个元组都只有一个元素（逗号后面没有别的元素，这是单元素的元组的表示方法，即 len(a)==1 ）。float() 是个内置函数，可以将入参构造成一个浮点数。

为什么会这样呢？先查阅一下文档，这个内置函数的解析规则是：

<pre>sign ::= "+" | "-"
infinity ::= "Infinity" | "inf"
nan ::= "nan"
numeric_value ::= floatnumber | infinity | nan
numeric_string ::= [sign] numeric_value</pre>

它在解析时，可以解析前后的空格、前缀的加减号（+/-）、浮点数，除此之外，还可以解析两类字符串（不区分大小写）："Infinity"或"inf"，表示无穷大数；“nan”，表示不是数（not-a-number），确切地说，指的是除了数以外的所有东西。

前面分享的第一个冷知识就跟“nan”有关，作为整体，两个元组相等，但是它们唯一的元素却不相等。之所以会这样，因为“nan”表示除了数以外的东西，它是一个范围，所以不可比较。

作为对比，我们来看看两个“无穷大的浮点数”是什么结果：

<pre>>>> a = (float('inf'),)
>>> b = a
>>> a # (inf,)
>>> b # (inf,)

>>> a == b # True
>>> a is b # True
>>> a[0] == b[0] # True</pre>

注意最后一次比较，它跟前面的两个元组恰好相反，由此，我们可以得出结论：两个无穷大的浮点数，数值相等，而两个“不是数的东西”，数值不相等。

化简一下，可以这样看：

<pre>>>> a = float('inf')
>>> b = float('inf')
>>> c = float('nan')
>>> d = float('nan')

>>> a == b # True
>>> c == d # False</pre>

以上就是第一个冷知识的揭秘。接着看第二个：

<pre>>>> hash(float('nan')) == hash(float('nan'))
True</pre>

前面刚说了两个“不是数的东西”不相等，这里却显示它们的哈希结果相等，这挺违背常理的。

我们可以推理出一条简单的结论：不相等的两个对象，其哈希结果可能相等。

原因在于，hash(float('nan')) 的结果等于 0，它是个固定值，作比较时当然就相等了。

其实，关于 hash() 函数，还埋了一个彩蛋：

<pre>>>> hash(float('inf')) # 314159
>>> hash(float('-inf')) # -314159</pre>

有没有觉得这个数值很熟悉啊？它正是圆周率的前五位 3.14159，去除小数点后的结果。在早期的 Python 版本中，负无穷大数的哈希结果其实是 -271828，正是取自于自然对数 e。这两个数都是硬编码在 Python 解释器中的，算是某种致敬吧。

由于 float('nan') 的哈希值相等，这通常意味着它们不可以作为字典的不同键值，但是事实却出人意料：

<pre>>>> a = {float('nan'): 1, float('nan'): 2}
>>> a
{nan: 1, nan: 2}

# 作为对比：
>>> b = {float('inf'): 1, float('inf'): 2}
>>> b
{inf: 2}</pre>

如上所示，两个 nan 键值在表示上一模一样（注意，它们没有用引号括起来），它们可以共存，而 inf 却只能归并成一个，再次展示出了 nan 的神奇。

好了，两个很冷的小知识分享完毕，背后的原因都在于 float() 取浮点数时，Python 允许了 nan（不是数）的存在，它表示不确切的存在，所以导致了这些奇怪的结果。

最后，我们作下小结：

  •   包含 float('nan') 的两个元组，当做整体作比较时，结果相等；两个相等的元组，其对位的元素可能不相等

  •   float('nan') 表示一个“不是数”的东西，它本身不是确定值，两个对象作比较时不相等，但是其哈希结果是固定值，作比较时相等；可用作字典的键值，而且是不冲突的键值

  •   float('inf') 表示无穷大的浮点数，可看作确定的值，两个对象做比较时相等，其哈希结果也相等；可用作字典的键值，但是会产生冲突

  •   float('nan') 的哈希结果为 0，float('inf') 的哈希结果为 314159

参考资料：
https://docs.python.org/3/library/functions.html#float
https://www.pythondoeswhat.com/2019/09/welcome-to-float-zone.html

作者简介： 豌豆花下猫，生于广东毕业于武大，现为苏漂程序员，有一些极客思维，也有一些人文情怀，有一些温度，还有一些态度。公众号：「Python猫」（python_cat）

转载此文目的在于传递更多信息，版权归原作者所有。
原文链接：https://mp.weixin.qq.com/s/TBEW2R4BzRNzom-9d-3b9w