双重随机：近似正态分布 – 梦爷儿：无知阁语

在编程中突发奇想，不知道把两个随机数嵌套起来会如何，于是做了个试验：
所谓两个随机数嵌套，就是说，我们定一个值为100，
那么如果我们在100这个范围里取一个随机整数，应该是均匀分布的。
一般的随机到这里就结束了，
接下来我要干的事就是把刚才得到的100之内的随机整数，作为一个范围，在这个整数所给出的范围内，再取一个随机整数。
这个整数就是最后我要的。
那么，这个整数，到底是在100以内均匀分布，还是如何分布的呢？
如果我取一百万个这样的数，他们的平均值是多少呢？

首先我们要搞明白刚才那个过程是如何运作的。
举一个数字小一点的例子，在10内取一个随机数，
随机的过程是均匀的，也就是说，1-10，每个数都有1/10的机会。
形象一些的描述就是这样（这对理解下面的过程有帮助）：
我们可以把1-10想想成一个竖条：
1
2
3
4
5
6
7
8
9
10
随机就像一根指针，说停的时候就停在哪里。
停在那里的数，就是我们得到的范围。
而在范围里面随机的话，所有的可能又是均匀分布的，

例如，我随机出4的话，那么1，2，3，4都有1/4的机会。
我们来看下图：
1
2 1
3 2 1
4 3 2 1
5 4 3 2 1
6 5 4 3 2 1
7 6 5 4 3 2 1
8 7 6 5 4 3 2 1
9 8 7 6 5 4 3 2 1
10 9 8 7 6 5 4 3 2 1
最左边我还是保留不动，右边加出了他们的可能性。实质上，这幅图由一个一维模型变成了一个二维模型。虽然不能按照这个模型的比例去思考整个问题，但还是告诉我们一些信息。你可以发现10只出现了一次，而真正操作过程当中也是这样，可能性非常小，必须是范围中包括10，随机又随机出了10。

这样发展下去，我们就不难想象，如果我三重随机的话，模型就将发展成为一个三维的模型。

好了，基本的操作过程清楚了，我们就来看看到底怎么回事。
为了给大家一个直观的理解，我先取了30个单次随机、双重随机、三重随机在0-500的样本，曲线图如下：

picture-21

蓝色是单次随机，点都比较散。
绿色是双重随机，已经不是均匀分布了，250以上就很少了。
黄色是三重随机，大部分的点都在125一下。

我们再看，下面的准确数字：
考虑到计算的准确性以及电脑的运行能力，
我取0-1000的随机数，单次随机、双重随机、三重随机各十万个样本。
结果如下：

picture-3

单次随机，十万个样本平均值499.89037，近似于500（1000的一半），误差在＋－1.5，还是很均匀的。标准差287.987524，在平均值一个标准差之内的样本占57.84%，平均值两个标准差之内的是100%（标准差都超过最大值的1/4了还有什么好说的。。）

双重随机，平均值250.79212，近似于250（1000的四分之一），误差还是有＋－1，这些误差其实不重要了，因为本来我取的就是随机整数。标准差220.227576。在平均值一个标准差之内的样本占69.035%，平均值两个标准差之内的是94.652%

三重随机，平均值125.38799，近似于125（1000的八分之一），误差小于+－1，标准差146.643149（小了好多），在平均值一个标准差之内的样本占85.653%（与我们所观察到的一致），平均值两个标准差之内的是94.115%。

这个结果，我们可以有两个猜测：
猜测一，n重随机，得到的平均值是最大值的1/2^n。
猜测二，双重随机是呈近似正态分布的。
正态分布要求平均值一个标准差内占68%，两个标准差内占95%，
而根据我得到的结果，双重随机一个标准差内占69%，两个标准差内占94.6%
非常接近。我们也可以在随机结果前加个正负的随机，这样就有了水平线上下的波动。

关于正态分布有什么用，
用处就太多了，
比方说，我现在要预测你下次考试分数是多少的话，我不能直接在0-100之间随便取个随机数，这样预测的十分不准确，20分和80分有着同样的几率，而现实生活中的中往往是这样，有很大的几率是在一个小范围内的波动，有的时候会有什么特殊的情况，突然有个高点或者低点。
又比如说，我们要预测世界人口的走势，总的来说，人口是以某个函数上升的，但是在上升的过程中，还是有随机的因素，很多时候可能只是地区闹闹饥荒、感染病之类，波动都很小，但说不定哪天挑起个第三次世界大战，来了个陡降，战后和平又来个猛升，都是有可能的。正态分布就是符合自然发展规律的分布了。

好了，就写那么多了。
签名里面，一分钟杀死十万人，其实是我刚才在调试那个预测未来单眼皮多还是双眼皮多的模型，结果出生死亡率没搞好，过了30年，总人口样本就从十万变成了两千….＝＝！我运行了五六次，两次南京大屠杀了吧！呵呵….
做好了就让大家来看！