Tip:
Highlight text to annotate it
X
我们来学习一下大数定律
在数学和概率理论中
它在很多层面上是最直观的定律之一
但是因为它适用于很多情况
却往往被误用或误解
让我们用较为正式的数学方法
先给出定义
然后直观地讲
比如说我有一个随机变量 X
并且我们知道其期望值或其总体平均值
大数定律只是说
如果我们抽取随机变量的n个观测样本
而且如果我们取它们的平均值
让我定义另一个变量
让我们叫它 X n 并在顶部加一横
这就是随机变量的
n 个观测值的均值
它实际上是我第一次的观测
所以你可以说我的一次试验
我得到这一观测值 再次运行它 我又得到另一个观测值
我继续运行它 n 次
然后除以我观测的次数
这就是我的样本平均值
这是我做过的所有观测数据的平均值
大数定律只是告诉我们这个样本平均值
将趋近随机变量的期望值
我也可以写成样本平均值将接近总体平均值
当 n 接近无穷大时
我会用非正式的方法来解释接近
或趋近是什么意思?
但我认为 你的直观会告诉你
如果我有足够多的样本 最终
我将得到总体的期望值
对很多人来说 这很直观
那如果我做足够多的实验 这些实验
将给我所期望的数字
鉴于期望值和概率等等
但我认为人们经常有点误解
为什么这会发生
我继续之前 让我给你
一个具体的例子
大数定律将只是告诉我们— — 比如说
有一个随机变量--X 等于正面的次数
等于扔一个正常的硬币100 次后
得到正面的次数
首先 我们知道这个随机变量的
期望值
它是抛掷的次数或者试验的次数乘以
任何试验的成功概率
这就是等于 50
所以大数定律只是说: 如果我取一个样本
或者我取一些试验获得的样本的平均值
所以你知道 我得到 — — 我第一次进行该试验时
翻转 100 枚硬币或有100枚硬币放在鞋盒里
我摇一摇鞋盒 并数正面的硬币 得到 55个
这将是 X1
然后我再次摇动鞋盒 得到 65
然后我再次摇动鞋盒 得到 45
我重复 n 次 然后除以
我做的次数
大数定律只告诉我们 这个平均数
即我的所有观察的平均数
当n趋近无穷大时 这个平均数将趋近50
或 n 趋近 50
抱歉 n趋近无穷大
我想讲讲为什么出现这种情况
或直觉为什么这样
有很多人这样觉得 哦 这意味着
如果100次试验后 我高于平均水平
概率的规则要给我更多的正面
或更少的正面以弥补差异
事实上将不会这样
那往往被称为一个赌徒的谬论
让我区分开来
我将用这个例子
比如说 — — 让我画一个图
我将换个颜色
这是 n 我 x 轴是 n
这是我试验的次数
我的 y 轴 是我的样本平均值
而我们知道期望值是什么
我们知道此随机变量的期望值为 50
让我在这里画一下
这是 50
看看我这个例子
所以当 n 等于 — — 让我 [听不清]
在这里
第一次试验我得到55这就是我的平均值
我只有一个数据点
两项试验后 我得到 65
所以我平均值将是 65 加 55 除以 2
等于 60
于是我平均值上升了一点
第三次试验我得到45 这将使我平均值
下降了一点
我不会在这里绘制 45
现在我要得出所有这些数的平均值
45 加 65 是什么?
让我来把数字理顺
以便你能够理解
所以 55 加 65
等于120 然后加 45 等于 165
除以 3
3 除165 5乘3 为 15
53
不 不 不
55
所以平均值降到 55
我们可以继续做这些试验
所以你可能会说 大数定律是这个意思
好吧 我们做了 3 次试验和我们的平均值在那里
所以很多人认为概率的神
倾向于在未来使我们获得较少
的正面
那就是接下来的几项试验将不得不
得到较低的数字 以便使我们的平均数下降
其实并不一定如此
往后的概率始终是相同的
概率始终是50%
去得到正面
不是说如果我开头有一些正面
或者开头正面多一些
突然 情况得到补偿:我会得到较多的反面
这是赌徒的谬论
如果你有一长串正面或你有
特别多的正面 在某个时刻
你要有--你有更高的可能性
得到特别多的反面
这并不完全正确
大数定律告诉我们的是它不管
在一些有限次数的试验后
你的平均数实际上--这种情况发生的可能性很低
但比如说你的平均数在这里
假设是 70
你会说: 哇 我们
偏离预期值好多
但大数定律说什么 嗯
我不关心已有多少次试验 因为
我们还有无数次的试验
这些无限次数试验的期望值
尤其是在这种情况下将会这样
所以 当你的有限次数的平均值
高一些 然后你的无限次数的平均值
将趋近于这个 随着时间推移 趋近并回到
所期望的值
上面是较为非正式的描述
这就是大数定律试图告诉你的
它很重要
它并未告诉你 如果你已经得到了钱币的一些正面
然后你得到反面的概率将会增加
以弥补前面得到的正面
它告诉你什么是 不管前面发生了什么
在有限数量的试验下 无论怎样 平均是
在有限数量的试验之后
你还有无限次的试验
如果你做了足够多次 它将趋近并回到
它的期望值
而这是需要思考的重要的事
但这并不是每天在彩票和赌场中使用
因为他们知道 如果你做足够多的样本
我们能够计算出
如果你做足够多的样本
大大偏离的概率是什么?
但赌场和彩票经营原理是这样
如果你有足够的人
短期内或通过几个样本
个别人可能打败庄家
但长期下来庄家总是会赢
因为他们制定了赌博的参数
然后让你玩
不管怎么说 这在概率论中很重要
我认为这相当直观
虽然有时当你看到它的正式解释中
像这个随机变量等等
有点令人困惑
所有这意思 当你采用越来越多的样本
这些样本的平均值将会
趋近真正的平均值
或者我应该说得更特殊一点
你的样本均值将要趋近于
真正的总样本数的均值或
随机变量的期望值
无论怎样 下个视频再见