Tip:
Highlight text to annotate it
X
介绍一些基本术语将是很有益的,
它们在人工智能中常用来区分不同类型的问题。
我将教你的第一个词是“完全”与“部分“可观察的。
在某环境中,如果你的智能代理在任何时间点所能感知的,
对于做出最优决策都是完全充分的,该环境就被称为是完全可观察的。
举例来说,在许多纸牌游戏中,
当所有的牌都在桌子上,所有这些牌的瞬时状态
就是典型的对做出最佳选择足够的。
与之形成对比的是,在其他一些环境中你需要智能代理自身的记忆,
以做出可能的最佳决策。
例如,在扑克牌游戏,桌上的纸牌是不公开的,
记住过去的动作,会帮助您做出更好的决策。
要充分理解两者的差异,可以考虑智能代理
通过感知器和行动器与环境的相互过程。
这种交互在多个周期中发生,
通常被称为知觉 - 动作周期。
对于许多环境中,假设环境具有某种内部状态
是有许多便利的。
例如,在一个纸牌游戏中,台面上的纸牌不公开,
那种状态可能隶属于你手中的牌。
如果感知器总是可以看到环境的全部状态,
那么,该环境即是完全可观察的。
如果传感器只能看到一部分状态,
但记住过去的观测可以提供给我们当前不容易观察到的附加的状态信息,
该环境就被称为部分可观察的。
所以任何游戏,例如,在过去的出牌动作中含有关于某人手中可能持有的牌面信息,
那些游戏就是部分可观察的,
而且它们需要不同对待。
很多时候处理部分可观察环境的智能代理
需要获取内部记忆,以了解环境的状态是怎样的,
当我们谈论隐马尔可夫模型时,
我们将广泛地讨论这种结构
是如何具有这种内部记忆的。
第二个涉及到环境的术语是一个环境
是“确定的”或“随机的”。
确定性环境是指某一环境,在其中,你的智能代理的行为
唯一地确定产生的结果。
举例来说,在国际象棋中,当您移动了一颗棋子时,是完全不存在随机性的。
移动一颗棋子产生的效果是完全可预见的,
而且无论在哪里,我移动同一颗棋,其结果将是一样的。
我们称之为确定性。
骰子游戏,例如,双陆棋,就是随机的。
虽然你仍然可以确定性地移动您的棋子,
但一个行动的结果还会涉及到扔骰子,
因此你无法预测其结果。
骰子的结果涉及到一定的随机性,
因此,我们称之为随机的。
让我谈谈“离散”与“连续”。
一个离散的环境是指在其中,你有有限多的行动选择,
和有限多事情你可以感知到。
举例来说,再次的,在国际象棋中,有有限多个移动位置,
以及有限多事情你可以做。
这与一个连续的环境不同,
连续的环境中,可能采取的行动或你能感觉到的东西的空间可能是无限的。
举例来说,如果你扔飞镖,将有无限多的角度,
以及加速方式来投掷他们。
最后,我们区分“良性”与“敌对”的环境。
在良性的环境中,环境可能是随机的。
它可以是随机的,但它不含有
可能与自己的目标相抵触的目标。
举例来说,天气是良性。
它可能是随机的。它可能会影响你的行动的结果。
但它不是为了对抗你而存在的。
对比敌对的环境,比如许多游戏,像象棋,
你的对手在那儿就是为了对抗你。
事实证明,在对手积极地观察你并抵消你所试着获取的敌对的环境中
试图找到良好的行动,
与在其中有可能仅仅是随机但并不真正乐于让您的生活变得更糟的良好的环境,
相比而言要困难得多。
那么,让我们通过进行下一个测验,
来看看你对这些表达式理解到什么程度,
这里是那4个概念:部分与充分可观察的,
随机的与确定的,连续与离散,
对抗性与良性。
让我问你点关于跳棋游戏的内容。
检查那些属性中可适用于此的一个或全部属性。
如果你认为跳棋是部分可观察的,将这一项打勾。
否则,就不要选中它。
如果你认为它是随机的,就将这一项打勾,
连续,将这一项打勾,对抗性,将这一项打勾。
如果你不了解跳棋,你可以上网搜索
以找到多一点关于跳棋的信息。