从零开始学AI:1-1—人工智能的图景
好了,这个天坑终于挖开了第一锹土。本系列是对美国两位大佬的著作——《人工智能 现代方法》一书的中译版的学习笔记。这本书包罗万象,并且不需要太多的基础。据作者所述,本书需要对计算机科学的基本概念的熟悉程度达到大二水平(算法、数据结构、复杂性这三个领域),但遗憾的是我也从未系统学习过这三门课程。因此在学习过程中,如果书本中出现了较为生疏的名次,我将会开启番外更新(例如1.1(a),1.1(b))。未来很长一段时间,这个系列就将是网站主要更新的内容,先立个flag,一周一次(手动狗头)。
如今,无论哪个行业,AI都有能力掺上一脚,这正是因为AI的目标,就是用我们人类的聪明才智,构建一个智能体。这个智能体一定要拥有“智慧”,可以自动执行一些命令,甚至具有自主学习的能力,从而代替人类,好让我们有理由躺平。那么,“人工智能”一词中的智能该如何理解呢?
1.1.1 何谓人工智能?
对于我们人类来说,我们的大脑非常精妙。在接收到不同类型的刺激后,经过大脑处理,然后大脑就会命令我们身体的某些部位做出相应的行为。直到目前为止,人类的大脑依然是地球上最精密,最复杂的处理器,但是人类对外界刺激做出行动的整个流程依然可以简单地抽象为三步:输入(接受刺激)、处理(计算、决策)、输出(行为)。一些伟人会更容易做出一些正确的决策,于是世间将他们尊称为“智者”;相反一些人做事不太经过深思熟虑,习惯于遵从于自己的第一反应。事后证明这些决策错误的概率比较大,这些人容易被称为“愚者”,用低情商的话说,就是这个人不太聪明的样子。
总体来说,评价一个人是否智慧,主要是评价这个人的行动。而支持行动的一个重要因素就是“思考”的过程(除此之外,还需要有一些不假思索的反应,例如生物中的“缩手反射”等)。人工智能的研究对象叫做“智能体”,即能够采取行动的东西。人工智能的研究可以从两个维度来分类,即关注这个智能体做事流程的哪一部分(是内在的思考?还是外在的行动?);以及我们如何评价智能体做出的行动。下面的表格列举了历史上这两个维度下的研究主题,这些领域之间研究人员相互鄙视,但也在相互促进:
A、类人思考——认知建模的方法
要想制造像人一样思考的家伙,前提必须是研究人类的思维方式。人脑活动错综复杂,我们必须通过一系列生物实验(当然,主要是研究小白鼠)才能从某个很小的角度去理解人脑的机制。以下三种方式都是理解人类思维的途径:
- 内省(introspection)——试图在自己进行思维活动时捕获情绪;
- 心理实验(psychological experiment)——观察一个人的行为;
- 大脑成像(brain imaging)——观察大脑的活动。
这门科学叫做“认知科学”,是一门计算机与心理学之间的交叉学科,融合了计算机的建模方法与心理学的实验方法。研究人类的思维方法非常有趣,但是采用的研究技术和最终成果并不是本书关注的重点。
B、类人行为——通过图灵测试
与“类人思考”的关注点不同,类人行为的目的是要制造出一个“像人”的智能体。“像人”本身是一个非常具有主观色彩的评价,而阿兰-图灵在1950年提出的“图灵测试”和后人提出的“完全图灵测试”则规避掉了这个模糊评价,要求智能体在不同的测试项之下的输出与人类的输出“不可区分”:
图灵测试:人类提问者在在向被测试方提出一些问题后无法分辨这些回答来自人类还是计算机
达到这一点,需要计算机具备以下能力:
- 自然语言处理:在机器语言和人类语言之间搭建桥梁;
- 知识表示:存储计算机所“知道”以及“听到”的内容;
- 自动推理:将输入进行处理,得到输出;
- 机器学习:适应新的环境,并检测和推断模式。
完全图灵测试:需要与真实世界中的对象和人进行交互
达到这一点,需要计算机额外具备以下能力:
- 计算机视觉和语音识别功能:感知世界;
- 机器人学:以操纵对象并行动。
图灵测试要求测试者与受试者之间的信息通过电信号来传递,而完全图灵测试则可以包含一些必要的物理层面的交互。这两种测试如下图所示:
在逛一些网站时,有时会蹦出来一些窗口,要求我们填写验证码,以证明我们是人类,这就属于是一种图灵测试。
以上6个学科构成了人工智能的大部分内容,但是人工智能研究人员却不会拘泥于制造出一个“像人”的机器。事实上我们也看到了,AlphaGo等机器已经远远超过了人类的水准。因为人类并不总是能做出“正确”决策,但是如果我们将“正确”赋予具体的含义,机器则会责无旁贷地执行一切设定为“正确”的行动。
C、理性思考:“思维法则”
在这个组合下,研究人员的目标就是构建“正确”的思维方法。亚里士多德已经提供了正确的思维方法,即“三段论”。在此基础上,逻辑学应运而生。逻辑学家建立了一套精确的描述方法,用以描述世界上的物体及其关系。在这套方法之下,我们对于世界的认知是确定的。
然而,世界最为美妙的地方则在于其不确定性,或者说未来的不可预测性。90年代卡斯帕罗夫输给了“深蓝”让我们见识到了计算机的潜力。但是即使这样,我们依然说围棋的复杂程度相当之高,甚至超过了宇宙的原子总量。仅靠逻辑学,计算机在围棋这一游戏上就永远无法战胜人类。概率论则填补了这一鸿沟,允许我们在掌握不确定信息的情况下进行严格的推理。于是,计算机拥有了计算成功概率最大的行动的能力。
D、理性行为:理性智能体
构建了理性思考的法则后,我们迈出了制造理性智能体(可以为实现最佳结果或最佳期望结果而采取行动)的重要一步。但是理性思考只是采取最佳(期望)行动的一种途径。例如我们人类就有非条件反射这一保命神技,可以及时躲避危险源,这比通过大脑大脑处理再有意识地命令肌肉收缩要快得多。通过图灵测试所需技能也可以使智能体采取理性行动。
总之与其他方法相比,基于人工智能的理性智能体方法相比有两个明显优点:首先是普适性,因为“正确的推断”仅仅是实现理性的几种途径之一;其次是理性的标准在数学上定义明确,更适合科学发展。简而言之,人工智能专注于研究和构建做正确事情的智能体,其中正确的事情取决于我们提供给智能体的目标定义。这种通用范式可称为标准模型。标准模型在其他领域也非常常见,其科学性已经得到了充分论证,例如运筹学中存在对应的“规则”(即约束条件)以及“收益”(即目标函数)。
E、有益性(原文翻译为“益机”)
标准模型自提出以来就一直是AI研究的指南,但是它可能不是一个正确的模型,因为它假定我们总能为机器提供完全指定的目标。
人类需求和机器之间的价值很难完全的对齐。在自动驾驶时,我们要求汽车“安全且快速地”将我们从起点运送到目的地。那么何谓“安全且快速”?不同的人有不同的理解。举个极端的栗子,重视安全,轻视速度的人可能认为要确保100%不发生事故,那么最保险的做法当然是永远挑车流量最小的时刻行驶,于是这辆汽车就呆在原地不动,直到车流量降低再考虑出发。这个例子说明,我们很难定义完全准确的安全目标。
再比如在国际象棋中,机器是否可以“想出”一些盘外招,削弱对方的战斗力?例如对方是人类时,可以发出一些噪音以干扰对手;对方是机器时,则可以劫持对方的算力。这个例子则说明,智能体在实现目标时,很可能采取一些我们预料之外的手段。
我们想要的时对人类可证益的智能体,这就要求我们尽可能准确地将目标传达给机器,同时在机器不了解完整的目标时,采取谨慎行动,并寻求许可。
1.1.2 人工智能的相关领域
人工智能研究的对象是理性智能体。什么是理性呢?就是正确。人工智能以结果为导向,理性智能体就是要看其行为导致的结果是否能够更接近目的。显然,目前自然界中最理想的仿生对象就是人类。可以看到,类人行为所研究的领域,已经涉足了人类从观察,到思考,再到决策的全过程。
人工智能至少与以下8个学科领域高度相关,或者说,正是这8个学科的发展,才共同促成了人工智能的诞生和爆发。它们分别是:
-
哲学:探讨思考、行为本质的学科,构建了人工智能的思想。我认为哲学搭建了人工智能的骨架。
-
数学:探讨如何让上述骨架动起来。涉及四个方面:
- 逻辑:确定的推理,例如三段论
- 概率:不确定的推理,例如阿尔法狗
- 可计算性:有些函数无法用图灵机计算
- 易计算性:有些问题非常难解(称为NP问题),例如最短路径问题
-
经济学:是一个探索收益的学科,让刚刚能动的骨架有了灵魂,涉及以下三个问题:
- 决策论:在当前环境下,组织如何行动才能有最大收益?这个领域无需关注其他个体的决策。
- 博弈论:在周围有好多与你类似的个体时,如何决策?这个领域需要关注别人可能的行动。
- 运筹学:收益不能立刻产生,而是需要连续几个行动之后才有收益,如何决策?
-
神经科学:大脑如何处理信息?研究成果比如脑机接口
-
心理学:人类和动物如何思考和行动?
- 行为主义(拒绝探讨心理过程)–>认知心理学–>加入计算机科学,成为认知科学
-
计算机工程:如何高效的构建计算机?
- 提供算力,制造性能强大的AI
-
控制理论和控制论:人造物如何在自己的控制下稳定地运行?控制论与人工智能创始人之间有着密切的联系,但是其工具和目标有着显著区别。
- 控制论适用于固定的连续变量集描述的系统,追求的是稳定
- 而AI有着逻辑推理和计算的功能,能够考虑语言,视觉等问题,这远远超出了控制论的研究范畴
-
语言学:即自然语言处理