Andrej Karpathy：监督学习、无监督学习、人脑模拟和AGI的未来（83 PPT下载）

新智元

1新智元编译

来源：docs.google.com

作者：Andrej Karpathy

编译：Neko

【新智元导读】Andrej Karpathy是深度学习和计算机视觉专家、特斯拉人工智能部门主管，他最近在 Y Conf 作题为《通用人工智能从何处来？》的演讲，讨论监督学习、无监督学习、AIXI等领域最新的进展，带来AGI解决方案的一些深刻见解。本文提供全部PPT和简要介绍。

PPT下载：https://docs.google.com/presentation/d/119VW6ueBGLQXsw-jGMboGP2-WuOnyMAOYLgd44SL6xM/edit#slide=id.p

通用人工智能（AGI）从何来？

“Deep Learning”这个词的搜索热度

技术进步的几个关键时间点：

2012年：图像识别
2010年：语音识别
2014年：机器翻译

……

机器智能生态全景图3.0 [Shivon Zilis]

两个观点：

今天的AI仍然非常“窄”
但得益于深度学习，我们能够更快地更新解决方案

例如：AlphaGo

围棋AI的有利属性：

完全确定性的。游戏中没有噪音。
可以完全观察的。每一个玩家都拥有完全的信息。
行动空间是不连续的。动作具有有限数量的可能性。
能够获得一个完美的模拟器（游戏本身），所以每一步能取得的效果都是可以精确预测的。
每一盘棋都很短，只有大约200手。
评估是清晰、快速的，允许大量的试错。有大量的人类棋谱数据。

参考 Karpathy 博客文章：

Andrej Karpathy：为什么 AlphaGo很难应用到围棋以外的世界？

问题：可以把AlphaGo的方法应用在Amazon拣货挑战赛的机器人上吗？

完全确定性的。游戏中没有噪音。——OK
可以完全观察的。每一个玩家都拥有完全的信息。——大概OK
行动空间是不连续的。动作具有有限数量的可能性。——OK
能够获得一个完美的模拟器（游戏本身），所以每一步能取得的效果都是可以精确预测的。——不好
每一盘棋都很短，只有大约200手。——难
评估是清晰、快速的，允许大量的试错。——不好
有大量的人类棋谱数据。——难

小结

AI很热门。
AI仍然非常窄。
AI技术在某些情况工作很好，但还可以更进一步。

假如我们能够让AI不再那么“窄”，会怎样?

一般技术的成熟度曲线 vs AI技术成熟度曲线

那么，通用人工智能（AGI）从何处来？

监督学习
无监督学习
AIXI（AGI的理论数学形式）
脑模拟
人工生活
雷达看不到的东西

第一部分：监督学习

监督学习：收集很多很多有标签的数据，然后利用这些数据训练神经网络

Amazon Mechanical Turk（亚马逊土耳其机器人）

核心想法：从人类行为中收集数据，然后训练一个大型网络去模拟人类

这种方法的AI：

模拟/生成类似人类的行动
这些AI有创造力吗？——（或许有）
它们能在一个房间里摆好桌子/椅子吗？——（能）
它们能统治人类吗？

第二部分无监督学习

无监督学习：大的生成模型

例如：（变分）自编码器

另一个例子：Unsupervised Sentiment Neuron（无监督情感神经元）

参考：OpenAI 发现独特情感神经元，无监督学习系统表征情感取得突破

想法：

在一个大型无标签评论语料库（Amazon网站上的评论）训练一个大型 char-rnn 网络
一个神经元自动地“发现”一个小情感分类器（该高级特征帮助预测下一个字符）

神经网络有强大的“大脑状态”

那么，这样的AI能够接管世界吗？——（不）

第三部分：AIXI

AIXI：

应用于通用人工智能的算法信息理论。（Marcus Hutter）
“通用智能”的正式定义。（Shane Legg）
图灵机假设空间的贝叶斯强化学习智能体。

AIXI 表达式

super intelligent agent 的定义

MC-AIXI agent loop

这些AI是怎样的？

我们需要给它一个奖励信号。这个奖励可能很难写下来，可能导致“反常实例化”（perverse instantiation）。
或许人类可能说要给奖励，但它的行为可能没有被人类觉察到。
计算上非常困难，而且人类不擅长写复杂的代码。（例如，“AIXI approximation”）
这个智能体相当可怕，绝对是有“智能”的。

第四部分：人脑模拟

如何测量一个完整的大脑状态？

抽象的级别？
如何模拟动态？
如何模拟进入感官的“环境”？
各种伦理上的难题

第五部分：Artificial Life

自然智能从何而来？

结论：我们需要创造激励新的认知工具的环境

多智能体环境的益处：

多样性——环境有它的智能体参数化，因此最佳策略必须是动态推导的
自然设置——环境的难度取决于其他智能体的能力

【号外】新智元正在进行新一轮招聘，飞往智能宇宙的最美飞船，还有N个座位

点击阅读原文可查看职位详情，期待你的加入~

继续滑动看下一个