1新智元编译
来源:docs.google.com
作者:Andrej Karpathy
编译:Neko
【新智元导读】Andrej Karpathy是深度学习和计算机视觉专家、特斯拉人工智能部门主管,他最近在 Y Conf 作题为《通用人工智能从何处来?》的演讲,讨论监督学习、无监督学习、AIXI等领域最新的进展,带来AGI解决方案的一些深刻见解。本文提供全部PPT和简要介绍。
PPT下载:https://docs.google.com/presentation/d/119VW6ueBGLQXsw-jGMboGP2-WuOnyMAOYLgd44SL6xM/edit#slide=id.p
通用人工智能(AGI)从何来?
“Deep Learning”这个词的搜索热度
技术进步的几个关键时间点:
2012年:图像识别
2010年:语音识别
2014年:机器翻译
……
机器智能生态全景图3.0 [Shivon Zilis]
两个观点:
今天的AI仍然非常“窄”
但得益于深度学习,我们能够更快地更新解决方案
例如:AlphaGo
围棋AI的有利属性:
完全确定性的。游戏中没有噪音。
可以完全观察的。每一个玩家都拥有完全的信息。
行动空间是不连续的。动作具有有限数量的可能性。
能够获得一个完美的模拟器(游戏本身),所以每一步能取得的效果都是可以精确预测的。
每一盘棋都很短,只有大约200手。
评估是清晰、快速的,允许大量的试错。有大量的人类棋谱数据。
参考 Karpathy 博客文章:
Andrej Karpathy:为什么 AlphaGo很难应用到围棋以外的世界?
问题:可以把AlphaGo的方法应用在Amazon拣货挑战赛的机器人上吗?
完全确定性的。游戏中没有噪音。——OK
可以完全观察的。每一个玩家都拥有完全的信息。——大概OK
行动空间是不连续的。动作具有有限数量的可能性。——OK
能够获得一个完美的模拟器(游戏本身),所以每一步能取得的效果都是可以精确预测的。——不好
每一盘棋都很短,只有大约200手。——难
评估是清晰、快速的,允许大量的试错。——不好
有大量的人类棋谱数据。——难
小结
AI很热门。
AI仍然非常窄。
AI技术在某些情况工作很好,但还可以更进一步。
假如我们能够让AI不再那么“窄”,会怎样?
一般技术的成熟度曲线 vs AI技术成熟度曲线
那么,通用人工智能(AGI)从何处来?
监督学习
无监督学习
AIXI(AGI的理论数学形式)
脑模拟
人工生活
雷达看不到的东西
监督学习:收集很多很多有标签的数据,然后利用这些数据训练神经网络
Amazon Mechanical Turk(亚马逊土耳其机器人)
核心想法:从人类行为中收集数据,然后训练一个大型网络去模拟人类
这种方法的AI:
模拟/生成类似人类的行动
这些AI有创造力吗?——(或许有)
它们能在一个房间里摆好桌子/椅子吗?——(能)
它们能统治人类吗?
无监督学习:大的生成模型
例如:(变分)自编码器
另一个例子:Unsupervised Sentiment Neuron(无监督情感神经元)
参考:OpenAI 发现独特情感神经元,无监督学习系统表征情感取得突破
想法:
在一个大型无标签评论语料库(Amazon网站上的评论)训练一个大型 char-rnn 网络
一个神经元自动地“发现”一个小情感分类器(该高级特征帮助预测下一个字符)
神经网络有强大的“大脑状态”
那么,这样的AI能够接管世界吗?——(不)
AIXI:
应用于通用人工智能的算法信息理论。(Marcus Hutter)
“通用智能”的正式定义。(Shane Legg)
图灵机假设空间的贝叶斯强化学习智能体。
AIXI 表达式
super intelligent agent 的定义
MC-AIXI agent loop
这些AI是怎样的?
我们需要给它一个奖励信号。这个奖励可能很难写下来,可能导致“反常实例化”(perverse instantiation)。
或许人类可能说要给奖励,但它的行为可能没有被人类觉察到。
计算上非常困难,而且人类不擅长写复杂的代码。(例如,“AIXI approximation”)
这个智能体相当可怕,绝对是有“智能”的。
如何测量一个完整的大脑状态?
抽象的级别?
如何模拟动态?
如何模拟进入感官的“环境”?
各种伦理上的难题
自然智能从何而来?
结论:我们需要创造激励新的认知工具的环境
多智能体环境的益处:
多样性——环境有它的智能体参数化,因此最佳策略必须是动态推导的
自然设置——环境的难度取决于其他智能体的能力
【号外】新智元正在进行新一轮招聘,飞往智能宇宙的最美飞船,还有N个座位
点击阅读原文可查看职位详情,期待你的加入~