网易首页 > 网易号 > 正文 申请入驻

为什么说“无监督学习”才是深度学习的未来?

0
分享至

【网易智能 7月23日消息】我们已经在之前的一篇文章中探讨了神经网络和深度学习技术,现在是时候讨论深度学习的另一个主要组成部分了:数据,即图像,视频,电子邮件,驾驶模式,短语,物体等等。

令人惊讶的是,尽管我们的世界几乎被数据所淹没,但很大一部分是未经标注未被整理过的,这意味着这些数据对于大多数目前的监督式学习来说是不可用的。

而深度学习尤其依赖于大量良好的、结构化的、有标签的数据。在我们“神经网络非数理化指南”的第二部分中,我们将研究为什么高质量的、标记过的数据如此重要,它来自哪里,如何使用,以及近期会有什么样的解决方案可以提供给我们制造的那些渴望学习的机器。

监督学习:让我握住你的手

在关于神经网络的文章中,我们曾解释了如何通过精心制作的“香肠印刷机”(sausage

press)将数据输入给机器,这些印刷机能够快速进行剖析、分析甚至自我精炼。

这一过程被认为是监督式学习,因为大量的数据被输入到机器中,这些数据被事先煞费苦心地贴上了标签。例如,要训练一个神经网络来识别苹果或橙子的图片,就需要给这些图片贴上标签。机器可以通过识别所有被标记为苹果或橙色的图片来理解数据,这些图片有共同之处,因此机器最终可以利用这些已识别的图片来更准确地预测新图像中所出现的内容。他们看到的标记数据越多,看到的数据集越大,就能更好地增进他们预测的准确性。

这种方法在教机器学习视觉数据时很有用,还可以教机器如何识别从照片、视频到图形和书写在内的东西。一个明显的优势是,在许多应用程序中,机器在图像识别上做得甚至比人类还好。

比如,Facebook的深度学习软件能够将一张陌生人的两张照片进行匹配,其准确性与人类相当(实际上97%的情况下要好于人类),而谷歌在今年早些时候推出了一种可以从医学影像中探测肿瘤的神经网络,它的准确性甚至高于医师。

无监督学习:不需要监护人指导就得出结论

如你所预期,与监督式学习相对应的是无监督学习。这是指你松开系在机器上的皮带,让它潜入数据中,自主地进行发现和体验,寻找模式和联系,并得出结论,而不需要监护人的指导。这项技术长期以来一直被一部分人工智能科学家们所批评,但在2012年,谷歌展示了一个深度学习网络,能够从一大堆没有标记过的图片中破译猫、人脸和其他物体。这项技术令人印象深刻,并带来了一些极为有趣和有用的结果,但是,到目前为止,在任何方面无人监督学习都达不到监督学习的准确性和有效性。

无处不在的数据

这两种方式的差异使我们进入了对一个更大、令人困惑的话题的探讨。把这些机器比作人类婴儿很有用。我们知道,只要让我们的孩子放松,没有指导他也会学习,但他学到的不一定是我们想要他学的东西,学习的方式也无法预测。

但是,既然我们也通过教育来教孩子,那么我们就需要通过客观上无穷多的话题使孩子暴露于大量物体和概念之中,我们需要教给孩子方向,动物和植物,重力和其他物理属性,阅读和语言,食物类型和元素等。事实上是所有存在的事物。随着时间推移,所有这些几乎都可以通过展示和讲述活动以及回答年轻人无穷多得问题而被解释。这些问题都是由任何好奇的年轻人提出的。

这是一项浩大的工程,但所有父母和普通孩子身边的人每天都在做着这样的事情。神经网络有同样的需求,但它的关注点通常更狭窄,我们也不太会与它进行社交,所以标签需要更加精确。

目前,人工智能研究人员和科学家可以采取很多方法来获取数据,以训练他们的机器。第一种方法是走出去,自己收集大量的标签数据。谷歌、亚马逊、百度、苹果、微软和Facebook等公司的情况都是如此,有意思的事,这些企业都拥有令人惊叹的海量数据——其中大部分都是由客户免费提供的。如果想把所有这些数据都列出来,那就太愚蠢了;但应该考虑一下上传到这些公司数据库云存储上的数十亿条标记过的图片。

然后想想所有的文档,通过语音、文本、照片和光学字符识别进行的搜索查询,位置数据和地图,评级、赞和分享,购物信息,快递地址,电话号码和联系方式,地址簿和社交网络。拥有这些资源的公司——以及任何规模庞大的公司——往往在机器学习中拥有独特的优势,因为它们拥有丰富的特定类型的数据

数据带来的困难

如果你碰巧没有拥有一家拥有海量数据的财富100强公司,那么你就应该知道如何与他人分享。获取大量多样化数据是人工智能研究的一个关键部分。幸运的是,现在已经有大量免费和公开的标签数据集,涵盖了各种各样不同的类别。根据你所想,你可以找到显示从人类面部表情和手语到公众人物脸型和肤色的各种数据集。

你还可以找到数以百万计的关于人群、森林和宠物的图片,这包括所有宠物的照片;你也可以通过筛选大量的用户和顾客评论来获得相关信息。此外,还有一些数据集,包括垃圾邮件、多种语言的推文、博客帖子和法律案例报告。

新的数据类型来自于世界上越来越多、无处不在的传感器,比如医疗传感器、运动传感器、智能设备的陀螺仪、热传感器等等。还有就是人们给他们吃的食物、葡萄酒标签和讽刺性标语等拍的照片。

问题在哪里呢?

尽管数据是如此之多,但事实证明许多数据都不是那么有用。要么是它们太小了,要么是不太好,要么是只有部分被贴上标签,或者标签贴的不合适,总之他们就是无法满足你的需求。例如,如果你希望教会一台机器识别图像中的星巴克标志,你可能只能找到一个用来训练的图片数据库,该数据库可能被打上了“饮料”、“饮品”、“咖啡”、“容器”或人名“乔”,没有正确的标签,它们就没有用处。

一般的律师事务所或老牌公司在其数据库中可能会有数百万份合同或其他文书,但这些数据无法被使用,因为它们可能是被简单地以未打过标签的PDF格式保存的。在获得最优数据方面的另一个挑战是确保所使用的训练数据集数量够大,并且是多样化的。

另外,在训练一个复杂的模型,如深度神经网络时,使用小数据集可能会导致所谓的过度拟合,这是机器学习中一个常见的问题。实际上,过度拟合是由于大量可学习参数与训练样本有关联导致的,这样的参数充当了“神经元”,我们在之前通过反向传播对其进行了全面的调整。结果可以是一个能够记住这些训练数据的模型,而不是从数据中学习一般概念的模型。

回想一下我们的苹果-桔子网络。因为作为训练数据的苹果图像很少,而神经网络却很庞大,我们很可能会让网络在特定细节上进行仔细的研究——红色、棕茎,圆形,这些细节需要在训练数据之间被准确地区别化。这些微小的细节可能会很好地描述训练苹果的图片,但当测试中机器被要求识别一个新的苹果时,这些细节可能就被证明是无关紧要,甚至是不正确的,因为在测试的时候,可能会有一个新的、机器之前未见过的苹果。

另一个重要的原则就是数据的多样性,从统计学上来说,你所积累的数据越独特,你的数据就越有可能更加多样化。

在“苹果-桔子”的例子中,我们希望机器能有合理的概括能力,这样它就能识别所有苹果和桔子的图像,不管这些苹果桔子是否出现在训练集中。

毕竟,并不是所有的苹果都是红色的,如果我们只在红色苹果的图片上训练我们的网络,很有可能在测试时它是无法识别出绿色苹果的。因此,如果在培训中使用的数据类型是不全面的,无法囊括测试中所有的可能性,那么就会出现这样的问题。在很多人工智能领域,以偏概全的问题已经开始出现。神经网络和用来训练它们的数据集反映了其制造者人群中的偏见。再一次,如果只用红苹果来训练我们的苹果-橘子网络,我们可能会让机器具有偏见,认为苹果只能是红色的。

如果类推到其他应用之中,比如面部识别,那么不全面数据带来的影响就会变得非常明显,就像老话说的那样:“进来的是垃圾,出去的还是垃圾”

制造一个可以独立思考的捕鼠器

缺少人力去标记数据是一个问题,这很昂贵。或者如果世界上的所有公司都忽然统一开放他们的数据资源,并心甘情愿地将其提供给全球的科学家,这样一来缺乏好的训练数据一事就不复存在了。

与其朝着获得尽可能多的数据这一目标努力,深度学习的未来可能会是朝着无监督学习技术这一方向发展。

如果我们想一想我们是如何教给婴幼儿关于世界的知识时,这样的做法就是有道理的;毕竟,尽管我们确实教会了孩子很多东西,但作为人类所做的最重要的学习,是经验,这是无人监督的。

【英文来源:techcrunch 编译:网易见外智能编译平台 审校:Ecale】

责任编辑:丁广胜_NT1941

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
闹大了!人民法治都报道了:老人4月燃气费12000,是往年的三四倍

闹大了!人民法治都报道了:老人4月燃气费12000,是往年的三四倍

杂谈哥闲谈
2024-04-18 23:13:32
血糖慢慢正常的7个信号。

血糖慢慢正常的7个信号。

今日养生之道
2024-04-19 23:06:39
都值不值?15位亿元先生:哈姆贝1.8亿欧,萨卡1.3亿罗德里戈1亿

都值不值?15位亿元先生:哈姆贝1.8亿欧,萨卡1.3亿罗德里戈1亿

直播吧
2024-04-18 09:56:28
不小心发现了同学后妈的秘密,为让我保守秘密她居然这样对我

不小心发现了同学后妈的秘密,为让我保守秘密她居然这样对我

亲爱的落落
2024-02-23 11:35:08
上海出轨张老师曝大量美照,难怪16岁男主挡不住,换你也把持不住

上海出轨张老师曝大量美照,难怪16岁男主挡不住,换你也把持不住

辣条小剧场
2024-02-20 08:00:10
有人玩命,有人划水,赵奕欢却把《乘风2024》搞成浓郁夜店风

有人玩命,有人划水,赵奕欢却把《乘风2024》搞成浓郁夜店风

马庆云的影音娱
2024-04-19 13:43:47
官方:快船因在对阵火箭比赛中违反伤病报告规则被罚款2.5万

官方:快船因在对阵火箭比赛中违反伤病报告规则被罚款2.5万

直播吧
2024-04-20 04:36:14
越闹越大!30款啤酒香港检出呕吐素,回应只卖内地,评论区爆炸!

越闹越大!30款啤酒香港检出呕吐素,回应只卖内地,评论区爆炸!

娱乐圈的笔娱君
2024-04-20 04:12:40
演技一般别硬捧,资本家的漂亮孩子徐若晗,被吹天才型演员被众嘲

演技一般别硬捧,资本家的漂亮孩子徐若晗,被吹天才型演员被众嘲

愚记谈娱乐
2024-04-16 17:48:44
日元大规模做空,世界货币大洗牌,人民币将成全球第3大货币

日元大规模做空,世界货币大洗牌,人民币将成全球第3大货币

资本百科
2024-04-19 17:39:27
亨利·卡维尔版《007》预告片火爆全网,玛格特·罗比饰演邦女郎

亨利·卡维尔版《007》预告片火爆全网,玛格特·罗比饰演邦女郎

汤老湿看电影
2024-04-19 17:46:13
他俩竟然真的在一块儿了?这几年跑男可真是没白参加呀!

他俩竟然真的在一块儿了?这几年跑男可真是没白参加呀!

海真少女
2024-04-18 18:40:40
高诗岩:老婆是在当地认识的山东人 希望在山东一直效力下去

高诗岩:老婆是在当地认识的山东人 希望在山东一直效力下去

直播吧
2024-04-19 21:09:11
刀片电池存设计缺陷,或将导致几十万比亚迪车主自费更换or召回?

刀片电池存设计缺陷,或将导致几十万比亚迪车主自费更换or召回?

新能源前瞻
2024-04-18 18:58:47
我当兵六年才提干,未婚妻等不及,宣布任命当天,收到她的退亲信

我当兵六年才提干,未婚妻等不及,宣布任命当天,收到她的退亲信

铿锵玫瑰r
2024-04-15 22:08:34
中方下令菲律宾必须拖走破船!菲总统立马划下红线: 敢来就打

中方下令菲律宾必须拖走破船!菲总统立马划下红线: 敢来就打

匹夫来搞笑
2024-04-19 23:57:09
有大暴雨!周日至周一,广州将迎本轮过程最强降水

有大暴雨!周日至周一,广州将迎本轮过程最强降水

鲁中晨报
2024-04-19 13:48:08
联想杨元庆:华为在特定领域突出,但相比联想和英伟达,差距较大

联想杨元庆:华为在特定领域突出,但相比联想和英伟达,差距较大

开心体育站
2024-04-19 19:46:35
最新!爆河南队换帅,国足泰山功勋“救活”驰援

最新!爆河南队换帅,国足泰山功勋“救活”驰援

看球先锋
2024-04-20 06:20:03
很遗憾,日韩又斗起来了!顾不上美努力白费,这是尹锡悦最后希望

很遗憾,日韩又斗起来了!顾不上美努力白费,这是尹锡悦最后希望

强国视角
2024-04-19 14:41:59
2024-04-20 09:36:49
智能菌
智能菌
聚焦人工智能!
645文章数 23671关注度
往期回顾 全部

科技要闻

华为今年最关键的事曝光!Pura 70有新消息

头条要闻

小伙在广州地铁广告上投简历 5天有30多家公司联系他

头条要闻

小伙在广州地铁广告上投简历 5天有30多家公司联系他

体育要闻

米切尔这次对线不会输了吧

娱乐要闻

北影节开幕之夜,内娱女星千娇百媚

财经要闻

新华资管香港的秘密:猛投地产或致巨亏

汽车要闻

风神L7预售 东风汽车北京车展阵容公布

态度原创

健康
教育
亲子
数码
时尚

这2种水果可降低高血压死亡风险

教育要闻

沉迷于手机的孩子,看似他们很享受,但是真的快乐吗?

亲子要闻

女儿每次吃肉都要吃一大碗,妈妈本想劝她不料反被她套路,女儿:想揍我就直说!

数码要闻

让我们回顾25年前微软IntelliMouse Explorer的亮相

放弃牛仔裤吧,入夏是穿“裙子”的季节!遮肉显瘦谁穿谁优雅

无障碍浏览 进入关怀版