大规模机器学习概论

2016年5月4日 17:44 阅读 4167

 

课程老师夏粉(百度大数据实验室高级科学家)

 

主讲人简介

夏粉, 中科院自动化所模式识别与智能系统专业博士毕业,拥有十年以上机器学习研究经验,主要研究领域包括大规模机器学习、广告和推荐技术、排序学习等。目前是百度研究院大数据实验室高级科学家,曾任百度网盟大规模机器学习技术负责人。在百度创新了多项大规模机器学习技术,搭建了一套容纳万亿特征数据的、模型分钟级别更新的、自动高效深度学习的点击率预估系统。加入百度前曾任中科院自动化所助理研究员,曾获得自动化所优秀毕业生,中科院刘永龄奖学金何善堉杰出贡献奖,微软明日之星,曾在机器学习顶级会议杂志ICML, NIPS等发表多篇文章。

 

课程简介:

随着数据采集技术的飞速发展以及数据源的日益丰富,数据规模已经爆炸性增长。作为人工智能研究领域中一个重要的方向,机器学习是公认的处理和学习这些数据的最有效手段之一。面向大数据量的机器学习,通常需要做分布式的算法,来容纳上亿特征和数据。本报告将向大家分享了大规模机器学习和数据挖掘方面的话题和研发成果,将以广告大数据上的点击率预估,介绍大规模机器学习与传统机器学习问题的区别,大规模机器学习面临的问题,大规模机器学习的过程,并介绍最新的大规模机器学习技术。

 

课程目录:

 

Ø 广告背景

Ø 大规模机器学习

Ø 实战技术

Ø 总结展望

 

第一章: 广告背景

ü  搜索广告:   Search Ads

ü  展示广告:DisplayAds

ü  广告与点击率预估

ü  广告系统介绍

ü  点击率(CTR)预估问题

 

第二章:大规模机器学习

ü  大规模机器学习

ü  CTR预估的机器学习流程

ü  离散特征生成

ü  离散特征影响

ü  维数约简

ü  模型: LogisticRegression

ü  模型训练

ü  正则化

ü  求解算法

ü  分布式计算架构

 

第三章:实战技术

ü  数据处理技术

ü  数据采样

ü  噪音检测

ü  特征处理技术

ü  特征删减

ü  自动调参

ü  深度特征学习技术

ü  模型时效性

ü  增量效果汇总

ü  模型训练

ü  训练算法优化

 

第四章:总结展望

ü  大数据点击率预测技术发展

ü  百度Pulsar平台

 

了解更多百度大数据实验室的研究领域,敬请关注:

百度大数据实验室官网://bdl.baidu.com/

百度大数据实验室官方微信: 

智铀科技创始人兼CEO,前百度研究院高级科学家,计算广告学