不动如山分享 http://blog.sciencenet.cn/u/hustliaohh 脚踏实地,稳步向前

博文

机器学习应该关注什么?

已有 4755 次阅读 2013-1-14 21:26 |个人分类:科研道路|系统分类:科研笔记| 机器学习

今天读了ICML12'一篇有趣的论文《Machine Learning that Matters》作者 Kiri Wagstaff
下面是这篇论文的摘要:
Much of current machine learning (ML) research has lost its connection to problems of import to the larger world of science and society. From this perspective, there exist glaring limitations in the data sets we investigate, the metrics we employ for evaluation, and the degree to which results are communicated back to their originating domains. What changes are needed to how we conduct research to increase the impact that ML has? We present six Impact Challenges to explicitly focus the field’s energy and attention, and we discuss existing obstacles that must be addressed. We aim to inspire ongoing discussion and focus on ML that matters.

    作者在文中指出了目前机器学习研究太过于注重测试数据,如UCI等,而忽略了数据的实际应用领域;同时,目前使用的性能评价指标像AUC、ROC曲线,完全忽略了数据本身的应用背景,提供的是一个数值上的对比,很难保证这个数值在实际应用中有任何意义。例如在植物学领域,80%的准确度也许是一个很不错的结果了,但是99%的准确度显示某类蘑菇是无毒的,也许我们也不敢吃这类蘑菇。性能评价应该结合具体的应用背景才能有其实际的价值。

    作者指出,一个真正实用的机器学习算法或系统应该如下图所示

    但是,现在的研究工作主要集中在第二行所示的部分,第一行使用标准测试数据替代了,而最后一行领域知识则经常被忽略了,即使主流的机器学习期刊和会议也不例外。忽略这些,实际上的标准测试数据还不如人造数据(synthetic data),因为人造数据是可控的,而标准测试数据完全不可控。

   另外,这位女作者也是非常有意思,02年已经拿到了CS的PhD,08年又拿了地质学的Master,现在又在攻读 Master of Library and Information Science。佩服。
   强烈推荐好好阅读这篇论文。


https://blog.sciencenet.cn/blog-507072-653105.html

上一篇:A New Framework for Machine Learning ---概率图模型
下一篇:mexopencv工具箱介绍
收藏 IP: 122.205.13.*| 热度|

2 陆泽橼 吕海平

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 17:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部