第22届国际数据挖掘与知识发现大会(SIGKDD 2016)
裘捷中,唐杰,钱雨杰,东昱晓
一、概述
国际数据挖掘与知识发现大会(ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 简称SIGKDD [1])是数据挖掘领域的顶级国际会议,由ACM的数据挖掘及知识发现专委会负责协调筹办。SIGKDD是一个多学科交叉的会议,会议的参与者来自数据科学、数据挖掘、知识发现、大规模数据分析以及大数据等各个领域。正如本届会议主页上所说:SIGKDD会议旨在连接理论和实践,最大化数据科学在未来十年甚至更久的影响力,同时帮助每一个参会人员更好地理解和规划职业道路。
2016年8月13-17日,第22届国际知识发现与数据挖掘大会(SIGKDD 2016 [2])在美国旧金山市召开。本届大会主席由IBM公司的Balaji Krishnapuram博士和BOSCH公司的Mohak Shah博士担任,程序委员会主席(PC Co-Chairs)由卡耐基梅隆大学(现Amazon公司)的Alex Smola教授和IBM公司的Charu Aggarwal博士共同担任;今年开始还将原来的工业和政府Track改名为应用数据科学Track(Applied Data Science Track),本届主席由IBM公司的Rastogi Rajeev博士和中国百度的Dou Shen博士共同担任。此次大会创纪录地吸引了来自88个国家的2726人注册参加,成为22年来参会人数最多的SIGKDD大会,此前参会人数最多的为在美国纽约市召开的第20届SIGKDD大会,其参会人数约为2320人。
图1. SIGKDD 2016大会 [2]
今年的SIGKDD大会包括2天的专题(Tutorial)和研讨会报告(Workshop)和3天的主会。本届大会邀请了四位来自学术届及工业届的知名学者作大会主题报告及斯坦福大学Whitfield Diffie教授作图灵特邀报告(Keynote),此外大会还邀请12位产业届专家阐述数据科学在产业届的应用和前景(Applied Data Science Invited Talks)。与此同时,大会还举办了以深度学习为主题的专家讨论会(Planetary Panel)及两个应用数据科学专家讨论会(Applied Data Science Invited Panel)。
本届大会继续延续SIGKDD开放、创新的传统,在会议组织方式和会议内容上进行了多项创新。除了刚才提到的从本届大会开始,原工业及政府Track(Industry and Government Track)更名为应用数据科学Track,作为不同领域的数据科学家展示及交流最新科研及应用进展的平台,讨论如何利用数据挖掘来解决实际的问题。与此同时,本届大会还首次举办了专题实践报告(Hands-on Tutorial),包括对MXNet,CNTK,Spark及AWS等主流数据科学工具和平台的介绍和实践指导。此外,大会还邀请了6位创业投资专家与参会人员进行一对一面对面交流(VC Office Hours),为数据科学从业人员提供来自资本市场的建议及指导。
该报告对精彩的本届SIGKDD 2016大会进行全方位介绍和解读,包括主题报告、研究热点、大会最佳论文、创新和服务大奖、全球100名最具影响力数据科学家、中国数据科学发展及对2017和2018年SIGKDD大会的展望。
二、主题报告和特邀报告
主题报告
本届SIGKDD大会邀请了微软新英格兰研究院和纽约研究院院长Jennifer Chayes博士,加州大学伯克利分校电子工程与计算机科学系Joe Hellerstein教授,全球风险投资公司恩颐投资(NEA)合伙人Greg Papadopoulos博士,和牛津大学教授、Google DeepMind首席科学家Nando de Freitas博士进行了四场大会主题报告。
图2. SIGKDD 2016主题报告专家(从左到右分别是Jennifer Chayes博士、Joe Hellerstein教授、Greg Papadopoulos博士、Nando de Freitas博士)
Jennifer Chayes博士是微软新英格兰研究院和纽约研究院的院长、联合创始人和杰出科学家,曾任加州大学洛杉矶分校数学系教授。她作了题为“图函数和机器学习:大规模稀疏网络的建模和评估”的主题报告。Jennifer Chayes博士指出,在大规模稀疏网络的建模和学习中,相较于传统的参数化模型,无参数模型更加合理可行。她介绍了过去几十年提出的稠密图和稀疏图上的图函数理论,并分析了如何将其应用在稀疏网络的无参数模型上。此外,她还介绍了如何在进行网络建模的同时保护个体的隐私。
Joe Hellerstein教授是加州大学伯克利分校的计算机科学教授,研究兴趣为数据中心系统和数据驱动计算。他曾三次获得SIGMOD会议十年最佳论文,《财富》杂志将其评为“技术领域最聪明的50个人”之一。Joe Hellerstein教授的报告题为“人、计算机和混乱的真实数据”。他基于研究成果、用户分析、以及在数据库领域公司的经历,介绍了如何通过人、计算和设备的交互,建立灵活的数据分析渠道。
Greg Papadopoulos博士是全球风险投资公司恩颐投资(NEA)的投资合伙人,在技术领域工业界和学术界有二十多年的经验,曾任麻省理工学院电子工程和计算机系副教授、Sun Microsystems公司执行副总裁、首席技术官。他的报告题为“从风险投资的观点看机器学习”。Greg Papadopoulos博士分析了数据科学和机器学习对于工业界和市场的重要性,介绍了他们正在观察和投资的项目,强调他们注重公司从数据获取价值、并最终落实到产品的生态系统。
Nando de Freitas博士是牛津大学计算机科学系教授,同时在Google旗下人工智能企业DeepMind担任首席科学家。他作了题为“深度递归神经网络的学习和组合”的主题报告。2016年DeepMind开发的AlphaGo在人机围棋大战中战胜了世界围棋冠军、职业九段选手李世石,吸引了全世界的关注。DeepMind的大胜,深度神经网络功不可没。Nando de Freitas博士从学习学习算法、神经网络编程和解释、学习交流三个例子,介绍了深度递归神经网络在计算机视觉、语音、计算语言学、机器人学、增强学习和许多其他富数据领域的重要作用。
图灵特邀主题报告
图3. SIGKDD 2016图灵特邀主题报告人Whitfield Diffie教授
2015年ACM图灵奖得主、斯坦福大学Whitfield Diffie教授受SIGKDD邀请在本届大会作了图灵特邀报告。Whitfield Diffie教授是世界著名的密码技术和信息安全专家,是公钥加密技术的开创者。他的报告题为“信息安全发展的意义”。他从19世纪无线电技术兴起开始,介绍了通信攻击方式的演变和信息安全技术的发展历程。他将通信攻击总结为两种形式:一种是一击致命的整体攻击,另一种是汇集小的信息泄漏形成对目标的整体理解。Whitfield Diffie教授还分析了信息安全领域的发展趋势和未来方向。
应用数据科学邀请报告
此外,本届SIGKDD大会还邀请来自工业界的专家和领袖围绕“应用数据科学”这一主题进行了12场邀请报告,其中包括SAP公司首席数据官Jonathan Becher先生、Verizon公司产品管理副总裁Jeff Stribling博士、微软研究院首席研究员Duncan Watts博士、Uber公司先进技术中心机器学习工程主管Jeff Schneider博士、RapidMiner公司创始人和总裁Ingo Mierswa博士、Amplero公司首席科学家和首席技术官Oliver Downs博士、NVIDIA公司无人驾驶汽车高级主管Danny Shapiro先生、腾讯公司社会和广告部副总经理Ching Law博士、亚马逊公司机器学习主管Ralf Herbrich博士、Netflix公司科学和算法副总裁Caitlin Smallwood女士、Tamr公司创始人和首席执行官Andy Palmer先生、Drawbridge公司创始人和首席执行官Kamakshi Sivaramakrishnan博士和高级数据科学家Randell Cotta博士。12场邀请报告介绍了数据挖掘在各个领域的成功应用和发展前景,包括金融、医疗、生物科技、公共政策、城市建设、电子通信和商业广告等。
图4. 历年投稿和论文接收情况,其中左图为研究论文,右图为应用数据科学论文(原工业与政府届论文)
三、研究论文和热点
本届大会收到784篇研究性论文和331篇应用数据科学论文投稿,其中研究性论文的数量相比2015年的1008篇和2014年的1036篇有所减少,而应用数据科学论文则相比往年有了很大的增加。对于研究性论文(应用数据科学论文),每篇投稿文章由至少4(3)名审稿人评审及1名相应领域的高级程序委员协调讨论并推荐,最终由程序委员会主席决定是否录取。在75(34)名高级程序委员和675(204)名评审人的共同努力下,本次大会最终录取142篇研究性论文(录用率约18.1%)和66篇应用数据科学论文(录用率约20%)。
SIGKDD在对论文质量严格要求的同时,也给予每一篇入选论文充分的展示机会,每篇论文都有晚间长达5小时的海报展示环节。每篇口头汇报的论文还有20分钟的口头展示时间和提问时间。
在研究热点方面,亚利桑那州立大学的Hanghang Tong教授统计了本届会议录用的研究性论文的主题分布。正如表1所示,大数据、富数据挖掘、图挖掘和社会网络这三个方向吸引了最多的论文。此外降维、分类和推荐系统方向也吸引了大量研究论文。而隐私数据保护数据挖掘、异常检测和数据可信度这些方向接受的论文则相对较少。
表1. SIGKDD 2016大会研究论文主题分布
下面就作者们的理解介绍一下本届会议的几个主题,包括图挖掘和社交网络、深度学习、推荐系统、时间序列和流数据挖掘、应用数据科学等。
图挖掘和社交网络
在研究性论文中,图和富数据(Graphs and Rich Data)、图和社会网络(Graphs and Social Networks)这些专题都和图挖掘和社会网络紧密相关。今年的最佳论文奖(Best Paper Award)颁给了卡耐基梅隆大学Christos Faloutsos组的工作FRAUDAR: Bounding Graph Fraud in the Face of Camouflage,文章提出了一种对用户商品评论数据进行图论建模,从而对虚假评论进行检测的新算法,并给出了理论证明。今年的最佳学生论文奖(Best Student Paper Award)颁发给了布朗大学的工作TRIÈST: Counting Local and Global Triangles in Fully-Dynamic Streams with Fixed Memory Size,文章提出了一个在动态网络中计算全局和局部三角形数量的算法。来自亚利桑那州立大学和清华大学的团队的工作QUINT: On Query-Specific Optimal Networks提出了一个可以同时高效计算最优网络拓扑和节点相似度的算法,并在大量大规模网络上进行了实验。
深度学习
本次SIGKDD专门设置了一个深度学习和表示学习(Deep Learning and Embedding)的专题讨论当下炙手可热的深度学习在数据挖掘—尤其是图数据挖掘中的应用。斯坦福大学Aditya Grover博士生和Jure Leskovec教授的论文“node2vec: Scalable Feature Learning for Networks”介绍了一种新的网络数据表示学习的算法。通过重新定义节点的上下文(Context),node2vec可以同时学习出节点之间距离的信息和节点的局部网络结构的信息。另外一个值得一看的工作是谷歌公司的“Smart Reply: Automated Response Suggestion for Email”,研究者通过深度学习实现了一个端到端的自动生成简短邮件回复的模型,这个模型已经在Gmail上进行使用,现在已帮助约10%的邮件进行自动回复。还有一个有趣的工作是来自清华大学和加拿大西蒙弗雷泽大学团队的“Asymmetric Transitivity Preserving Graph Embedding”,他们提出了一个保留网络非传递性的表示学习算法,可以更好地刻画图的结构信息。
推荐系统
推荐系统一直是数据挖掘领域的一个重要的话题。在本届SIGKDD大会中的推荐系统(Recommender Systems)专题中,我们看到了一篇令人耳目一新的文章“The Limits of Popularity-Based Recommendations, and the Role of Social Ties”。这篇来自罗马大学和谷歌的文章通过经济学的角度尝试回答这样一个问题:推荐系统会多大程度上扭曲市场(改变原来的供求关系),而用户之间的社会联系在其中又扮演了什么样的角色?文章的结论非常耐人寻味—人们的社会联系可以保护消费者免收这种扭曲的影响。
时间序列和流数据挖掘
本次SIGKDD大会中为期2天的专题和研讨会报告中,专门设置了一个时间序列挖掘和学习研讨会(SIGKDD Workshop on Mining and Learning from Time Series),这也迎合了时间序列和流数据挖掘近几年热门的趋势。在研究性论文中,来自佐治亚理工的工作“Recurrent Marked Temporal Point Processes: Embedding Event History to Vector”尝试使用递归神经网络对时间序列数据进行建模,同时刻画时间和事件的信息。而来自日本熊本大学的工作“Regime Shifts in Streams: Real-time Forecasting of Co-evolving Time Sequences”则讨论了如何对若干个同时进化(Co-evolving)的时间序列进行建模和预测,并同时保证算法的高效和高可扩展性。
应用数据科学
和研究性论文不同,应用数据科学的论文更加强调数据挖掘的技术、实践和应用,也更加强调对实际数据的理解和对实际问题的解决。在录取的应用数据科学论文中,无论是老牌的科技公司如微软和雅虎,还是业界新锐如Pinterest都和我们分享了他们在实践中和产品中是与大数据打交道的心得和技术。值得注意的是今年应用数据科学的最佳论文奖颁给了雅虎的工作“Ranking Relevance in Yahoo Search”。来自雅虎的研究者们对雅虎搜索20年的工作进行了全面总结和分析,值得一读。站在旧金山湿冷的风中,雅虎已经渐行渐远,但它身后属于大数据的滚滚大潮仍然汹涌而轰鸣着,让人心生敬意,也让人唏嘘不已。
四、SIGKDD 2016大会奖项
本届SIGKDD大会和历届大会一样,颁发了最佳论文等论文奖项和创新奖、服务奖等个人奖项。具体获奖情况为:
● 最佳研究论文
○ 最佳论文奖:FRAUDAR: Bounding Graph Fraud in the Face of Camouflage
○ 最佳论文奖第二名:Ranking Causal Anomalies via Temporal and Dynamical Analysis on Vanishing Correlations
○ 最佳学生论文奖:TRIÈST: Counting Local and Global Triangles in Fully-dynamic Streams with Fixed Memory Size
○ 最佳学生论文奖第二名:Predicting Matchups and Preferences in Context
● 最佳应用数据科学论文
○ 最佳论文奖:Ranking Relevance in Yahoo Search
○ 最佳论文奖第二名:Matrix Computations and Optimization in Apache Spark
○ 最佳学生论文奖:Contextual Intent Tracking for Personal Assistants
○ 最佳学生论文奖第二名:Firebird: Predicting Fire Risk and Prioritizing Fire Inspections in Atlanta
● 最佳博士毕业论文
○ 最佳博士毕业论文:Dissertation: Exploring and Making Sense of Large Graphs,作者为卡耐基梅隆大学Danai Koutra博士,其导师为Christos Faloutsos教授
○ 最佳博士毕业论文第二名:Mining Disparate Sources for Question Answering,作者为加州大学圣塔芭芭拉分校Huan Sun博士,其导师为Xifeng Yan教授;Scalable Multivariate Time Series Analysis,作者为南加州大学Taha Bahadori博士,其导师为Yan Liu教授
● 十年最佳论文(Test of Time Award)
○ Graphs over time: densification laws, shrinking diameters and possible explanations (KDD 2005)
○ 作者为:Jure Leskovec博士(现为斯坦福大学副教授 )、Jon Kleinberg (康奈尔大学教授)、Christos Faloutsos(卡耐基梅隆大学教授)
● SIGKDD创新和服务大奖
○ 创新贡献奖:Philip S. Yu教授(伊利诺伊大学芝加哥分校)
○ 服务贡献奖:Wei Wang教授(加州大学洛杉矶分校)
● KDD CUP竞赛
○ 第一名:burebistas队(Adform公司Vlad Sandulescu, Bitdevelop公司Mihai Chiru)
○ 第二名:T310B队(清华大学Yujie Qian, Yinpeng Dong, Ye Ma, Hailong Jin, Juanzi Li)
○ 第三名:browniepointsreturns队(LatentView Analytics公司Mohan Manivannan, Nachiappan Palaniappan)
SIGKDD 2016的最佳研究论文奖由来自卡耐基梅隆大学的Bryan Hooi, Hyun Ah Song, Alex Beutel, Neil Shah, Kijung Shin, Christos Faloutsos的论文“FRAUDAR: Bounding Graph Fraud in the Face of Camouflage”获得。这篇论文研究如何在用户商品评论数据中识别假的评论,提出的方法能够识别伪装,比传统方法更加有效。最佳学生研究论文奖由来自布朗大学的Lorenzo De Stefani等人的论文“TRIÈST: Counting Local and Global Triangles in Fully-dynamic Streams with Fixed Memory Size”获得,其提出了一种单遍历流式算法用于对动态网络中全局和局部三角形数量的无偏、低方差、高质量的估计,比现有方法更好更快。
应用数据科学分会中,最佳论文奖由雅虎研究院的Dawei Yin等人的论文“Ranking Relevance in Yahoo Search”获得。这篇论文总结了雅虎搜索20多年的探索和努力,介绍了排序函数、语义特征、查询重写三大关键技术,以及时间、位置相关的搜索。雅虎公司是搜索引擎和互联网经济的开拓者,而随着时代浪潮的不断推进,雅虎公司最终在不久前被收购。这篇论文,也成为了雅虎研究院的绝唱。最佳学生论文由来自墨尔本大学的Yu Sun等人的论文“Contextual Intent Tracking for Personal Assistants ”获得,这篇文章研究了如何为个人助理软件提供准确的用户意图分析。
今年SIGKDD大会的Test of Time十年最佳论文奖由斯坦福大学Jure Leskovec副教授、康奈尔大学Jon Kleinberg教授和卡耐基梅隆大学Christos Faloutsos教授在2005年KDD大会上发表的论文“Graphs over time: densification laws, shrinking diameters and possible explanations”获得。这篇论文研究了真实网络如何随时间进行演变,发现随着时间增长,真实网络通常变得越来越稠密,即边数关于点数非线性增长,并且两点之间的平均距离逐渐缩小,而非传统认为的缓慢增长。此项关于网络动态演变的研究具有重要影响,截止2016年8月其Google Scholar引用次数都已超过1500次。
按照惯例,今年大会颁发了最佳博士论文奖,由卡耐基梅隆大学的Danai Koutra博士获得,她的博士论文题目为“Dissertation: Exploring and Making Sense of Large Graphs”,其导师为Christos Faloutsos教授。
SIGKDD创新奖(Innovation Award)是数据挖掘领域最高技术奖项,每年在SIGKDD大会上颁发。今年的SIGKDD 2014创新奖颁发给伊利诺伊大学芝加哥分校Philip S. Yu教授,以表彰他在大数据挖掘、融合和匿名性上富有影响力的研究工作。此前,Philip S. Yu教授还获得过国际数据挖掘大会(ICDM)颁发的研究贡献奖。往届SIGKDD创新奖的获得者包括Rakesh Agrawal,Jerome Friedman,Heikki Mannila,Jiawei Han,Leo Breiman,Ramakrishnan Srikant,Usama M. Fayyad,Raghu Ramakrishnan,Padhraic Smyth,Christos Faloutsos,J. Ross Quinlan,Vipin Kumar, Jon Kleinberg,Pedro Domingos,和Hans-Peter Kriegel。
SIGKDD服务奖(Service Award)用于表彰为数据挖掘领域的学术交流和团体发展作出突出贡献的学者,今年的获奖人为加州大学洛杉矶分校Wei Wang教授,以表彰她为数据挖掘学术界所作的专业贡献。
KDD Cup是由ACM SIGKDD主办的数据挖掘竞赛,每年与KDD会议联合举办,至今已举办20届,是数据挖掘领域最具影响力的赛事。今年的KDD Cup竞赛由微软公司组织,竞赛题目为“谁的论文被录用最多?致力于研究机构的影响力度量”。组织者预先指定了8个计算机科学不同领域的顶级会议,让参赛队伍预测今年这些会议上各个研究机构发表论文情况的排名。与往届的KDD Cup不同,今年的比赛是个名副其实的预测问题,在比赛结束之前组织者和参赛者都不知道会议的真实论文录取情况,因此在比赛过程中没有数据可以用于检验预测的准确性,参赛者需要自己设计并评价预测算法,这使得比赛更加有趣和富有挑战。在综合三个阶段的比赛排名之后,最终丹麦Adform公司Vlad Sandulescu等人的队伍获得冠军,清华大学Yujie Qian等人的队伍获得亚军,印度LatentView公司Mohan Manivannan等人的队伍获得季军。获奖队伍在KDD Cup研讨会上分享和讨论了比赛中使用的模型和算法。KDD Cup等竞赛对于数据挖掘领域的人士,尤其是学生,是很好的学习和锻炼的机会。通过比赛,可以了解到不同机器学习模型和算法以及数据挖掘技术在不同实际问题上的应用和效果,提升数据挖掘的核心能力。我们希望更多的学生能参与到数据挖掘竞赛中,也希望更多的学者、科研机构和公司更多举办数据挖掘竞赛,激发这个领域的创新和活力。
五、全球100名最具影响力数据挖掘科学家
作为知识发现和数据科学的旗舰会议,SIGKDD大会已经连续举办了22届。借此机会,全球知名在线学术搜索和挖掘引擎AMiner.org在大会期间同布发布2016年全球100名最具影响力数据科学家名录 [3]。AMiner.org年度最具影响力科学家名录旨在表彰全球范围内的高引用学者和专家。目前,该2016年名录涵盖了计算机科学的16个主要研究方向和领域。对每一研究领域,AMiner.org通过对其收录的2亿余篇(截止2016年8月)学术文章进行引用关系抽取和分析,并由算法首先自动确认该领域的顶级学术会议和期刊;然后对在此领域的顶级会议和期刊上发表学术论文的学者进行排名;该名录则收录了在每一领域的顶级会议和期刊上发表的论文的总引用数前100名的科学家。具体来说,2016年全球100名最具影响力数据科学家名录通过对在过去22届SIGKDD大会上发表论文的学者的所有SIGKDD论文的引用数(截止到2016年8月SIGKDD 2016年大会)进行排名,然后自动收录前100名高引用学者。通过该名录,全球最具影响力的10名数据科学家分别是加拿大西蒙弗雷泽大学的Martin Ester教授、德国慕尼黑大学的Hans-Peter Kriegel教授、美国康奈尔大学的Jon Kleinberg教授、美国伊利诺伊大学香槟分校的Jiawei Han教授、美国伊利诺伊大学芝加哥分校的Bing Liu教授和Philip S. Yu教授、加拿大阿尔伯塔大学的Jörg Sander教授、美国卡内基梅隆大学的Christos Faloutsos教授、美国华盛顿大学大学的Pedro Domingos教授和美国阿肯色大学小石城分校的Xiaowei Xu教授。其中,美国科学家占据7席,加拿大科学家占据2席,而德国科学家占据1席。
六、数据科学在中国——China Chapter of ACM SIGKDD
在KDD主会的第一天,由KDD China秘书长、微软亚洲研究院主管研究员郑宇博士、KDD China副会长、百度金融高级总监沈抖博士和LinkedIn科学家Shipeng Yu博士共同组织了Data Science of China论坛。华人数据挖掘届六位ACM Fellow全部出席会议。来自美国伊利诺伊大学芝加哥分校的Bing Liu教授组织了本次中国峰会的第一部分,来自滴滴出行的Jieping Ye博士分享了包括供求关系预测,动态定价等诸多滴滴遇到的挑战和解决方案。来自微软亚洲研究院的Yu Zheng博士介绍了微软在城市计算方面的工作。来自罗格斯大学大学Hui Xiong教授介绍了他们利用大数据在公司管理和人力资源方面的探索。来自加拿大西蒙弗雷泽大学的Jian Pei教授介绍了他们在医疗健康数据上做的工作以及和华为公司的合作项目。来自美国伊利诺伊大学香槟分校的Jiawei Han教授介绍了他们在文本挖掘方面的工作,并且阐述了大数据在自然语言处理中的重大意义。会议的后半部分有百度的Dou Shen博士组织。来自清华大学的Peng Cui助理教授介绍了他们在网络嵌入上的工作和理解。来自清华大学的Jie Tang副教授介绍了学术搜索和挖掘引擎系统AMiner.org,从数据抓取,数据融合,数据挖掘三个方面阐述了开发过程中遇到的挑战和解决方法。此后,来此加州大学洛杉矶分校的Wei Wang教授介绍了如何融合不同源头的医疗健康数据来帮助人们战胜疾病。而来自伊利诺伊大学芝加哥分校的Phillip S. Yu教授则介绍了人脑疾病研究的相关工作,通过大数据和图挖掘技术理解人脑的工作模式。最后,来自悉尼科技大学的Chenqi Zhang教授介绍了他的团队在大数据下的图处理的图挖掘领域的相关工作。
回顾过往,我们欣喜地发现,华人已经在这个领域中扮演着越来越重要的角色;从会议论文的角度来看,本届SIGKDD的研究性论文和应用数据科学论文的最佳学生论文奖第二名、研究性论文和应用数据科学论文的最佳论文奖第二名、应用数据科学的最佳学生论文奖和最佳论文奖都有华人学者的身影。从整个数据科学的领域来看,华人学者不仅在这个圈子得到锤炼和发展的机会,也深刻地推动和影响着这个圈子本身:本届SIGKDD的服务贡献奖和创新贡献奖分别颁给了两位华人—来自加州大学洛杉矶分校的Wei Wang教授和来自伊利诺伊大学芝加哥分校的Phillip S. Yu教授。
雄关漫道真如铁,而今迈步从头越。在当下这个大数据的时代,在中国这样一个生产大数据的国度,华人科学家们任重道远。相信在不久的将来,我们会在“全球100名最具影响力数据科学家名录”这样的榜单上看到越来越多优秀华人数据科学家的身影;在SIGKDD这样顶级的数据科学会议上看到更多华人科学家有影响力的工作。
七、展望SIGKDD 2017及2018大会
明年,SIGKDD 2017将在加拿大哈利法克斯举行,届时将是SIGKDD第四次离开美国举办。哈利法克斯(Halifax)是加拿大新斯科舍省的省会,北部最大的深水天然港口,气候适宜,是加拿大第二温暖的城市。两年之后,SIGKDD 2018将在英国伦敦举行。
21世纪大数据时代已经到来,社会各行各业都在发生革命性的变化,传统产业朝着信息化和数据化方向加速转型, 新兴数据产业层出不穷。今年的SIGKDD大会展现了数据挖掘在多学科多领域的广泛应用,数据挖掘正在变成一门综合性交叉学科,一门服务于其它科学的基础学科和基本技能。随着海量数据的涌现和越来越多的领域开始关注数据科学,数据挖掘领域也面临着更多新的问题和更多巨大挑战。现在,数据挖掘工作者和实践者已经站在了大数据时代的潮头浪尖,我们应该锐意进取,抓住时代机遇,承担历史使命,共同引领这场数据革命。期待在明后年的SIGKDD大会上,我们能看到更多富有创造性和影响力的工作,看到数据挖掘为整个社会贡献更多的价值。
八、参考文献
[1] http://www.kdd.org/
[2] http://www.kdd.org/kdd2016/
[3] https://aminer.org/mostinfluentialscholar