信報专栏 - 全民大數據
近年來,金融服務業經歷一系列快速變革,當中很大部分推動力來自大數據及人工智能(AI)等新技術的成熟和應用,催生了許多新的業務模式。最明顯的是科技提升金融服務的效率,但更深遠的改變源於生活習慣的變化。例如年輕一代移動互聯網用戶據說「愈來愈沒耐性、愈來愈要求高」,為了滿足這些用戶,大數據成為了這場變革的核心,同時這場變革又產生更巨量的數據。
目前大約90%的數據是在過去兩年產生的,而且現在每天產生的數據量達到2.5 quintillion(10的18次方)位元組。觀乎數據公司Domo提供的一些數字,你可能已經意識到更巨大的數據正在醞釀中︰
.每分鐘,美國人會使用265.77萬GB數據
.每分鐘,Instagram用戶會發布4.68萬張照片
.每分鐘,Google上會進行360.71萬次網路搜索
應用愈廣泛 風險愈高
可以肯定地說,可穿戴數據已經為人本科學數據(life science data)揭開了序幕。不僅如此,醫療領域的患者個人數據、金融業的資產及信用評分都是極敏感話題,出事時影響更加深遠,所以亦備受監管部門關注。隨着大數據在金融業被廣泛應用,帶來的數據安全風險就會愈大,巨大的數據量難免加重銀行對保護數據資產的責任,僅靠以往制訂的各種管理制度和流程,已難有效防範數據風險。
各國監管機構現已開始着手制定針對大數據保護的法規,希望逐步完善保護數據的法律體系。在美國,包括麻省理工學院、UC Berkeley等頂級高校的教授已對此加深研究,歸納起來可分為三種方向︰
(1)數據能否在加密狀態之下仍可用作分析,這類研究方向的例子包括同態加密(homomorphic encryption);
(2)數據被鎖定在一個封閉環境中,只有被批准的分析需求可以使用,而且得出來的結果會適當加入噪音作為個人隱私保護,此一研究方向稱為差分隱私(differential privacy);
(3)不同來源的數據資源分別存放,需要分享時作加密傳送,並利用區塊鏈技術實現密匙協議管理,這個研究方向名為數據採擷提供安全的多方計算(Secure multiparty computing for data mining)。
總括而言,這幾個方向都是用科技方法降低因合規複雜性帶來的成本,讓大數據及人工智能達到能更容易為企業增值的效果。
数据的本质(04/P43 数据安全与生意两难):
研究机构IDG 近期向100 多位美国企业IT 高层进行调查,问及其公司前五大IT 投资方向时,最常被提到的就是改善安全环境。75% 的人表示,与两年前相比,IT 安全问题变得更加重要。数据安全问题向来令人纠结,企业致力于保护数据的同时,又要顾及业务发展。随着很多公司允许员工自携设备上班(包括智能手机和平板电脑),以及允许员工在家办公后,大多数公司的IT 安全原则
已经落后。最简单粗暴的解决方法可能是“No”:完全不允许员工自携设备。
如何既能鼓励公司使用数据,同时又能防止数据泄漏呢?从前的数据安全偏向被动式响应,亦鲜有企业为大数据或人工智能进行全面的安全布局。任何安全原则要想得到业务方面的支持,必须契合企业的商业目标、风险承受能力和部署能力,而今天,大部分企业的管理层对数据安全还没有达成共识,要做到这些相当困难。我在阿里担任数据委员会会长时,要解决的其中一个问题是,审批数据科学家使用敏感数据的权限。过去的静态分类在大数据时代越来越难发挥作用。
例如,一些原本已经被匿名的身份,因为得到了另一个数据的关联而
被重新认证, 风险级别忽然被提高,事前却难判断。云计算、混合云、弹性存储、流动数据等新技术的流行,也令数据中心的安全边界变得越发模糊。在反思大数据时代数据中心的运作方式时,企业必须考虑以下几个问题:
监控日志应该在哪里,以及要收集什么?
数据收集和流通时的加密机制是否完善?
安全原则有多大程度会影响业务效率?
数据敏感度的静态分层与基于业务的动态分类有多大区别?
企业是否有能力捕捉到危险情报,并及时处理可疑行为?
当我“苛刻”地提出“把月度经营报告当成产品来做,目的是让这份报告像iPhone 一样好用”的要求时,整个团队都傻了:报告怎么能像产品一样呢?!那么,为什么数据报告不可以做到行云流水,让人看起来很爽呢?
所以,我是这么要求的:首先,报告的前3 页一定要吸引人,让人有欲望继续看下去;其次,当别人看到一个数据,心里在猜测数据背后的各种原因时,我的下一页报告就要解答他心中的疑问。
因此,如果要用产品管理的理念来运行分析团队的话,必须要问“问题是什么”,并以此作为切入点。接着,解决用户的问题,得到用户的信任,然后就可以做更多的好产品。这是一套做产品的理念,因为产品需要不断迭代,并非一劳永逸。
车品觉简介
畅销书《决战大数据》及 《数据的本质》作者
红杉资本中国基金专家合伙人
国信优易数据研究院院长
滨海泰达物流(HK:08348)非執行董事
京东金融首席數据顧问
Talking Data 首席顧问
香港特区创新科技及再工业化委员会委员
中港跨境数据专家小组成员
香港贸易发展局科技委员
贵阳市大数据委顧问
上海市司法局大数据实验室专家
CCF大数据委副主任
乌镇智厍理事
浙江大学管理学院兼职教授
清华大学(大数据项目)教育指导委员
香港科技大学,大数据中心指导委员
全国信标委大数据标准工作组副组长(2015-2017)
原阿里巴巴集团副总裁
原阿里健康(HK:00241)独立董事
原阿里数据委员会会长
2014年领导阿里数据团队获得Top CIO评选为中国最佳信息化团队
2017年被国家信息中心选为中国十大最具影响力大数据企业家
拥有十几年丰富的数据实战经验,并在实践中形成了独特的数据化思考及管理方式,对大数据未来趋势有独到见解;亲自领导阿里数据团队在大数据实践领域取得了一系列重要成果,包括为阿里建立集团各事业群的业务及决策分析框架,开发智能化的数据产品,成立了驱动集团数据化的运营团队,成功发起了公共与专有数据资产管理体系,还发布了数据安全规范等。