投资,快与慢(下):数据科学家投资指南
原文: Investing,Fast And Slow – Part 2: Investment For Data Scientists 101
来源: http://dataconomy.com/2017/04/investing-fast-slow-investment-data-scientists-101/
我认为,因子可用性半衰期较短的说法基本上适用于高频因子。如果对高频因子进行回溯测试,它们有时看起来几乎和风险不相关,只有非常高的回报,一旦人们发现这些因子好得令人难以置信,效果就会很快消失。而我们使用的是更长期的因子,回报期限为几个月,有时甚至长达一年。我们意识到,与这些因子相关的风险是存在的,但事实证明它们能长期发挥作用。
人工智能和机器学习策略最终表现如何?新的数据类型在预测股票回报和风险方面有多大的利用价值?这些还有待观察。我猜测,结果将令人大失所望。一些新的数据类型将具有价值,但很多类型可能将没有价值。机器学习和人工智能同样如此。在当今的AI工具中,可能只有一小部分工具将会有用。
我认为,机器人投顾是重大进展之一,可以在很大程度上改变资产管理行业的运作方式。进展是全方位的,也包括其他的服务提供商、投资组合分析提供商等等。
原文翻译:
“全球系统投资者”这个名字是怎么来的?
汉克:它来自于我们几个人的背景。我是金融专业博士,曾效力于两家系统资产管理公司,也就是利用系统因子来进行量化选股而不是借助人类判断。显然,当你选择用于预测股票回报的相关因子时,模型中其实融入了人类的判断,但模型建好后,人类因素就被降至最低程度,以保持纪律性。这是我的背景。我的两位合伙人曾在Dimensional Fund Advisors从事投资组合管理工作,其中一人一直是研究型人才。他们两人拥有相同的思维模式,相同的背景,也就是利用系统因子来预测资产回报,就我们而言是股票回报。
你们的策略是如何逐渐演变的?你认为以后会变成什么样子?
汉克:我们研究这个策略已经有段时间了,打造模型,选择因子,研究投资组合结构,研究如何以最佳的方式捕捉系统因子,确保风险可控,并且稳健、直观。经过几年的时间,我们形成了这个模型,随着我们继续做更多的研究,我们将继续加强该模型。我们并没有频繁地大幅改动,但随着新的学术研究公布,随着我们试图加强其中的某些学术想法以及开展自己的研究,我们一直在逐渐改进模型。
人们普遍认为,在当今的市场上,投资策略越来越短命,很快就没用了。你不认同这个观点吗?
汉克:我们使用的是低频交易模型,因此我们使用的因子有相当长的回报期限。我认为,因子可用性半衰期较短的说法基本上适用于高频因子。如果对高频因子进行回溯测试,它们有时看起来几乎和风险不相关,只有非常高的回报,一旦人们发现这些因子好得令人难以置信,效果就会很快消失。而我们使用的是更长期的因子,回报期限为几个月,有时甚至长达一年。我们意识到,与这些因子相关的风险是存在的,但事实证明它们能长期发挥作用。在美国,对这些因子的研究可追溯到20世纪20年代,因为有相关的数据。在其他地区,虽然数据较少,但仍然会得出相同的结论。所以,只要你准备好承担风险,并且在选择长期因子时做到多样化,那么它们就能被长期使用。
你所说的是哪种长期因子?
汉克:我们的投资流程是基于价值因子和多样化因子。当人们听到“价值因子”时,他们通常想到的是市净率。这可能是最为人所知的价值因子。很多学者发现,价值因子效应是存在的,而且会长期存在。当然,它也会产生回撤,科技泡沫就是其中之一,当时价值因子起到的作用微乎其微,但在科技泡沫破裂后,价值因子又强势回归。我们已经扩大了对价值因子的定义。我们也使用现金流和收益相关因子,以及一个与股东净现金分配有关的因子。
我们还使用了一个多样化因子。我们的目标是使投资组合在公司规模和行业方面比市场加权指数更加多样化。
更加多样化的好处是更低的波动性?
汉克:未必。由于规模效应,股票方面的多样化实际上增加了波动性。你所投资的公司比市场加权指数的成份公司规模更小,但小公司比大公司风险更高。所以,如果更多地向较小的股票倾斜,那么风险实际上提高了,但回报也提高了。在行业方面,情况则大为不同。如果在行业方面比市场加权指数更加多样化,那么既能降低风险,又能提高回报。
你们使用期限更长、风险更高的因子,这是否意味着你们需要更长的时间,来说服外部人士相信你们的策略是有效的?
汉克:是的,没错。那是高频交易基金拥有的一个好处,因为他们的因子具有很短的回报期限。他们只需要进行短时间的现场演示,就能证明模型有效,而使用低频交易模型的人,需要更长的时间来评估那些因子。
那么,与高频交易策略相比,低频交易策略有什么好处?
汉克:一大好处是你可以用这些长期因子,更好地管理资产。它更加稳健,即使流动性减少,交易成本提高,也不会大幅伤害基金的表现,因为周转率很低。而对于高周转率的短期策略来说,交易成本和流动性显然至关重要,哪怕市场的流动性环境略有改变,也会在很大程度上破坏这些策略的表现。另一个好处是依靠低频因子,你也可以从事小盘股交易。虽然小盘股的交易成本更高,但由于你的周转率很低,因此你可以更多地向小盘股倾斜。与大盘股相比,小盘股常常会带来更多的回报机会,可能是因为小盘股的定价有效性比大盘股更低。
确定投资策略后,如何运作对你们来说是不是很明显?你们会选择你们现在使用的基金结构吗?
汉克:我们现在拥有的基金是一只UCITS基金,我们曾着眼于不同的基金法律结构。这还在一定程度上取决于客户或潜在客户的情况。例如,非常大的客户可能不想要基金,而是想要独立账户,或者他们已经有账户,指定你作为那个账户的投资组合经理。所以,客户基本上决定了基金的结构。如果是像我们这样的混合基金,那么有几个可用选项。有些基金结构可能只对英国投资者更有吸引力,有些基金结构的性质更具国际性。UCITS结构的性质就极具国际性。它往往被大多数投资者采用,除了美国投资者以外,因为他们有自己的结构,不同于UCITS。
一些人认为,他们有成功的投资策略,想设立自己的基金。你对他们有何建议?
汉克:我的建议是先找个投资者,最好是一群投资者。这样的话,就算一位投资者退出,你还有其他投资者。这说起来容易,做起来难。但我认为这相当重要。
你们的策略在多大程度上取决于获得及时准确的数据?
汉克:及时性对高频交易策略至关重要,但对我们却不是那么重要。显然,我们希望尽快掌握最新信息,但即使延迟一天甚至一周才收到某些信息,也不会影响我们的策略。
但数据准确性非常重要。我们得到的当前数据通常相当准确,但我们在回溯测试中使用的历史数据未必准确。在美国,数据是相当干净的,但其他一些国家不是这样。所有的大型数据提供商都声称,他们的数据中不存在幸存者偏差。但这很难去验证,非美国数据来源的准确性常常有点令人不放心。我们没有管理任何的新兴市场基金,但即便是在发达市场,股市数据和会计数据等标准数据类型也往往有很多问题。
你们目前使用的数据来源基本上都是标准的会计数据吗?
汉克:是的。我们做了一些可以实现和希望进行的调整。例如,一个相当明显的调整是使用行业特定数据。如果你只是考虑一个简单的价值因子,比如市净率,这基本上就是比较企业的会计价值和企业的市场价值。你可以把会计价值称为企业的内在价值。不同的行业有不同的衡量方法。以石油和天然气行业为例。你可能希望看看这些公司拥有的地下储量,而不只是使用标准的账面价值。对于金属和矿业公司,你同样可以这么做。其他行业也有对投资者很重要的行业特定数据项。现在,大多数的会计数据来源都包含相当多的行业特定数据项。但一个问题是,时间跨度往往不是非常大。因此,如果你想使用行业特定数据进行时间跨度很大的回溯测试,这通常不可行,因为一般只有过去几年的数据。
你认为数据科学和数据科学家目前在投资管理领域扮演什么角色?以后呢?
汉克:现在对数据科学家的需求很大,但需求主要来自对冲基金,来自单边做多基金的需求要少得多。我们管理着一只单边做多基金。有些量化资产管理公司同时管理着单边做多基金和对冲基金,他们可能对这两种基金采用相似的投资流程。因此,这些公司可能会聘请数据科学家从事于单边做多投资组合,但主要还是系统化对冲基金,其中又以高频对冲基金为主。不同的人对“高频”有不同的定义,我所认为的“高频”是指回报期限最多两三天的因子,甚至是日内因子。就目前来看,高频对冲基金似乎雇佣了最多的数据科学家。但也有越来越多的服务提供商雇佣数据科学家,他们把服务卖给对冲基金,比如交易策略或新型数据集。
这些非标准或“另类”数据来源有多宝贵?
汉克:数据就在那里,而我们现在有了利用数据所需的计算能力。所以我觉得,数据将变得越来越有用,但这是一个渐进的过程。人人都在谈论大数据,但我认为,目前只有少数基金在他们的投资策略中,以一种有意义的方式,成功地利用了非标准或非结构化数据来源(通常称为“大数据”)。我认为,某些类型的非标准数据有明显的用途。例如,信用卡支付数据有助于弄清楚是否存在一些可能让公司在未来受益的特定趋势,或者研究销售的结构以便在预测中利用这一点,等等。至于其他的数据类型,其有用性可能更加令人怀疑。我认为,目前业内存在对新数据过于热心的倾向,未必仔细想过如何去充分利用数据和进行全面的数据分析。
你认为投资正在朝着什么方向发展?是被动策略还是主动策略?
汉克:一个趋势是背离传统的主动策略。大多数机构投资者认为,传统的基本面主动单边做多管理公司表现不佳。因此,很多机构投资者的单边做多配置转而采取被动策略,就算不是被动策略,也是“半被动”或“Smart Beta”策略。这些基本上是单因子策略,也就是根据一个因子来管理资产(常常通过ETF基金),比如一个价值因子。例如,基本面指数化使用一个价值因子,那是唯一的一个因子。还有其他策略,比如风险最小化和动量交易。严格来说,只要不是市场加权策略,就属于主动策略,但投资者常常把使用固定公开规则的策略称为半被动策略。
再来说说对冲基金。以前,系统化或量化基金管理公司,不管是单边做多还是既做多又做空的公司,基本上都使用相似的因子。这在2007年8月“量化流动性紧缩”期间变得非常明显。当时,大多数量化投资者根据相同或非常相似的因子进行投资,一旦越来越多的量化投资者不得不平仓,这导致因子以极端的方式对他们不利。因此,大多数量化因子在2007年8月初产生巨大回撤。2007-2008年后,对冲基金试图放弃这些标准因子,转而使用专有因子和非标准数据来源。与此同时,越来越多的数据变得可用。我认为,目前很多对冲基金使用的系统化策略不同于2007年。很多Smart Beta策略则恰恰相反。现在,对冲基金常常试图限制其投资组合接触Smart Beta策略使用的标准因子。他们能否做到这一点还有待观察。如果发生另一场量化危机,这可能会成为试金石。
这么看来,过去十年发生了相当大的变化。你认为十年后将发生多大变化?
汉克:我认为,Smart Beta将不会像现在这么简单化。最有可能的情况是,它将变成2007年前我们在量化策略方面拥有的东西。人们可能将把价值、动量、低风险等著名的Smart Beta因子整合进多因子策略,而不是单独为每个因子提供一个策略,使投资者不得不把这些策略结合起来以实现因子多样化。如果投资经理在投资组合层面上结合多个因子,这会更有效,因为这些因子拥有很低的相关性,常常可以在一定程度上互相抵消。这意味着,基于不同因子的交易可以互相抵消,从而节约交易成本。这已经在一定程度上发生。几家公司已经开始提供多因子Smart Beta投资组合。
至于对冲基金,我认为将发生更大变化。人工智能和机器学习策略最终表现如何?新的数据类型在预测股票回报和风险方面有多大的利用价值?这些还有待观察。我猜测,结果将令人大失所望。一些新的数据类型将具有价值,但很多类型可能将没有价值。机器学习和人工智能同样如此。在当今的AI工具中,可能只有一小部分工具将会有用。
你是否认为金融科技公司在投资管理领域取得了进展,不管是作为资产管理者还是作为服务提供者?
汉克:是的,在各个方面都取得了进展。我认为,机器人投顾是重大进展之一,可以在很大程度上改变资产管理行业的运作方式。进展是全方位的,也包括其他的服务提供商、投资组合分析提供商等等。目前,金融科技公司在这个领域取得了很多进展,这可能是件好事。例如,就数据提供商而言,还存在一个由汤森路透(Thomson Reuters)、FactSet、彭博社(Bloomberg)和标普(S&P)组成的寡头垄断集团,他们有时会收取过高的数据服务费。数据常常不是特别干净,尤其是明晟(MSCI)、富时(FTSE)和标普等指数提供商的数据。他们提供的数据非常简单,但价格却极高。实际上,他们向客户收取的不是数据服务费,而是品牌使用费,比如在宣传材料中使用明晟品牌的权力。现在,有越来越多的金融科技公司提供同样的服务,向客户收取的费用要低得多,只不过名气没那么大而已。
车品觉简介
畅销书《决战大数据》作者
国信优易数据研究院院长
红杉资本中国基金专家合伙人
全国信标委大数据标准工作组副组长
贵阳市大数据委顧问
上海市司法局大数据实验室专家
CCF大数据委副主任
乌镇智厍理事
浙江大学管理学院兼职教授
清华大学(大数据项目)教育指导委员
Advisory Committee of Big Data institute - HKUST
原阿里巴巴集团副总裁
原阿里健康(00241)独立董事
原阿里数据委员会会长
拥有十几年丰富的数据实战经验,并在实践中形成了独特的数据化思考及管理方式,对大数据未来趋势有独到见解;亲自领导阿里数据团队在大数据实践领域取得了一系列重要成果,包括为阿里建立集团各事业群的业务及决策分析框架,开发智能化的数据产品,成立了驱动集团数据化的运营团队,成功发起了公共与专有数据资产管理体系,还发布了数据安全规范等