【E通讯】如何在投资中使用机器学习?
2019/11/18
未来,基金公司想要获得成功,首要的因素是什么?
SAIF教授李祥林给出的答案是“规模”。
近日,上海交通大学上海高级金融学院实践教授、中国金融研究院副院长、金融硕士项目联席学术主任李祥林做客SAIF金融论坛 · 南京站“新时代金融科技转型:赋能与创新”分享观点。他认为,金融科技改变的不仅仅是二级市场的投资,而是整个金融行业生态。那些在基础设施、科技和人才方面提前布局、进行大量投资的机构,将在未来几年内占得先机。
以下是李祥林教授演讲实录:
非常感谢大家,今天我给大家讲一些故事,和大家分享一下我过去两年在学习金融科技的过程中的一些体会。
01 大数据重塑投资业
今天想稍微讲一讲金融科技这个概念,我对它的理解仍然是对金融业提供服务的科技方法和手段。这是我对金融科技的定义,这个定义大家可能听起来觉得非常窄,窄的原因就是说想把它区分于金融业。金融业大家都知道,银行、保险、证券和资金,为什么这么区分呢?这是为了区分于过去国内的很多以科技公司为名但在做金融业务的P2P公司。
未来,金融就是一个严监管行业,就要持牌照。金融服务业就是为金融机构提供服务的企业。
我们在做服务的时候,要思考,到底你在做什么,如果说你想做咨询,咨询归根到底就是有多少人赚多少钱,经验比较强的人拿业务,剩下让一些更年轻的来干活,最后你的业务模式很简单,你能抓多少业务过来,有多少人就能赚多少钱。
再下来是做软件,软件的业务模式完全不一样,它基本上是一次性开发,然后它的边际成本非常低。我们可以把软件分为两类,一类是常用软件, 比如微软办公软件。第二类是专门的软件,比如风险管理的软件。
下面给大家讲一个问题,就是金融科技能否改变未来的金融业,这是大家目前比较关心的问题。实际上,金融科技已经在改变金融业,比如苏宁银行已经做了大量的金融科技工作。这个答案几乎不是说你愿不愿意来做,基本上是你不做就会被颠覆。目前好多行业,正在走在应用科技的道路当中。
我举的第一个例子是关于语音识别。 语音识别在研究领域,大概是40年前就开始了,在很长时间,准确率也就是50%,当它准确率是50%的时候,一半正确,一半错误,很难被广泛使用。后来一群科学家使用统计中的隐含马可夫链的方法,把准确率提高到65%左右, 其中包含李开复,还有在微软工作的人工智能首席科学家邓力教授。邓力教授在微软工作期间,邀请在多伦多大学任教的杰斐瑞Hinton(今年图灵奖的获得者)使用深度学习的方法,一开始效果并不是那么好,因为使用的数据不是太多,一旦数据加大之后,准确率提高到90%以上。一旦超过90%之后, 大家就看到了这项研究的消费产品。比如说美国苹果手机的Siri。现在每天早上起来想听音乐,想听新闻,你直接跟Siri讲就可以了。我们国内的科大讯飞也做得非常不错。在语音识别当中,我们讲成功的百分比。目前在好多行业,机器学习的应用都走在成功的不同的百分比的途中。
一旦这个成功的百分比超过90%之后,这个行业就被颠覆了,传统的方法完全被抛弃。两年前为了理解机器学习,我邀请了一些在微软和谷歌做语音识别、机器学习的朋友。我说我是做传统金融行业,过去二十年一直在金融行业领域打工,到底这个领域在二十年里发生了什么新的进展,也不知道。他们还安慰我,说你也不缺少很多,因为以前的方法也都没用了, 新的机器学习方法把以前的方法全部都替换掉了, 现在大家都在学习机器学习。再下面讲讲金融行业当中最关键的业务——投资。这方面好多技术,大家都没有公开。比如说美国有一家公司叫文艺复兴,它的创始人Jim Simons曾经和华人著名数学家陈省身一起写文章。他的基金多年持续性得到年化37%、38%的收益率。 整个华尔街都觉得很奇怪,但是这家公司从来不招学金融和经济的人,也从来不从华尔街招人。他们招的人全部是学科学、学技术的教授和研究员。最近他才公开讲,实际上文艺复兴十几年前就开始在投资中用机器学习的方法了。
去年,全球的股票收益可能大部分国家是负的,美国是负的5%左右的收益,中国可能是负的百分之二十几。 在整体市场,大部分投资者的收益率是负的情况下,有一些公司仍然能得到正的收益,甚至有的公司能达到超过10%的收益。但是,大家看看这些公司,这些公司基本上都是大型的对冲基金。 这些公司在过去五年当中,在基础设施、科技和方法方面做了大量的投入,在未来投资市场一定能够争得先机。包括美国那边我们观察到的,比如说我们有很多朋友在投行工作的,挣了不少钱,还想自己再出去做对冲基金,挣更多的钱。 通常小型对冲基金是一位有经验的人,带几个经验少一点的人。他们的优势是把一方面的信息研究看得很精细,以前投资效果还不错,能挣钱。过去五年来发现这些小型对冲基金挣钱越来越困难了。我想这样的公司在中国也很多。原因很简单,其面临的竞争对手可能在看360度不同方向的信息, 建立更多的以机器学习为基础的复杂模型。所以说未来在投资行业如果想成功,必须要有一定的规模。因为应用机器学习来进行投资,首先要买很多数据,小公司连数据都买不起,然后有很多数量人员要做各种各样的模型,模型做完之后要回测,回测成功之后才能执行,几乎像一个工厂的流水线一样,没有一定的规模,很难成功。我感觉投资领域在今后三年到五年会有一个根本性的变化。刚才谈到银行,再稍微讲一讲保险,因为我也有一定的保险的背景。以前,我们汽车保险定价取决于过去的经验。比如说你去买汽车保险,大家问你一些问题,你是开车去上班,还是平常开车玩;离公司多远,有多长时间的驾驶经验。问完之后,他打开一本书,对你进行分类,把你分配到哪一个评级的组,最后他再问你一个问题,过去五年当中有没有什么事故。这是传统保险定价的一个标准方法,叫信用理论。这个方法的主要目的是在你分组后保险损失平均值和你个人过去几年损失平均值,取一个加权平均。现在美国出现了一家公司,在你车上放一个自动驾驶记载仪,可以随时跟踪你:什么时候开车,开到什么地方,开多快,比如说你刹车的时候,刹多猛。大家可以想象这两种方法,哪一种方法更好?前面是根据你的过去的经验和风险分类,下面是根据你驾驶实时信息。可以想象第二种方法远远比第一种方法更好。现在在纽约的周围就出现了一家以这种实时信息为基础的保险公司。年轻人中如果驾驶技术比较好,驾驶比较保守,仅仅需要付原先保险公司1/2 到 1/3的保费。所以保险行业在今后几年也会受到很大的改变。
02 定价和风控是金融业的芯片
下面我们稍微聊一聊,我们中国的金融科技和国外的金融科技比较起来有什么区别,我们的金融科技是不是比国外更先进? 大家应该很清楚,支付,包含小微企业服务这块,我觉得咱们做的工作还是相当不错,因为可能咱们数据本来就多,现在对收集数据管理也比较放松,大家可以收集到大量的数据。另外咱们企业可能也很愿意做一些新的尝试,因为通常在海外比较成熟的一些行业,做一些创新都很难。
但是实际上从另外一个角度, 我们的金融行业和国外的金融行业在很多方面,还是有很大的差距,特别是在风险和定价方面。可以简单的讲,定价和风控基本就是金融行业的芯片。
大家觉得咱们在这两个方面做得怎么样?咱们中国有没有专门提供定价的金融科技公司?当然这个定价是方方面面的,大家谈到小微企业最后的信贷也要做定价,这当中我们谈到的主要是金融机构,比如说对衍生产品的定价,大家觉得做得怎么样?
大家可以看一下我们国内主要的金融机构衍生产品的交易系统,今天都是来自于外国的产品。十年前,我从国外回来到中金,中金公司老板就问,说你给我调查一下,香港的很多上市公司都是我们中金帮助上市的,研究也是我们在做,但是为什么我们在香港股票交易市场,交易的份额1%都不到?我说人家都是电子交易,我们这边还是手工交易、打电话交易。手工交易不好吗?交易员自己觉得好,但是人有情绪会犯错误,在复杂情况下决策也比较慢。在股票交易这块,海外当年已经是70%以上的电子交易了。
10年前我就讲中国的股票交易佣金会大幅度的下降。大家知道最近几周,美国几家主要的股票中介商都推出了零佣金。股票交易已经完全变成一个技术问题。比如说我原来是研究金融新产品,也帮助销售部门在全球销售信用衍生品。当年把产品卖给中国银行,本来这个产品可能值95块钱,卖给中国银行就卖了100块钱。中国银行立刻就亏了5块钱,但是作为一个投资产品也没有什么,毕竟有年化5%、7%、8%的收益率,在五年多时间内,多付了5块钱也算不了什么。最后金融危机来了,结果大家非常担心,也不知道手中产品到底值多少钱,赶紧卖掉,30块钱。 当时这类产品应该值50块钱,结果又少卖了20块钱。
原因是什么呢?你不知道到底价格是多少,所以这个影响还是挺大的。 包括我们国内所有的企业,特别是一些大型的国有企业,在商品风险管理和对冲这一块,很多年来,经常发生发生巨额损失,主要的原因也是因为定价和风控能力不足。
03 金融科技人才急缺
下面讲一下金融科技的实施。 觉得国内公司在消费端这块还是比较熟悉的,因为毕竟国内有很多成功的经验。但是对于很多其他方面特别是需要深层次的分析和定价方面,还有很大的改善空间。金融科技在金融行业的应用最大的难点是怎么样把科技和金融结合起来。
说到这点,公司缺少的是在公司最高层,有又懂业务、又懂科技的人。大家可以想一想我们有多少证券公司的老总是懂科技的。目前中国的所有证券公司的资本金加在一起,可能都不如美国高盛一家公司多。中国的证券公司在FICC(固定收益, 外汇,大宗商品)方面,还有很大的发展空间。如何建立起这样的业务,把公司各方面的力量组织起来, 业务部门,数量分析部门和IT部门,仍然是值得大家探讨的问题。
另外一点需要强调的是数量分析人员。海外大型金融机构都有上百人上千人的数量分析团队。比如说,J. P.摩根在北京办公室就有30多人的数量团队。瑞银在上海也有将近上百人。美国国际集团在上海分析中心也有上百人。可惜国内大部分金融机构,即使是大型的银行,负责衍生产品定价的数量分析人员都不超过20人。
这里需要强调的是,管理一家大型金融机构需要建立一个整体框架结构。不管是保险公司还是银行,除了你在前面做客户端,怎么样把顾客抓过来,还需要研究如何管理公司整体资产负债表。
比如说银行你要做资产负债管理,保险公司也要做资产负债管理,投资这块你要做战略资产配置,目前不管是银行、保险还是证券都要做压力测试,还有经济资本。这些是所有金融机构的管理面临的基本问题。
现在大家想想,你们在处理这些业务时,多大程度上能实现自动化,或是用到金融科技。在实际工作当中,几乎是不同的部门在做这些工作,每个人都觉得自己的资源不够,但是实际上最终的效果还是很差。
这个管理的框架结构是什么呢?从上到下,首先你要考虑整个公司面临的各种各样的风险,我们讲风险管理第一步就是风险识别。风险识别,要列出公司资产负债表当中每一项面对什么样的风险。什么叫风险因子模型呢?是这些因子他们之间的关系,这种关系有两种情况,正常情况下是一种关系,极端的情况下可能是另外一个关系。
这些风险因子不仅仅是中国经济中的风险因子,如果你的业务是全球的也包含国外的风险因素,就要做全球风险因子模型。这个工作显然不是一天两天能完成的。大家想想现在目前我们有多少人在做这个模型,当然我们有好多宏观经济学家在讲故事,但是宏观经济学家能把这个故事讲的完整吗?能包含经济生活当中所有的主要风险因子吗?而且能把这些因子数量化吗?
因此我一直认为定价才是金融机构的一个关键的本领。定价是指能够对资产负债表当中的每一项定价。定价不仅仅是目前定价, 也包含在未来,如果发生某些情况之后,这些资产负债表中的每一项的条件价格。 最终你可以把你的集团和未来资产负债表建立起来。 美国过去十年,做了十年的压力测试。银行都花了数亿甚至数十亿的钱在做压力测试,经过压力测试,美国所有的金融机构的资本金平均从金融危机后的5%, 6%涨到11%, 12%。美国金融机构通过10年的压力测试,大大提高了他们的资本金和风险管理能力,这也反映在他们的股票表现上了。所以跟大家强调的是什么呢?就是说有一个整体的框架结构很重要,不光是我们每天要去解决每一个具体的问题。
04 统计VS机器学习
这里稍微讲一讲传统的统计跟机器学习到底是什么关系。最左边讲的是一个美国著名统计学家,把统计和机器学习做了比较。他的基本观点认为机器学习和统计没什么太大的区别。比如说传统讲统计,现在讲机器学习,在统计当中我们讲模型,机器学习当中讲网络,图形。在统计当中讲参数,但是在机器学习当中讲权重,当然这个权重是非常多的,能有成千上万。我们在统计当中讲的参数通常只有几个。
机器学习当中所谓的有监督学习,在统计中就是回归、分类。无监督学习就跟统计中讲的所谓概率密度函数的估计差不多。当然下面开玩笑了,如果在统计当中拿到5万块钱就是一个很大的研究基金,机器学习拿到百万才算一个大的研究项目。统计学家到一个好的地方开会就是夏天到美国的拉斯维加斯,机器学习领域,大家是冬天到美国犹他州的滑雪场或者欧洲的Alps的滑雪场。但这仅仅是一个统计学家的观点。两年前MIT大学出版的一本深度学习的书,这书也把机器学习定义为应用统计,和传统统计的区别,是机器学习更多的利用计算机,来得到预测函数,而不限于传统统计学当中花很多时间来研究置信区间和收敛。 美国的著名统计学家Leo Breiman对传统的统计学做了尖锐的批评,他认为传统的统计学家有很大的思维局限。现在机器学习中的很多方法,都是非统计学家在解决实际问题当中所创造的。他建议所有的统计学家应该有开放的心态,从实际问题出发进行研究。总结一下,机器学习确实是以统计为基础,但是它的发展又远远超过了传统统计的思维,利用计算机,能够解决很多传统统计难以解决的问题。
今年年初的时候,在美国去参加美国经济学和金融学年会。 其中有一个午餐会,这个午餐会通常是主席台上面有一桌,大概20个人,20当中一半以上是诺贝尔奖获得者。今年请的演讲嘉宾是一个很年轻的教授,刚刚50岁,斯坦福大学年轻的教授Susan Athey。 她讲的课题就是机器学习在经济计量学和经济学当中的应用。大家可以想象这两个代表全球经济金融学最高的学会,把这个人请来做演讲,这也代表这两个领域都已经关注机器学习了。
金融研究中用大数据机器学习确实有它的挑战,比如说,到底用什么信息,多少信息。虽然信息很多,但是有用的信息并没有很多,所谓的信噪比比较低。第二个问题是金融数据大部分是时间序列。时间序列又不是平稳的,你很难用前面分析的结果来预测未来,你要做一些很特殊的处理。还有就是经济学当中还有一个问题,市场行为对它本身产生的影响。这和很多物理现象不一样,比如我们前面谈到的语音识别,语音识别有一个数据库,所有人不停的用新的方法来测试,到时候你告诉我,他获得正确的百分比多少,问题本身不变。但是在金融,经济学当中,问题的本身也会发生变化,随着主体的不同做法,对问题本身也会产生影响。
下面稍微多花几分钟时间。给大家讲讲我们上海交通大学上海高级金融学院在金融科技方面做了哪些工作。
第一个就是说我们上海高级金融学院成立,今年是10周年。过去10年高金替中国的金融市场,培养了大量的金融人才。我本人虽然去年正式加入学院,但是实际上在学校成立的第一天,就和高金站在一起。在高金成立初期,十年前我在北京工作,觉得中国真的缺少像高金这样一个学院,当时我从业界角度,给高金的成立提供建议。经过十年的努力,高金取得了很大的成就。
10年前国内的金融教育还处于一种比较简单的阶段,高金聚集了一群海归教授,用国外的最新的教材,最新的课程设计,帮助中国培养了一批金融人才。近来我们也加强了对中国市场的研究,比如说中国金融研究院就是为这个目的而产生的。我们金融学院不光是搞教育把国外的东西引进来,也希望能够解决我们中国自己的问题。大家觉得解决中国的问题容易吗?实际上挺不容易的,我工作了二十几年之后的感受,要解决中国的问题,首先你要知道国外,你不光要知道国外的今天,你更要知道国外的过去,而且理解国外怎么一步步走过来的。
第二你要了解中国,你如果能把这三点都搞清楚了,这个时候你就能找到一个比较好的方法,解决中国的问题。实际上我们大部分人了解美国的今天,并不了解美国的过去。我2012年重新回到美国,花很多时间看美国的历史书,看美国的企业史,学习美国的各个方面,看它是如何一步步走过来的,这也是我们中国金融研究院想做的事情,就是利用国际的经验,能够帮助中国解决一些实际的问题。
研究院下面有各种各样的研究中心,有宏观金融,私募基金,金融科技研究中心等。金融科技研究中心的优势是有一些专家团队,有一些专业知识,有一些行业经验,还有能把国内、国外的资源对接起来。目前我们和业界进行了广泛的合作,比如说我们跟国内最大的资产管理公司,想帮他们搭建一个资产管理的分析框架结构,很大程度上和我刚才讲的框架结构有关系,所谓风险因子为基础的投资分析。欢迎大家有课题过来跟我们交流,也希望大家能成为我们研究中心的会员。
我们现在还在研究中小企业的违约贷款,在国内做这方面的研究公司大概有几十家,到底大家做到什么样的程度,到底解决了多少问题,我觉得有的时候通过我们研究中心,大家一起努力,可以把故事讲得更清楚一点。
学院一个主要任务是金融人才培养。我们推出了国内首家金融科技方向的金融硕士项目,我也是这个项目的联席主任。我们的MBA也招了金融科技方向的学生。 科技人才想学金融的,或者金融人才想学科技的,也可以来参加我们的MBA项目。我们还做了一些非学位的项目,比如说我们做的金融科技战略高级课程。过去30年,我们的企业不需要战略,基本上你有多大的胆你就有多大的结果。但是从现在开始,企业到底怎么向前走,传统的金融行业到底怎么拥抱科技,科技公司到底如何理解金融,特别是To B业务, 实际上是一个很大的挑战。在这种情况下,我们金融科技战略高级课程能够对大家有所帮助。
谢谢大家。