Quant4.0(三)可解释AI、知识驱动AI与量化投研

Quant4.0(三)可解释AI、知识驱动AI与量化投研

XAI(可解释性人工智能)是几十年来的重要研究方向,对于人工智能模型的可信度和鲁棒性至关重要。在量化领域,提高人工智能的可解释性可以使决策过程更加透明和易于分析,为研究人员和投资者提供有用的见解,并发现潜在的风险敞口。在本文中,我们将讨论如何在Quant 4.0中利用XAI:第一部分介绍常见的XAI技术,第二部分将这些技术与实际的量化场景联系起来。知识驱动的人工智能是数据驱动的人工智能的重要补充技术,特别是在低频投资场景(如价值投资和全球宏观投资)中。在本文的最后,我们介绍如何将知识驱动人工智能应用于量化研究。

本文是对论文Quant 4.0: Engineering Quantitative Investment with Automated, Explainable and Knowledge-driven Artificial Intelligence的部分翻译,有删改。原文地址

Quant4.0(一)量化投资简介,从1.0到4.0

Quant4.0(二)自动化AI与量化投研

Quant4.0(三)可解释AI、知识驱动AI与量化投研

Quant4.0(四)系统整合与简化版量化多因子系统设计

了解可解释AI

XAI是一个新兴的跨学科研究领域,涵盖了机器学习、深度学习、强化学习、统计学、博弈论和可视化等方面。在这里,我们关注两种类型的XAI:模型内在解释[128]和模型不可知解释[129]。

XAI中的模型内在解释

风险控制和风险管理是金融行业的重要任务。当人工智能模型在实际应用中部署时,监管机构通常要求其决策过程具有透明性,以确保交易的安全。此外,许多大型金融机构(如银行和保险公司)要求模型具有内在的可解释性。

如果机器学习模型的内部结构或机制能够轻松解释,那么该模型就具有内在的可解释性。一些机器学习算法,如线性模型和决策树,本质上是可解释的,而其他一些算法,如深度神经网络和核学习方法(SVM、高斯过程等),则是黑盒子,解释性较差。图20展示了许多流行的机器学习方法,按照它们的一般性能和可解释性排列。我们可以看到,提高模型内在的可解释性通常会导致模型预测性能的下降,因此选择机器学习算法实质上是在解释性和性能之间进行权衡。我们简要介绍一些典型的机器学习方法,从可解释性和预测性能的角度讨论它们的适用场景。

  • 线性模型,如线性回归、逻辑回归、线性判别分析、线性SVM和加法模型,是特征或特征组的变换以加法形式存在的一类方法,因此最终预测的性能可以很容易地归因于个别特征或特征组的影响。因此,线性模型具有内在的可理解性和可解释性。例如,线性回归明确地编码了每个特征的重要性,其对应于其回归系数(假设每个特征都被归一化,以消除尺度和单位的影响)。尽管线性模型易于解释,但它们在预测性能上表现较差,因为它们不能编码预测输出和特征之间复杂的非线性关系。
  • 基于规则的学习是另一类易于解释的方法。与拟合线性决策边界的线性模型不同,基于规则的学习方法适合由决策规则组合的分段决策边界,这些规则组合了许多逻辑表达式。基于规则的学习包括决策树[133]、符号回归以及集成模型,如随机森林[134]和Boosting[135, 136, 137]。基于规则的学习模型是内在可解释的决策规则,接近人类思维过程的逻辑。然而,为了更好地拟合训练数据并提高预测性能,决策规则通常较为复杂,这降低了可解释性并增加了过拟合的风险。
  • 集成学习结合多个机器学习算法以实现比单个模型更好的决策性能。集成学习的典型示例包括随机森林和提升树,它们结合多个树模型,并基于个别决策的聚合进行预测。尽管存在争议,在本文中,我们也将混合专家(MoE)归为集成学习模型。MoE在一个层次上并行地组合多个专家网络,并通过一个门控机制决定哪个专家(或多个专家)参与特定数据点的决策。与其他机器学习方法相比,集成学习通过展示单个模型或专家的相对重要性提供了高层次的可解释性。
  • Kernel Learning,也称为核方法或核机器,是一类非参数学习方法,通过计算样本之间的相似性进行预测。相似性由核函数来描述,它是定义在高维希尔伯特空间中的特殊内积,原始数据样本被映射到这个空间中[139]。例如,核支持向量机(SVM)[140]将原始的正/负样本转换到另一个空间,使它们可以通过线性决策边界轻松分离。原则上,核函数可以是满足Mercer条件[141]的任意形式,它们决定了输入和输出之间的非线性关系。此外,核函数的概念被扩展到神经网络中,例如Transformer中使用的自注意力机制[142]。传统上,我们认为核技巧提高了模型的性能但削弱了其可解释性。然而,从另一个角度来看,核本身的定义编码了用户的先验见解,并有助于理解模型。
  • 序列学习是指一类与序列数据(如时间序列或句子)一起工作的机器学习方法。它们广泛应用于语音识别、语言理解、DNA序列分析和股票价格预测等领域。序列学习方法刻画了序列数据中隐藏的结构并发现隐含的模式。例如,隐马尔可夫模型(HMM)[144]假设潜在结构是由过渡矩阵(或连续状态空间的过渡核)确定的同质马尔可夫链,并假设观察到的序列是通过发射概率从这个链中随机生成的。在模型训练过程中,估计过渡概率矩阵和发射概率。虽然HMM通常是一个黑盒模型,但其过渡概率矩阵提供了有关预测中自回归结构的一些见解。条件随机场(CRF)[145]扩展了HMM的一阶马尔可夫假设,并使用概率建模的图模型来表征更长范围的时间依赖性,这种额外的灵活性通常为CRF带来更好的预测性能。循环神经网络(RNN)如LSTM [146]和GRU [147]在序列预测中表现更好,但解释其内部机制更为困难。
  • 深度学习通常具有卓越的预测性能[148],但其可解释性的不足是明显的。深度神经网络中的一些特殊运算符,如卷积和注意力,提供了关于其机制的部分和局部解释。例如,在Transformer[143]中的自注意层表征了序列中每个位置相对于其他位置的相对重要性。

models

机器学习的模型内在可解释性始终与其预测能力存在矛盾。然而,在出现既具有高预测准确性又具有高可解释性的全新机器学习模型之前,我们可以重建和改进当前的机器学习方法。我们可以从可解释的模型(如线性或基于规则的模型)开始,并通过引入具有更好预测能力的更多本地非线性结构来改进其预测性能。例如,从决策树模型开始,我们可以用神经网络[149]替换每个叶节点中的决策规则,从而提高模型的灵活性。另一个例子是,从深度神经网络开始,我们还可以通过引入一个特殊层(例如自注意力层[150])来改进其部分可解释性,以识别哪个重要特征更频繁地进行交互。

XAI中的模型无关解释

为了解决性能和可解释性之间的矛盾,一个次优的解决方案是放宽要求,从模型内在解释转向模型无关解释。根据解释的范围,模型无关的XAI可分为全局方法(解释应用于所有样本)[151]和局部方法(解释应用于部分样本)[154]。

全局方法解释与数据集中所有样本相关的特征的特性。这些特性包括特征的重要性、特征集的重要性、特征的交互效应以及特征的其他高阶效应。有各种类型的方法用于估计全局特征重要性。

  • 特征边缘化方法通过边缘化模型中的所有其他特征来估计特定特征或特定特征集的重要性。具体而言,第一个特征的重要性通过对所有其他特征进行积分来计算,类似地,我们计算第二个特征、第三个特征等。例如,偏依赖图(PDP)[135]根据感兴趣的特征计算边缘化模型函数,并可视化相应的特征重要性。积累局部效应(ALE)图[155]使用考虑特征之间相关性的条件分布,提供对边际效应的无偏估计。

  • 特征留一法通过比较在从数据中删除这些特征之前和之后模型性能的差异,评估所关注特征的重要性。具体而言,可以通过在样本中洗牌其值来删除模型的特征[134, 156]。留一法也可以扩展到评估特征的交互效应。例如,基于偏依赖函数,提出了H统计量[157]来测试特征之间的交互作用。其他用于评估和可视化特征交互的替代技术也在[158, 159]中提出。此外,我们还可以对原始模型执行功能分解[158],以探索所有可能特征集之间的交互作用。

  • 特征代理方法通过学习一个全局可解释的替代模型[160]来解释模型,该替代模型近似于原始模型。替代模型在原始模型的监督下使用数据集进行训练,其中输入保持不变,而输出由原始模型生成。

解释方法分类

图21总结了流行的全局解释方法,其中一些已经在上面介绍过。此外,这些方法可以归类为数据驱动和模型驱动,前者将模型视为黑匣子并查询模型以获取解释,而后者将模型视为白匣子,并使用内部信息(如梯度)提供解释。

局部方法解释样本级别的特征重要性,即特定样本的某个特征对其有多重要。与局部依赖图类似,我们可以为每个样本绘制个体条件期望(ICE)图[161],该图说明了在将其他特征的值固定在特定值时所关注特征的影响。要在特定样本处解释黑匣子机器学习模型,我们可以在数据样本附近学习一个替代模型,以局部解释原始模型。典型的示例包括LIME [152]和Anchors [153]。在LIME中(图22),LASSO回归[162]被用作替代模型,以适应通过围绕指定样本扰动原始样本而生成的随机样本。通过这种方式,由这个局部LASSO模型选择的样本对指定样本的适应度贡献最大。与LIME类似,锚是以IF-THEN规则的形式[153]给出的对个别样本的解释,涉及特征。这些锚通过使用波束搜索迭代地将特征添加到规则中来生成。在每次迭代中,保留估计精度最高的候选项,并用作下一次迭代的种子。此外,我们还可以使用特征重要性提供局部解释。例如,SHAP [163]提出了一个统一的框架,用于使用Shapley值[164]计算样本中每个特征的重要性。由于精确计算SHAP值的计算成本较高,SHAP还提出了几种加速估计的近似方法。梯度信息也可以应用于可微分模型,如深度神经网络,以说明输入特征对模型预测的重要性。如图23所示,诸如LIME和SHAP之类的局部解释也可以通过汇总成为全局解释。这样的全局解释可以通过汇总所有样本的解释来形成数据集级别的解释。例如,通过计算整个数据集中每个特征的平均重要性,我们可以确定对大多数数据集中的样本的模型预测做出巨大贡献的重要特征。

局部解释聚合为全局解释

Quant中的可解释AI

股票解释

可以为指定股票提供解释,以说明它们在不同时间对不同因素的敏感性以及它们之间的关系。关于股票解释的一些任务如下:

股票相似性 股票在许多方面普遍存在相关性(如图25a所示),相关的股票预计将共享共同的特性。在这个意义上,利用金融工具之间的关系可以在分析和预测上带来优势,相对于将股票单独处理的传统方法。通过分析股票嵌入之间的相似性,我们还可以更好地了解模型学到了什么。然而,挑战在于确定一个合适的相似性度量,这需要具有足够灵活性和有效性。这个问题与度量学习[168, 169]和图结构学习[170]相关。需要一个良好的股票嵌入之间的相似性度量。基于这个度量,可以通过计算基于成对相似性的调整邻接矩阵来构建图结构。

1.股票相似性可以用于预测协方差矩阵
2.股票间的相似动量效应是一种alpha来源

先导滞后效应 在先导滞后效应[171]中,某只股票的趋势在时间上滞后地被其他一些股票跟随。在跟随先导滞后效应时,投资者可以观察领先股票的趋势(即价格上涨/下跌),并在相同趋势复制之前,在滞后的股票上采取相应的立场。通过这种方式,投资者可以通过精确识别市场上的先导滞后效应而获利[172, 173]。然而,识别先导滞后效应并不是一项微不足道的工作,因为金融市场中经常出现复制趋势,但其中只有少数是实际由先导滞后效应引起的。严格识别先导滞后效应需要通过因果推断进行,这要求进行反事实解释[174]:如果领先股票没有按这种方式走,滞后股票的趋势会是什么?然而,在现实世界的金融市场中,反事实推理通常是不可行的。

捕捉投资者反应不足

部门趋势 部门是根据某些标准(如行业和市值)定义的股票分类。同一部门的股票共享某些共同的特性,个别股票的趋势可能会受到其所属部门的影响。因此,识别部门对个别股票的贡献至关重要。为此,我们可以将股票对不同部门的归属视为分类特征,并通过特征重要性算法计算这些因素的重要性。此外,投资者还可以通过评估部门对不同类型特征的敏感性,从而了解部门归属与其他普通特征之间的特征交互。

时间解释

可以在个别时间点上计算解释,以说明在该截面的股票和因子的情况,并且可以进一步结合跨截面的解释,为某个时段的市场风格提供见解。

极端市场 在股票市场中,存在极端条件,其中市场上几乎所有股票都经历了严重的价格下跌(如图26a所示)。在极端市场中,量化策略很难获得超额回报,因为所有股票的价格都同时下跌,套利的空间很小。因此,在极端市场中,识别受影响较小的股票并交易它们以获得超额回报至关重要。为实现这一目标,我们可以从两个方面分解股票回报:一是市场趋势的贡献,二是股票特定特征的贡献。分解可以通过将因素划分为市场因素和股票特定因素来计算。然后,可以通过特征重要性算法计算这两种因素的重要性。我们需要选择那些股票,其中股票特定因素的重要性超过市场因素的重要性。

用PCA就可以实现,关联股票特质风险

日历效应 日历效应[177]指与日历相关的市场异常,例如一周中的天数、一年中的月份以及与事件相关的时期,如美国总统周期。日历效应是由市场参与者对未来趋势的预期引起的,对市场趋势有很大的影响。因此,在量化中识别日历效应并利用它们调整投资策略非常重要。通过特征重要性算法,可以实现对此类识别。通过计算日历因素的重要性,例如表示工作日和月中日的分类特征,我们可以看出模型预测是否严重依赖于这些特征。对日历因素的较大重要性通常表明潜在的日历效应。

A股也存在明显的日历效应

风格转变 风格因子在多因子模型中(如§1.4中所介绍的)如BARRA [48]中用于描述股票的内在特征,如规模、波动性、增长等。在这种模型中,股票的回报是由其对这些风格因子的暴露所贡献的,并且每单位暴露的回报贡献,也称为因子回报,在风格因子之间是不同的。此外,每个因子的回报也会随时间变化(如图26b),因为市场对不同风格的偏好发生变化。如果能够准确识别这种转变,投资者可以相应地调整策略,专注于具有较大暴露于主导风格因子的股票。为检测风格转变,我们可以将风格暴露视为因子,并使用特征重要性算法计算其对股票回报的贡献。然后,我们可以观察因子贡献在时间上的分布,并检测此分布中的变化作为风格转变的信号。

因子择时很困难,但也很吸引人

事件影响 突发事件(如图26c)通常对股票市场产生重大影响。投资者需要深刻理解突发事件的影响,以减少负面影响或从中获利。通常,事件与两个信息相关:其发生的时间戳和具体内容,这些内容通常以自然语言表示。可以使用自然语言处理技术[176]将事件内容编码为特定因素,并且事件的影响可以计算为在其时间戳之后与市场趋势相关的内容因素的重要性。此外,我们还可以计算因果解释,以显示事件的因果效应。

XAI

因子解释

可以对每个因子进行解释,以说明不同股票在不同时间对其的敏感性。解释可以结合起来展示特定股票因子之间的交互效应。

因子类型 因子可以从各个方面进行分类。例如,从数据来源的角度,因子可以被分类为成交量-价格因子、情感因子、基本因子等。从金融特征的角度,因子可以被分类为动量因子、均值回归因子、先导-滞后因子等。从时间尺度的角度,因子可以被分类为刻度级因子、分钟级因子、日级因子等。不同类型因子对投资组合回报的贡献可以通过特征重要性算法计算,为投资者提供对人工智能生成的投资策略的更好理解。例如,在图27a中,不同时间窗口内每个因子对模型预测的贡献被呈现为热图。

因子交互 深度学习模型擅长捕捉因子之间的复杂关联,一些弱因子可以结合形成强因子。这种交互反映了因子之间的有趣模式,并提供了寻找新因子的新见解。可以使用特征交叉技术来揭示因子之间的交互。例如,在图27b中,模型预测关于两个因子值(暴露于规模和动量风格因子)的地貌图被呈现为等高线图。从地图上可以看出,随着两个因子值的下降,模型预测也会下降。

因子层次结构 我们可以以分层方式描绘因子之间的语义相似性。利用相关技术,如分层聚类[180],因子演变图通过将相似性较高的因子安排在较低阶邻域(如图27c示例中的较低级子树)来展示因子之间的关系。

Quant中的知识驱动AI

在这一部分中,我们将从两个方面介绍展示知识驱动的人工智能在量化4.0中的应用:金融行为知识图的构建和量化的知识图推理。

构建金融知识图

本体设计 金融行为知识图的本体应涵盖以下方面的信息:

  1. 金融实体的基本信息
  2. 金融实体之间发生的金融事件
  3. 实体和事件之间的因果关系

实体的类别包括但不限于:

  • 金融实体,包括股票、债券、银行、上市公司、重要个人、大宗商品等。
  • 概念,反映有关金融实体的基本信息,如部门、行业、交易所、地区和国家、货币等。
  • 事件,即经济行为,如行政处罚、非法行为、诉讼状态、持股变化、人事变动等。

同样,关系的类别包括但不限于:

  • 实体之间的关系,如子公司、隶属、持股等。这些关系与时间戳相关联,表示它们开始和结束的时间。例如,在图28中,产业链和资本链关系描述了实体之间的部门分类和资本关系。
  • 事件之间的关系,如共同发生、先后发生。
  • 事件与实体之间的关系。例如,在图28中,负面报道导致价格变动,进一步调查“制药公司A”,导致交易停牌和诉讼。因果关系通常是从现有知识中推断出来的,作为下游推理任务中的重要辅助信息。例如,在图28中,“相关”关系连接了“负面报道”事件和相应的金融实体“制药公司A”,表明一项负面报道发生在上市公司“制药公司A”身上。这些关系通常与时间戳相关联,表示事件发生的具体时间点。

知识获取 构成金融行为知识图的知识可以从各种来源获取,而最具挑战性的部分是从非结构化数据(以文本数据为代表)中提取有用的结构化知识。自然语言表达具有很高的灵活性和个性化特点,因此机器要准确理解文档中的信息并提取最有用的知识以构建知识图是一项挑战。新闻和文档中存在大量矛盾信息,导致事实提取的困难。因此,在具有置信度评估的知识提取中,概率模型和机器学习模型发挥着重要作用。此外,信息通常是不完整的,需要推断我们实际感兴趣的知识。因此,还需要从给定事实中推断出缺失的知识。不同的数据源更新频率常常不一致,这给知识图的适当表示带来了新的挑战。基于快照的表示和日志型平面知识图均可以捕捉时间信息。日志型平面图对于时间更新是友好的,但在其上直接执行时间分析较为困难。相反,基于快照的表示天然适用于时间分析,但在存储和管理方面也带来了额外的成本。

量化的知识推理

给定一个知识图,我们可以通过在图上进行推理来获得有意义的知识表示。对于量化,知识表示可以并入现有因子作为外部信息,并馈送给深度学习模型以获得更好的预测。图30展示了量化中知识推理的典型流程。具体而言,股票之间的事件和关系被表示为语义三元组,其中实体和关系被嵌入到向量中。然后,对这些语义三元组进行神经推理,计算事件、关系和整个知识图的嵌入。在历史数据上训练后,知识表示被用于投资策略,生成交易决策。

还有其他研究致力于研究知识推理在量化中的应用。[253] 提出将关系和范畴知识纳入事件嵌入以获得更好的结果。给定表示事件的语义三元组,从知识图中检索有关语义三元组中实体的外部信息,并将其纳入事件嵌入的计算中。[252] 从新闻文本中提取事件,并使用实体链接技术[254] 将提取的信息与知识图对齐。然后,使用TransE生成事件嵌入。嵌入然后与时间卷积网络[255] 中的成交量-价格数据相结合,用于股票预测,如图31所示。[53] 利用基本信息,如部门分类和供应链,构建知识图,并使用时间图卷积计算每支股票的嵌入。然后,使用这些嵌入来预测股票回报,并通过最大化股票排名损失来训练整个模型。[256] 使用node2vec [257] 在知识图的基础上生成股票嵌入,并利用这些嵌入计算股票之间的相似性。通过这种方式,为每支股票计算了前K个最近的邻居,并利用邻居的因子来增强原始因子。其他研究[258, 259] 也利用知识图生成更好的股票嵌入或进行事件驱动的投资。

KG

Quant4.0(三)可解释AI、知识驱动AI与量化投研

https://heth.ink/Quant4-3/

作者

YK

发布于

2023-12-31

更新于

2023-12-31

许可协议