大语言模型发展趋势及其量化投资应用

大语言模型发展趋势及其量化投资应用

大语言模型(LLM)是2022年底ChatGPT横空出世以来,计算机技术中最炙手可热、日新月异的前沿领域。LLM已慢慢剥离单纯的工具属性,成为独立处理任务的智能载体。2024年,Qwen2、Llama3.1等千亿参数模型陆续发布,开源模型性能逐步接近闭源水平。作为量化研究人员,如何将大语言模型技术与金融应用相结合,提升投研水平,是必须思索的命题。本文首先参考李沐演讲分析LLM发展趋势与最佳实践,然后综述量化投资领域LLM的具体应用场景。

大语言模型

大语言模型虽然规模百倍于往常的机器的学习模型,但它仍然是原有方法的自然延伸,而不是什么跨越式发展的产物,服从机器学习模型发展的一般性规律。在这一节中,主要参考李沐学长2024年8月在交大演讲,讨论LLM的发展趋势和应用的最佳实践。

预训练:发展趋势

全世界范围内,拥有预训练模型能力的组织其实屈指可数,对绝大多数人来说由于成本限制,其实只要考虑使用已有预训练模型即可。对于预训练模型的未来演进,核心观点是 短期内模型会快速贬值,中长期瓶颈难以突破。

芯片行业的摩尔定律在LLM领域同样适用,每隔一年,相同规模的模型训练成本会便宜一半。因此,短期内可以期待更新更大更好的模型不断涌现,尤其是Nvidia的新一代GPU投入部署后。纠结预训练模型的性能意义不大,因为模型的价值会迅速贬值,模型的使用场景才具有长期价值。

中长期来看,LLM能力提升会遭遇瓶颈。模型效果的上限是由训练数据决定的,目前LLM已使用10T-50T规模的数据集,这已是互联网数据量的极限。在增加数据量不可行时,就只能投入大量资金与人力清洗已有数据,提高数据质量,这个方向上没有捷径可走,不会有数量级的提升。继续扩大模型规模是否可行呢?模型规模受制于显存容量,由于单卡显存容量难以突破200GB,公开服务的LLM规模会限制在500B参数以下。最后是模型结构,无论是数据、硬件约束的宏观视角,还是具体架构的微观视角,现在都看不到算法创新带来性能突破的可能性。

另外,在领域任务表现好的模型必须具备不错的通用能力,“行业大模型”是个伪命题。

后训练:什么是最重要的事

从头预训练一个LLM不具备经济性和必要性,那么后训练中,哪些是关键点?

应用场景 模型本身没有价值,价值由应用场景产生。如果过去量化的逻辑是用数据+算式得出一个什么指标,那么LLM时代的因子挖掘可能就是“在某个上下文中提出什么问题”。应用场景和问题才是alpha的来源。

数据与算法 要提升领域内模型的性能,核心是拥有高质量的结构化数据,应用场景和数据是互相绑定的——有什么样的数据,决定了可以做哪些场景;需要做哪些场景,就需要搜集相关数据。在数据确定后,使用对应的改进后训练算法是一个技术问题,算法效果依赖于数据分布,不存在唯一解。

评估 好的评估是成功的一半,评估使得研究人员可以迭代改进模型。在这一点上,量化有着天然的优势,因为文本数据流最终一定导向投资决策,是可以量化评估的。而在其他领域,由于语言的二义性,只有人工才能准确衡量效果。

总之,后训练阶段的核心是积累应用场景+高质量数据+改进的算法。

量化应用

LLM本质上是提供无限的廉价智力资源,量化交易中的LLM应用本质上是套取LLM推理与人工处理成本间的价差,套利空间由LLM智能水平决定。

下文是对普林斯顿&牛津大学论文 A Survey of Large Language Models for Financial Applications: Progress, Prospects and Challenges 的节选、翻译与评述。

文本工作

许多早期的模型,例如基于循环神经网络(RNN)的模型,特别是长短期记忆(LSTM)模型,已经证明能够在文本序列上实现一定程度的语言理解并执行文本工作[63]。然而,由于这些模型的架构限制,它们在处理长期依赖关系方面遇到了困难。具体来说,它们在维护长文本序列的上下文、理解复杂表达、处理大型数据集以及有效处理非结构化数据方面都面临挑战[63]、[64]。这种局限性在金融领域尤其明显,因为该领域的文档量巨大,对准确简洁的摘要需求至关重要[65]。

LLMs 利用transformer架构,另一方面,也显著提升了该领域的应用能力。transformer架构以其创新的自注意力机制为特征,使 LLMs能够处理、理解和生成基于其训练的大量数据集的文本[66],[67]。这一突破对于克服早期模型面临的挑战至关重要。通过有效地管理大量文本中的长期依赖关系和上下文信息,LLMs可以将复杂的金融叙述简化为简洁的摘要,并提取相关信息[66],[67]。此过程保留了关键见解,并促进了更有效的资讯处理。

命名实体识别 命名实体识别(NER)是信息抽取的子任务,在从各种金融来源[87]、[88]中提取有意义信息方面起着至关重要的作用。在金融领域,它用于从新闻文章、财务报告和市场总结等中提取特定实体,例如公司名称、金融术语、股票代码、财务指标和货币值[89]。这些信息对于金融下游任务至关重要,例如行业分类、情感分析、信用评分、欺诈检测和监管合规报告[90]。

尽管 LLMs 表现出卓越的泛化能力,但在处理长篇金融文件时,它们有时会带来高昂的训练和推理成本。为了解决这些问题,周等人在[102]中提出了 UniversalNER,这是一种采用目标蒸馏和任务导向的指令微调来训练成本效益高的开放 NER 学生模型的方法。这种方法不仅降低了计算负担,而且在没有直接监督的情况下也取得了显著的 NER 准确率。

金融关系构建 通过知识图谱等手段构建金融关系,特别是对于组织和理解从庞大复杂金融数据集提取出的实体及其相互关系而言,是一种强大的方法 [104]。知识图谱由关于实体(对象、事件、人员等)、实体属性以及将它们连接在一起的关系的互连描述结构组成。这种框架提供了一种结构化的数据关系表示方式,并能够从中导出复杂的分析 [105],[106]。

什么问题对金融图谱有强依赖呢?需要积累。

文本分类 在金融领域组织和理解海量非结构化数据方面至关重要。该分类任务可以进一步细分为多个子任务,例如行业/公司分类和文档/主题分类。通过有效地分类和组织这些信息,企业和研究人员可以提取有价值的见解并做出明智的决策。结合建立金融关系,利用这些分类技术对于提升金融领域的决策和分析过程至关重要。

公司或行业分类是指将公司根据共同特征(如业务活动和市场表现)分组,目的是形成连贯且差异化的群体。识别相似的公司概况是金融领域一项基本任务,其应用范围涵盖投资组合构建、证券定价和财务风险归因。传统上,金融分析师依赖于行业分类系统,例如全球行业分类系统(GICS)、标准工业分类(SIC)、北美行业分类系统(NAICS)和Fama-French(FF)模型,来识别具有相似概况的公司[123]。然而,这些系统无法提供根据公司相似程度进行排序的方法,并且需要领域专家耗费大量时间和精力进行手动分析和数据处理[123]。

最近,黑石公司[124]的一支团队探索了一种利用LLMs对公司进行分类的新方法。他们研究了使用预训练和微调的LLMs来根据 SEC 申报中的公司描述生成公司嵌入。他们的研究旨在评估嵌入在重现 GICS 分类、在各种下游金融任务上基准LLM性能以及研究预训练目标、微调和模型大小等因素对嵌入质量的影响。结果表明,LLM生成的嵌入,特别是来自微调的 Sentence-BERT 模型的嵌入,能够准确地重现 GICS 行业和部门分类,并在基于收益相关性识别相似公司和解释横截面股票收益等任务上优于它们。

LLM可以从文本中提取公司共性,引入风险模型是很合理的方向。

文档或主题分类是金融领域文本分类的另一个关键子任务。该任务涉及将金融文档或文本,例如新闻文章[126]、[127]或公司文件[128]、[129],分类到预定义的主题或主题中。Alias 等人[130]提出了一种新方法,利用 FinBERT 模型从马来西亚吉隆坡证券交易所上市公司的年度报告中提取和分类关键审计事项 (KAM) 的相关主题。同样,Burke 等人[131]对 FinBERT 模型进行微调,对包括财务报表附注、管理层讨论与分析部分和风险因素部分在内的三个未标记的财务披露进行会计主题分类。

情感分析

LLMs的出现标志着金融文本情感分析(FSA)领域的一个重要里程碑。如今,这些模型已在众多任务中证明了其有效性,并为 FSA 应用提供了几个独特的优势。

  • LLMs 在解读金融语言的复杂性方面表现出色,熟练处理社交媒体和金融博客上的非正式表达、表情符号、表情包和专业术语 [58]、[60]、[173]、[174]、[175]、[151]。 它们在识别讽刺、讽刺和行业特定术语等细微差别方面非常熟练,这对于准确分析从推文到全面财务报告等各种格式的情绪至关重要 [176]、[6]。

  • LLMs 处理多模态数据(包括图像、音频和视频)的能力和巨大潜力对于在财务背景下(如收益电话会议[155]和 FOMC 会议[177])进行全面情感分析至关重要。这种能力允许将非语言线索和视觉数据整合到情感分析过程中[37]。

  • LLMs能够处理大量文件,可以对详细的财务报告和冗长的文章进行全面分析,确保不会遗漏任何带有情感信息的文本。该功能对于评估年度报告、收益记录和冗长的财务叙述中表达的情感特别有益 [157]。

社交媒体 像 Twitter、Reddit 等通用在线论坛和 StockTwits 等金融特定论坛,以及金融博客和微博,已成为FSA的重要数据来源。这些平台至关重要,因为它们拥有大量实时非结构化文本内容,反映了公众对金融市场、特定股票和整体经济环境的看法。这些平台讨论的即时性和公开性使它们成为捕捉市场情绪的宝贵资源,而市场情绪可以预测未来的市场走势。Su 等人 [150] 利用 BERT 从 Twitter 中提取情感和语义见解,从而改进协方差估计并增强投资组合优化。将文本衍生协方差数据整合到均值-方差优化中,在这项工作中取得了优异的性能,尤其是在 COVID-19 暴跌期间。 此外,Steinert 和 Altmann [60] 利用 GPT-4 对 Stocktwits 平台上的微博消息进行情感分析,在苹果和特斯拉股票的买入持有策略方面取得了显著的优越性,这突显了 LLMs 在通过情感分析预测股票价格走势方面的潜力。尽管 LLMs 在情感分析方面有效,但社交媒体数据也带来独特的挑战,包括信息量巨大、语言常使用口语化、可能存在选择性偏差以及消息中可能存在误导信息或不准确性,这些都使准确捕捉和解读市场情绪的任务变得复杂 [178]。

社交媒体数据分布的不确定性是很大的问题,如果没有强逻辑,感觉做事件驱动很难。

新闻 是另一个至关重要的数据来源,在快速传播和广泛覆盖方面与社交媒体有很多相似之处,但它通常更侧重于客观事件。与社交媒体经常主观和个人化的性质相反,新闻内容通常来自更具声望和信誉的媒体机构,包括著名的报纸(如《纽约时报》)、电视广播公司(如 CNN 和 BBC)以及专门针对金融的出版物(如《经济学人》)。这些机构记者和作家的可信度和专业性使内容更加可信,尽管有时会牺牲时效性。越来越多的证据支持 ChatGPT LLMs 相对于早期方法的优势,尤其是在分析新闻标题的情感方面。Lopez-Lira 和 Tang [152] 研究了 ChatGPT 在预测股票市场回报方面的有效性,说明它能够准确地为标题分配情感评分,并优于早期的模型,例如 GPT-2 和 BERT。此外,Fatouros 等 [153] 揭示了 GPT-3。5 在分析外汇相关新闻标题方面比 FinBERT 具有相当大的改进。同样,Luo 和 Gong [154] 使用开源 Llama2-7B 模型 [26] 报告了显著的成功,其性能超过了之前基于 BERT 的方法和传统的 LSTM 与 ELMo 方法。这些研究强调了先进的 LLMs 在决策和量化交易中的重要性。

在这个数字时代,实时新闻现象日益普遍。通过直播或在线平台传播,这些新闻来源在准确性和时效性之间取得了平衡,为市场状况和可能影响金融情绪的公共事件提供了及时的见解[179]。陈等[180]研究使用先进的LLMs,如 BERT、RoBERTa 和 OPT 进行情感分析和股票预测。这些模型通过捕捉复杂的文本信息并提供更准确的上下文理解,在捕捉复杂文本信息方面显著优于传统的 Word2vec 等方法,从而实现更高的准确性。研究还表明,LLM模型实现了更高的夏普比率和更好的性能。至关重要的是,研究表明,由于套利限制,新闻信息被纳入股票价格需要延迟,这为实时交易策略利用这些低效性创造了机会。这突显了LLMs在实时金融文本挖掘中的潜力。

用LLM实现实时的新闻分析、决策。难点在于训练数据,考虑使用过往新闻-股价联动关系构造

公司沟通 涵盖公司向利益相关者发布的各种官方声明、新闻稿和公告。这些沟通中蕴含的情感会显著影响利益相关者对公司当前状态和未来前景的看法。LLMs 可以处理这些沟通,以评估情感并识别潜在的市场影响信息。例如,Kim 等人[157] 指出,ChatGPT 可以通过缩短长度和放大内容的情感,以及揭示财务报告中普遍存在的“冗余”问题——过量、重复或无关的信息,可能会掩盖做出明智投资决策所需的真实见解,从而显著简化和澄清公司向投资者的披露。

引入多模态可能有信息增益,如演讲的语音语调等

分析师研报 涵盖了经济指标、行业分析和消费者行为等广泛数据,对于金融决策至关重要。分析师报告和投资研究的意义在于其对证券的详细分析和建议,为投资者深入了解市场趋势和潜在投资机会提供了帮助。分析师评级,例如“买入”、“持有”或“卖出”建议,为证券的未来表现提供了简洁的评估,为投资者提供有价值的指引。这些评级基于严格的财务分析,并受到投资者的密切关注,以评估市场情绪并做出战略投资选择[160]。

很传统的方向

时间序列预测

LLMs可以直接用于股票预测,如[209]所述。他们的研究探索了使用LLMs预测纳斯达克 100 指数股票,并证明通过整合多种数据源,LLMs不仅能提供稳健的预测,还能提高可解释性。该研究强调了基于指令的微调和推理链的重要性,这些方法已被证明可以显著提高LLMs在该领域的性能,优于传统的统计模型。另一种方法是整合LLMs来增强其他神经网络。陈等人在[210]中介绍了一种利用 ChatGPT 增强图神经网络(GNN)进行股票走势预测的框架。他们的方法巧妙地从文本数据中提取演化网络结构,并将这些网络整合到 GNN 中进行预测任务。实验结果表明,该模型在更高的年化累积回报和更低的波动率方面,始终优于最先进的基于深度学习的baseline。

此外,LLMs 因其在多模态数据分析中的集成能力而备受关注,正如前一节所述,这在分析另类数据时至关重要。例如,Wimmer 和 Rekabsaz [211] 介绍了利用文本和视觉数据预测市场走势的创新模型。他们的研究表明,基于 CLIP 的模型在预测德国股指趋势方面,其表现优于已有的基准。精确度、F1 分数、平衡准确率等指标表明了这些多模态方法的有效性。另一项值得注意的研究是 RiskLabs 框架,它结合了各种类型财务数据,包括收益电话会议的文本和语音信息、市场相关时间序列数据以及上下文新闻数据 [212]。该框架的多阶段过程首先使用 LLMs 提取和分析这些数据,然后处理时间序列数据以建模不同时间范围内的风险。RiskLabs 利用多模态融合技术将这些多样化的数据特征组合起来,进行全面的多任务财务风险预测。 实证结果表明该框架在预测金融市场波动率和方差方面有效,表明LLMs在金融风险评估中的潜力。

LLM提供多模态数据处理能力,可以直接生成预测,可以补充现有的基于量价的端到端模型

大语言模型发展趋势及其量化投资应用

https://heth.ink/FinNlp/

作者

YK

发布于

2024-08-26

更新于

2024-08-26

许可协议