基于大语言模型的社会媒体内容分析赋能股票市场预测研究
《Engineering Applications of Artificial Intelligence》:Empowered stock market forecasting using Large Language Model on social media content
【字体:
大
中
小
】
时间:2025年10月16日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
本文针对股票市场高波动性和非线性动态导致的预测难题,提出了一种融合社交媒体内容与历史金融数据的两阶段预测框架。研究人员利用大语言模型(LLM)从Reddit平台的海量帖子与评论中提取情感评分和买卖指标等上下文特征,并将其与历史价格数据共同输入LSTM、TCN、Transformer和GAN等深度学习模型进行预测。在纳斯达克股票数据集上的实验表明,该框架显著提升了预测精度,RMSE和MAE分别最高提升23.27%和23.70%,为量化投资提供了新的技术路径。
股票市场犹如一片波涛汹涌的海洋,其高波动性和非线性动态让无数投资者既爱又恨。传统的预测方法主要依赖历史价格、成交量等数字信号,但市场情绪、突发新闻、社交媒体热议等"软因素"同样扮演着至关重要的角色。尤其在这个信息爆炸的时代,投资者常常被淹没在海量的异构信息中——从专业的财经新闻到Reddit上散户的激情讨论,这些内容往往充满动态互动和非标准语言,使得传统分析方法难以招架。
更棘手的是,现有的专业大语言模型(如BloombergGPT)虽然擅长处理规整的财经新闻,却对社交媒体上嘈杂、随性的"民间讨论"显得有些水土不服。而且,这些"金融版"大模型大多参数规模较小(小于10亿),泛化能力有限,或者像BloombergGPT这样拥有500亿参数的"巨无霸"又不公开可用,令广大研究者望洋兴叹。如何从纷繁复杂的社交媒体中提炼出有价值的市场信号,并与传统量化模型有效结合,成为金融科技领域一个亟待突破的难题。
正是在这样的背景下,来自意大利那不勒斯"费德里科二世"大学的研究团队在《Engineering Applications of Artificial Intelligence》上发表了他们的最新成果。Giancarlo Sperlì和Marta Assunta Sichinolfi设计了一个创新的两阶段框架,巧妙地将大语言模型的分析能力与深度学习模型的预测能力相结合,为股票市场预测开辟了新路径。
本研究的关键技术方法主要包括:1)从Reddit的23个金融相关版块爬取超过400万条帖子与评论数据,并与雅虎财经的NASDAQ历史股价数据整合;2)设计零样本提示策略,使用量化至4比特精度的Zephyr、LLaMA等LLM模型,依次完成文本链摘要生成、公司/股票代码提取、情感分数计算(正/中/负)和买卖信号判断四类任务;3)将提取的社交情境特征与历史金融数据组合成多元时间序列,分别输入LSTM、时序卷积网络(TCN)、Transformer和生成对抗网络(GAN)四种深度学习架构进行股价预测;4)采用均方根误差(RMSE)和平均绝对误差(MAE)作为评估指标,并与基线模型及LLM零样本预测结果进行对比。
在涵盖六年的NASDAQ数据集上,融入社交媒体情境特征的"增强版"模型普遍表现出色。其中TCN模型提升最为显著,RMSE从3.463降至2.947,MAE从2.611降至2.245。GAN模型也展现出23.27%的RMSE和23.70%的MAE提升。这表明社交上下文特征能为模型提供超越纯数字信号的市场洞察力。
针对四只代表性股票的分析揭示了更细致的图景:特斯拉(TSLA)因其高社交讨论热度(帖子量是亚马逊的三倍),多数增强模型预测误差降低超30%;谷歌(GOOG)和富国银行(WFC)在稳定价格趋势下仍获显著提升,后者MAE改善达62%。而亚马逊(AMZN)的LSTM模型出现性能波动,凸显了社交特征非平稳性对某些模型的挑战。
通过消融实验发现:情感分数对特斯拉预测贡献更大,反映其股价受投资者心理判断驱动更强;买卖指标则在TCN和GAN中作用突出,说明这些能捕捉时序依赖的模型更善用此类明确信号。这为不同市场情境下的特征选择提供了实践指导。
直接使用LLM进行零样本涨跌预测的结果不尽如人意:最佳模型LLaMA准确率仅53.7%,虽召回率较高(93.3%),但精度不足,证实单纯依赖LLM处理复杂金融时序预测仍面临重大挑战。
该研究证实了LLM从社交数据中提取情境特征以增强传统量化模型的有效性,为融合非结构化文本与数值数据提供了可复用的方法论。其价值不仅限于金融领域,框架可扩展至工业运维(如整合传感器数据与日志文本进行故障预警)等多元场景。
然而,挑战依然存在:LLM的"幻觉"问题在专业数据稀缺的金融领域尤为突出;金融市场的动态非线性和类别不平衡(涨跌约70:30)持续考验模型鲁棒性。未来工作将纳入多平台社交数据,探索基于人类反馈的强化学习(RLHF)融入领域专家知识,并拓展至其他证券市场。
这项研究犹如在数字金融的迷雾中点亮了一盏灯,不仅证明了大语言模型在挖掘"市场情绪"方面的独特价值,更展示了一种人机协同的新范式——让AI既读懂数字的冷峻,也理解人性的温度,最终为投资决策提供更立体、更敏锐的洞察。在人工智能与金融深度交融的时代,这样的探索无疑为构建更智能、更适应复杂现实环境的金融分析系统奠定了重要基石。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号