
1、DeepSeek、ChatGPT、Llama等,我们如今熟悉的AI模型,乃至文生图,文生视频等,都属于transformer模型。
2、Transfomer模型从2017年论文提出,也就7年。
Transformer模型首先被应用于NLP,也就是自然语言处理,然后2022年出现了ChatGPT。
ChatGPT至今也就3年。
3、像GPT这样的transformer模型,工作原理大概就是根据已有的单词(token),根据概率来预测下一个可能的单词(token)。
神奇就神奇在这里,由概率产生了句子语义的合理性,由概率产生复杂的推理逻辑。
4、这里涉及到两个关键词:预测和概率。
那么这不是巧了么,金融市场分析师交易员最喜欢说的就是预测和概率。
那么,transformer模型真的能预测金融市场?
5、理论上,Transformer模型可以应用于K线预测。这两种情境有相似之处:
- 都处理序列数据(词序列vs时间序列)
- 都需要理解上下文关系
- 都在寻找模式以预测未来
6、那那些金融机构都在用什么机器学习技术,应用于金融预测呢?他们是否有应用transromer模型呢?
传统的金融机构大多还在用:
- LSTM/GRU等循环神经网络
- ARIMA、GARCH等统计模型
- XGBoost、随机森林等传统机器学习算法
比如LSTM(长短期记忆),论文发表于1997年,二十多年了,很成熟了,金融机构都还在应用。
一些量化对冲基金也在探索Transformer模型:
- 使用Temporal Fusion Transformer专门处理时间序列
- 开发混合架构结合Transformer与传统模型
- 探索多模态Transformer同时处理价格、新闻和社交媒体数据
7、注意了,即便是那些积极拥抱新技术的金融机构,当前仅仅都是在探索阶段。
8、于是我也问Claude sonet 3.7 Reasoning mode,从技术应用层面,有没有可能用Transfomer完全替代LSTM等模型用来预测金融市场K线走势?
答案是很有潜力。
从纯技术角度看,Transformer确实有潜力替代LSTM来预测金融市场K线走势,但这是一个复杂的转变过程,有几个关键考量点:
技术优势对比
Transformer相对LSTM的优势:
- 并行计算能力:Transformer可并行处理整个序列,训练速度更快
- 长距离依赖捕捉:自注意力机制可直接建模任意时间点之间的关系
- 灵活的特征融合:更容易整合多源数据(价格、成交量、社交情绪等)
- 性能上限更高:在足够数据下,复杂性通常能带来更好表现
结论:
9、那说了这么多,关我什么事?
机会就在这里。
2025年1月,DeepSeek R1开源,满血版秒杀一众对手,大家抄来抄去的Llama模型甘拜下风。
智力的一丁点提升,拉开的差距都是很大的。
打个不恰当的比方,三个臭皮匠,不如一个诸葛亮。
从技术层面上,大家又重新站在了技术应用的同一起跑线上。
金融机构势必得用上DeepSeek R1满血版,探索其应用。
10、那怎么应用呢?
简而言之:1、数据准备,2、模型改造:需要设计专门的编码方式,将价格、成交量等数值特征转化为模型能理解的表示形式
3、微调训练。4、实际应用:输入最新的K线走势,输出可执行的信息。
所以,回到标题,如何用DeepSeek 炒股?不是简单打开DeepSeek APP问它今天涨跌,而是一个工程化的工作...
11、OK,这是一个技术重置的窗口期….技术落地虽有挑战,前景却大有可为,