量化交易背景与多因子模型
一、量化交易基础概念
| 维度 | 说明 |
|---|---|
| 定义 | 用数字化的方法和计算机程序发出买卖指令,获取稳定收益 |
| 核心组成 | 选股(选择优质股/符合预期的股票)+ 策略(触发交易行为的规则) |
| 与人工交易差异 | 机器人接收信息有限,但金融环境信息量巨大(市场、政府、新闻、汇率等) |
| 反人性特征 | 低价买进高价卖出,需抓住大众群体心理进行逆向操作 |
| 信息数字化难点 | 政府报告、时政新闻、社交媒体评价等非结构化信息难以直接量化 |
二、量化策略的生命周期
| 维度 | 说明 |
|---|---|
| 策略定义 | 预设的行为模式,在不同触发条件下被使用,可用计算机语言编码 |
| 生命周期 | 想法实现 → 策略验证 → 线上运行 → 策略失效 |
| 策略失效原因 | 市场变化、参与者增多、规则被广泛使用后失效 |
| 无通用规则 | 不同股票市场(美股/A股)适用的策略不同,不能直接迁移 |
| 迭代速度 | 顶级量化公司(如Two Sigma、Jane Street)内部策略迭代非常快 |
三、多因子模型(Multi-Factor Model)
| 维度 | 说明 |
|---|---|
| 核心思想 | 股票收益由一系列因子决定,用这些因子刻画股票收益 |
| 因子类型 | 公司财务指标(利润率、市盈率、市值)、环境因素(利率、汇率)、市场因素(资金流向、动量) |
| 波动因子 | 股价波动情况、利润增长率、净利润增长率等 |
| 线性回归形式 | 市值 = Σ(技术指标_i × 权重_i),本质是线性回归 |
| 选股逻辑 | 股票满足某些因子条件时买入/卖出,因子权重通过历史数据拟合 |
四、竞赛场景下的量化策略理解
| 维度 | 说明 |
|---|---|
| 策略已触发 | 比赛数据集中,量化公司的交易系统已触发了策略,选手只需判断交易动作 |
| 130个特征 = 130个策略 | 每个feature可理解为一个量化策略/因子,共同完成交易决策 |
| 特征0假设 | 特征0可能是买入/卖出方向的编码,其他特征是基于交易时刻计算的衍生指标 |
| 仓位未知 | 比赛中不知道具体仓位、盈亏状态,只能根据给定特征做判断 |
| 未来收益导向 | Response用未来一段时间收益计算,而非过去,符合量化预测逻辑 |
五、外部信息对量化的影响
| 维度 | 说明 |
|---|---|
| 新闻舆情 | 公司签约艺人出丑闻、高管变动等新闻会影响股价 |
| NLP应用 | 可用信息抽取方法从新闻、微博、社交媒体中提取影响股价的信号 |
| 历史案例 | Kaggle曾有利用新闻预测股价的比赛(2Sigma),数据集已被删除 |
| 成熟系统 | 国内成熟炒股软件背后都有爬虫和信息抽取工具,持续监控各方面信息 |
| 信息差 | 量化交易本质是打信息差,谁能更快更准地获取和处理信息,谁就占优 |
六、量化学习工具与平台
| 维度 | 说明 |
|---|---|
| 数据获取 | Baostock、Tushare等工具可方便获取股票历史数据、K线图、均量数据 |
| 国内平台 | JoinQuant(聚宽)、BigQuant、同花顺量化平台,支持Python编写策略 |
| 回测功能 | 量化平台提供回测和模拟功能,可验证策略收益 |
| 学习建议 | 从数据获取工具入手,整理股票走势数据,再学习量化指标和策略 |
七、量化竞赛与NLP/CV的交叉
| 维度 | 说明 |
|---|---|
| NLP交叉 | 新闻情感分析、信息抽取可辅助股价预测 |
| CV交叉 | 图表识别(K线图形态识别)可辅助交易决策 |
| 多模态 | 结合结构化数据 + 新闻文本 + 图表信息的综合预测模型 |
| 学习建议 | 做金融量化竞赛不仅学时间序列,也可学习NLP和信息抽取技术 |