隐波曲面

2024年夏天,沪深300指数在3200点附近震荡,当月合约和下月合约的价差突然扩大到历史高位,超过正常持仓成本近50个点。量化交易员盯上了这个机会——他们不关心市场会涨会跌,只关心这个价差什么时候回归正常。这就是统计套利:用数学和概率赚市场失衡的钱。

什么是统计套利

定义与原理

统计套利(Statistical Arbitrage)是一种基于历史统计规律,通过构建多空组合来获取相对稳定收益的投资策略。与传统的无风险套利不同,统计套利并非真正的”无风险”,而是基于一个核心假设:价格偏离会回归均值

举个例子,中国平安和中国人寿作为保险行业的双子星,两者的股价长期保持一定的比例关系。当某一天平安大跌而人寿微涨,导致比价关系严重偏离历史均值时,统计套利者会做多平安同时做空人寿,等待比价关系回归正常后平仓获利。

这种策略的本质是交易相对价格的偏离,而非绝对价格的方向。即使两只股票都下跌,只要比价关系回归正常,策略依然可以盈利。

数学基础:协整关系

统计套利最重要的数学基础是协整(Cointegration)。很多人会把相关性和协整性混淆,但两者有本质区别:

  • 相关性:两个变量在同一时间段内的同步变动程度
  • 协整性:两个变量的价格差异在长期内保持稳定,存在均值回归特性
\[Spread_t = Price_A - \beta \times Price_B\]

如果这个价差(Spread)是平稳序列,即围绕某个均值上下波动,那么A和B就存在协整关系。当价差偏离均值超过一定阈值时,就产生了交易机会。

可口可乐和百事可乐的股价就是典型的协整关系:两家公司业务高度相似,面临相同的市场环境,长期来看股价应该保持相对稳定的比例。即使短期因为某些事件导致比例失衡,最终也会回归均值。

历史背景:从LTCM到量化时代

统计套利的兴起要追溯到上世纪80年代华尔街量化对冲基金的崛起。摩根士丹利的量化团队最早将统计方法应用于股票配对交易,获得了可观收益。

但最著名的案例恐怕是长期资本管理公司(LTCM)的覆灭。这家由两位诺贝尔经济学奖得主坐镇的对冲基金,运用复杂的统计套利模型在债券市场呼风唤雨。然而1998年俄罗斯金融危机这只黑天鹅的出现,导致历史上高度稳定的价差关系突然崩溃,LTCM因为巨额杠杆而破产,差点拖垮整个华尔街。

LTCM的教训:历史规律可能失效,统计套利不是无风险的圣杯。

统计套利的常见策略

1. 配对交易(Pairs Trading)

配对交易是最经典的统计套利策略,操作简单。

选股要求同行业或上下游关系,历史价格高度相关(相关系数>0.8),存在协整关系(ADF检验p值<0.05)。

操作逻辑:计算历史价差的均值μ和标准差σ,当价差偏离2倍标准差以上时开仓,价差回归均值附近时平仓。

举个例子:选择同行业、业务相似的两只股票,比如招商银行和平安银行,或者茅台和五粮液。当它们的估值比例偏离历史均值2倍标准差以上时开仓,做空相对高估的,做多相对低估的。等比例回归时平仓,就能赚到这个价差收敛的钱,完全不用判断行业是涨是跌。

2. 期货品种配对套利

商品期货标准化程度高、流动性好,做统计套利比较理想。

上下游套利

螺纹钢和铁矿石,一个是原料一个是成品,价格比值长期稳定。螺纹钢利润率异常高时做空螺纹做多铁矿,钢厂利润被压缩时反向操作。

替代品套利

豆粕和菜粕都是饲料蛋白,养殖场会根据价格选择。两者价差有一定的统计规律,比如2024年价差在520-1090元/吨之间波动,5-6月往往是低点(南美大豆上量+水产需求回暖),9-10月也会收窄(北美上量+菜粕需求稳定)。

当价差偏离历史均值较多时,可以进行套利。但要注意价差的”正常区间”不是固定的,会随着供需结构变化而迁移。2014-2015年价差从900元下降到500元左右,2024年又回到520-1090元区间。

所以不能简单套用历史数据,还要结合当时的基本面:季节性、进口政策、产量预期、水产养殖需求等。

3. 跨市场套利

同一家公司在A股和港股上市,理论上价值应该一样,但因为市场分割、投资者结构不同,两地价格经常出现明显差异。

比如A股整体相对港股长期存在溢价,AH溢价指数在100-150之间波动。当某只股票的AH溢价率明显偏离市场平均水平时,就可能有套利机会。

但实际操作很复杂:汇率风险(港币人民币波动)、两地规则差异(T+0 vs T+1、涨跌幅)、资金调拨成本、沪港通额度限制等。而且单只股票的溢价率波动很大,不像整体市场那么稳定。

实施统计套利的关键要素

数据与工具

高质量的历史数据是基础

  • 至少3-5年的日线数据
  • 复权处理(分红、配股等)
  • 期货数据需要处理连续合约vs主力合约的问题

统计分析工具

  • Python:pandas(数据处理)+ statsmodels(协整检验)+ backtrader(回测)
  • R:quantmod + urca包
  • MATLAB:金融工程工具箱

回测系统的重要性

策略在历史数据上的表现如何?最大回撤是多少?盈利因子是多少?这些都需要通过严格的回测来验证。

警惕过度拟合,参数调得再好,在历史数据上表现再完美,如果是”事后诸葛亮”式的曲线拟合,实盘必然翻车。

参数设定

1. 回看窗口(Lookback Period)

用多久的历史数据来计算均值和标准差?

  • 太短(如30天):对短期波动敏感,可能产生虚假信号
  • 太长(如500天):反应迟钝,错过最佳入场时机
  • 经验值:60-120个交易日

2. 进场阈值(Entry Threshold)

价差偏离多少才开仓?

  • 保守型:2.5-3倍标准差
  • 激进型:1.5-2倍标准差
  • 需要平衡交易频率和胜率

3. 止损设置

统计套利最大的风险是”均值不再回归”,价差持续扩大。必须设置止损:

  • 价差继续偏离到4-5倍标准差时止损
  • 持仓时间超过N天仍未回归时止损
  • 基本面发生重大变化时主动止损

交易成本

千万不要忽视交易成本,它会吃掉大部分利润。

  • 股票:佣金万2.5 + 印花税千1(卖出)= 约0.35%双边
  • 期货:手续费通常万分之几,但移仓成本不可忽视
  • 融券成本:年化8-12%,严重侵蚀收益

案例:某策略理论年化收益15%,但每年交易20次,双边交易成本0.35%,则实际成本7%,实际收益只剩8%。

风险管理

1. 仓位控制

  • 单对配对不超过总资产的10-15%
  • 同时持有的配对组数不超过5-8对
  • 避免集中在同一行业(系统性风险)

2. 相关性衰减风险

历史上的高相关性不代表未来依然如此。定期检验协整关系:

  • 每季度重新做协整检验
  • 相关系数下降到0.6以下时停止交易该对

3. 市场结构变化

  • 行业格局重组(如一家公司被收购)
  • 政策变化(如期货交易规则调整)
  • 技术变革(如新能源对传统能源的替代)

4. 期货特有风险

  • 强平风险:杠杆放大亏损,必须预留足够保证金
  • 逼仓风险:临近交割日,大资金恶意操纵价格
  • 移仓成本:期货合约到期需要移仓,价差可能不利

统计套利的局限性

1. 模型风险:”这次不一样”

历史上每次某个价差到3倍标准差都会回归,直到第10次它继续扩大到5倍、8倍、12倍…

2020年疫情初期,原油期货出现了史无前例的负价格,无数基于”原油不会跌破0”假设的套利策略爆仓。市场用最残酷的方式告诉我们:历史规律可能失效,模型假设可能崩溃。

过度拟合是另一个陷阱。把参数调整到在历史数据上完美盈利,但这些参数本质上是在”记忆”历史,而非发现真正的规律。实盘时往往惨不忍睹。

2. 流动性风险:想走走不了

2015年6月股灾,千股跌停。很多配对交易的多头腿跌停无法卖出,而空头腿却在涨,导致巨额亏损且无法止损。这就是极端行情下的流动性枯竭。

期货市场也有类似问题:非主力合约的持仓量很少,买卖价差巨大,实际成交价可能远离理论价格。

3. 资金容量限制

统计套利策略有明确的资金容量上限。当策略规模过大时:

  • 自己的交易会影响价格
  • 交易冲击成本上升
  • 策略收益率下降

这也是为什么很多大型量化对冲基金逐渐放弃传统配对交易,转向高频交易或因子策略——它们的容量更大。

对个人投资者来说,这反而是优势:几十万、几百万的资金在市场中几乎不会造成冲击,可以获得更好的成交价格。

4. 技术门槛

统计套利不适合大多数散户,因为它需要:

  • 编程能力:Python/R至少会一种
  • 统计知识:理解协整、回归、假设检验等概念
  • 数据获取:付费数据源或自己爬取清洗
  • 持续优化:策略会衰退,需要不断改进

对于没有这些技能的普通投资者,强行尝试统计套利无异于用别人的武器打仗——不熟练就会伤到自己。

5. 黑天鹅来临时怎么办

统计规律失效、价差不回归反而继续扩大,这是最危险的时刻。承认错误比坚持信仰重要。

事前防范:

  1. 永远不要满仓:单对配对最多10-15%仓位,总体统计套利仓位不超过50%。这样即使某对完全亏损,也不会伤筋动骨。

  2. 分散配对:不要把鸡蛋放在同一个篮子里。持有5-8对不相关的配对,避免系统性风险。例如不要同时做3对银行股配对,一旦行业黑天鹅出现会全军覆没。

  3. 控制杠杆:期货天然带杠杆,如果用满保证金等于10倍杠杆。建议保证金占用不超过总资产的30%,预留足够的安全垫。

  4. 设置硬止损:不管内心多么相信”一定会回归”,都要设置一个无条件止损线。例如:

    • 价差扩大到5倍标准差
    • 单对亏损超过本金的3-5%
    • 持仓时间超过预期2倍(如预期1个月回归,2个月还没回归就止损)

事中应对:

  1. 果断止损:当触发止损条件时,不要犹豫,不要加仓摊平。LTCM就是死在”价差一定会回归”的执念上。市场可以比你想象的更不理性,时间更长久。

  2. 检查基本面:价差异常扩大往往不是偶然。是不是:

    • 其中一家公司出现财务问题?
    • 行业发生重大变革?
    • 政策环境发生变化?

历史案例:2020年原油期货负价格

中国银行”原油宝”事件是典型教训。产品跟踪原油期货,基于”原油不会跌破0”的假设。但2020年4月,WTI原油期货出现史无前例的-37美元/桶。

问题出在哪?

  • 杠杆过高:产品设计本身就有杠杆
  • 没有止损:一直持有到交割日,寄希望于价格回升
  • 忽视极端情况:疫情导致需求断崖式下跌+储油设施饱和

正确做法应该是:

  • 当原油跌破30美元时重新评估基本面
  • 发现储油空间即将饱和时主动止损
  • 绝不能持有到交割日(实物交割意味着要承担储存成本)

看似相关的资产,极端情况下可能走出完全不同的路径。市场不欠任何人一个”均值回归”。

个人投资者的思考

统计套利适合你吗?

在决定是否尝试统计套利之前,问自己几个问题:

1. 技术能力

  • 我会写代码吗?能处理数据、做回测吗?
  • 我理解协整检验、假设检验这些统计概念吗?

2. 时间精力

  • 我有时间每天盯盘,监控价差变化吗?
  • 我能投入精力持续学习和优化策略吗?

3. 心理承受力

  • 我能接受连续几个月策略亏损但依然坚持吗?
  • 我会在策略赚钱后因为贪婪而加大杠杆吗?

4. 资金规模

  • 我至少有20-50万可以用于套利吗?(太小的资金收益绝对值太低)
  • 这笔钱是闲置资金,短期不会急用吗?

如果以上问题大部分答案是”否”,那么统计套利可能不适合你。

替代方案

理解思想比实施更重要。即使不做统计套利,也可以借鉴思路:

配对基金定投

同时定投沪深300和中证500,当一个涨幅远超另一个时再平衡,就是”低买高卖”。

可转债双低策略

选价格低、溢价率低的可转债,本质上也是赌”均值回归”:价格低于100元有债底保护,溢价率低说明股性便宜,等价格或溢价率回归正常时卖出。

指数增强基金

指数增强基金的超额收益,很大一部分来自量化团队的统计套利、因子策略。投这类基金就是把专业的事交给专业的人。

没有圣杯

不存在永远赚钱的圣杯策略。

策略有生命周期,用的人多了超额收益就消失了。市场在进化,机构算法越来越快,散户生存空间越来越小。再完美的模型也无法预测黑天鹅。

但统计套利的思想还是有价值的:用概率思维看投资,不追求100%胜率,追求正期望值;控制风险比预测方向重要;纪律性执行,不情绪化操作。

总结

统计套利用数学和统计规律赚市场价差回归的钱,不预测方向,只交易偏离。

期货市场因为标准化、流动性好、双向交易、T+0,是做统计套利的理想场所。商品期货品种配对、股指期货跨期套利,都有不少机会。

但杠杆放大风险。LTCM的覆灭、原油宝的惨剧都说明:统计规律可能失效,风险管理永远第一位。

对于有技术能力、风险意识强、资金充足的投资者,统计套利值得探索。对于大多数普通投资者,理解思想、借鉴理念来优化投资组合,可能比直接实施更有意义。

投资的本质是管理风险,不是消灭风险。统计套利不是无风险套利,只是把方向性风险转化成相对价差的风险。市场有规律,但规律会变。

免责声明:本文仅为个人观点分享,不构成投资建议。期货交易具有高风险,杠杆可能导致巨额亏损。市场有风险,投资需谨慎。



blog comments powered by Disqus