统计套利：当数学遇见市场的概率游戏

隐波曲面

2024年夏天，沪深300指数在3200点附近震荡，当月合约和下月合约的价差突然扩大到历史高位，超过正常持仓成本近50个点。量化交易员盯上了这个机会——他们不关心市场会涨会跌，只关心这个价差什么时候回归正常。这就是统计套利：用数学和概率赚市场失衡的钱。

什么是统计套利

定义与原理

统计套利（Statistical Arbitrage）是一种基于历史统计规律，通过构建多空组合来获取相对稳定收益的投资策略。与传统的无风险套利不同，统计套利并非真正的”无风险”，而是基于一个核心假设：价格偏离会回归均值。

举个例子，中国平安和中国人寿作为保险行业的双子星，两者的股价长期保持一定的比例关系。当某一天平安大跌而人寿微涨，导致比价关系严重偏离历史均值时，统计套利者会做多平安同时做空人寿，等待比价关系回归正常后平仓获利。

这种策略的本质是交易相对价格的偏离，而非绝对价格的方向。即使两只股票都下跌，只要比价关系回归正常，策略依然可以盈利。

数学基础：协整关系

统计套利最重要的数学基础是协整（Cointegration）。很多人会把相关性和协整性混淆，但两者有本质区别：

相关性：两个变量在同一时间段内的同步变动程度
协整性：两个变量的价格差异在长期内保持稳定，存在均值回归特性

\[Spread_t = Price_A - \beta \times Price_B\]

如果这个价差（Spread）是平稳序列，即围绕某个均值上下波动，那么A和B就存在协整关系。当价差偏离均值超过一定阈值时，就产生了交易机会。

可口可乐和百事可乐的股价就是典型的协整关系：两家公司业务高度相似，面临相同的市场环境，长期来看股价应该保持相对稳定的比例。即使短期因为某些事件导致比例失衡，最终也会回归均值。

历史背景：从LTCM到量化时代

统计套利的兴起要追溯到上世纪80年代华尔街量化对冲基金的崛起。摩根士丹利的量化团队最早将统计方法应用于股票配对交易，获得了可观收益。

但最著名的案例恐怕是长期资本管理公司（LTCM）的覆灭。这家由两位诺贝尔经济学奖得主坐镇的对冲基金，运用复杂的统计套利模型在债券市场呼风唤雨。然而1998年俄罗斯金融危机这只黑天鹅的出现，导致历史上高度稳定的价差关系突然崩溃，LTCM因为巨额杠杆而破产，差点拖垮整个华尔街。

LTCM的教训：历史规律可能失效，统计套利不是无风险的圣杯。

统计套利的常见策略

1. 配对交易（Pairs Trading）

配对交易是最经典的统计套利策略，操作简单。

选股要求同行业或上下游关系，历史价格高度相关（相关系数>0.8），存在协整关系（ADF检验p值<0.05）。

操作逻辑：计算历史价差的均值μ和标准差σ，当价差偏离2倍标准差以上时开仓，价差回归均值附近时平仓。

举个例子：选择同行业、业务相似的两只股票，比如招商银行和平安银行，或者茅台和五粮液。当它们的估值比例偏离历史均值2倍标准差以上时开仓，做空相对高估的，做多相对低估的。等比例回归时平仓，就能赚到这个价差收敛的钱，完全不用判断行业是涨是跌。

2. 期货品种配对套利

商品期货标准化程度高、流动性好，做统计套利比较理想。

上下游套利

螺纹钢和铁矿石，一个是原料一个是成品，价格比值长期稳定。螺纹钢利润率异常高时做空螺纹做多铁矿，钢厂利润被压缩时反向操作。

替代品套利

豆粕和菜粕都是饲料蛋白，养殖场会根据价格选择。两者价差有一定的统计规律，比如2024年价差在520-1090元/吨之间波动，5-6月往往是低点（南美大豆上量+水产需求回暖），9-10月也会收窄（北美上量+菜粕需求稳定）。

当价差偏离历史均值较多时，可以进行套利。但要注意价差的”正常区间”不是固定的，会随着供需结构变化而迁移。2014-2015年价差从900元下降到500元左右，2024年又回到520-1090元区间。

所以不能简单套用历史数据，还要结合当时的基本面：季节性、进口政策、产量预期、水产养殖需求等。

3. 跨市场套利

同一家公司在A股和港股上市，理论上价值应该一样，但因为市场分割、投资者结构不同，两地价格经常出现明显差异。

比如A股整体相对港股长期存在溢价，AH溢价指数在100-150之间波动。当某只股票的AH溢价率明显偏离市场平均水平时，就可能有套利机会。

但实际操作很复杂：汇率风险（港币人民币波动）、两地规则差异（T+0 vs T+1、涨跌幅）、资金调拨成本、沪港通额度限制等。而且单只股票的溢价率波动很大，不像整体市场那么稳定。

实施统计套利的关键要素

数据与工具

高质量的历史数据是基础

至少3-5年的日线数据
复权处理（分红、配股等）
期货数据需要处理连续合约vs主力合约的问题

统计分析工具

Python：pandas（数据处理）+ statsmodels（协整检验）+ backtrader（回测）
R：quantmod + urca包
MATLAB：金融工程工具箱

回测系统的重要性

策略在历史数据上的表现如何？最大回撤是多少？盈利因子是多少？这些都需要通过严格的回测来验证。

警惕过度拟合，参数调得再好，在历史数据上表现再完美，如果是”事后诸葛亮”式的曲线拟合，实盘必然翻车。

参数设定

1. 回看窗口（Lookback Period）

用多久的历史数据来计算均值和标准差？

太短（如30天）：对短期波动敏感，可能产生虚假信号
太长（如500天）：反应迟钝，错过最佳入场时机
经验值：60-120个交易日

2. 进场阈值（Entry Threshold）

价差偏离多少才开仓？

保守型：2.5-3倍标准差
激进型：1.5-2倍标准差
需要平衡交易频率和胜率

3. 止损设置

统计套利最大的风险是”均值不再回归”，价差持续扩大。必须设置止损：

价差继续偏离到4-5倍标准差时止损
持仓时间超过N天仍未回归时止损
基本面发生重大变化时主动止损

交易成本

千万不要忽视交易成本，它会吃掉大部分利润。

股票：佣金万2.5 + 印花税千1（卖出）= 约0.35%双边
期货：手续费通常万分之几，但移仓成本不可忽视
融券成本：年化8-12%，严重侵蚀收益

案例：某策略理论年化收益15%，但每年交易20次，双边交易成本0.35%，则实际成本7%，实际收益只剩8%。

风险管理

1. 仓位控制

单对配对不超过总资产的10-15%
同时持有的配对组数不超过5-8对
避免集中在同一行业（系统性风险）

2. 相关性衰减风险

历史上的高相关性不代表未来依然如此。定期检验协整关系：

每季度重新做协整检验
相关系数下降到0.6以下时停止交易该对

3. 市场结构变化

行业格局重组（如一家公司被收购）
政策变化（如期货交易规则调整）
技术变革（如新能源对传统能源的替代）

4. 期货特有风险

强平风险：杠杆放大亏损，必须预留足够保证金
逼仓风险：临近交割日，大资金恶意操纵价格
移仓成本：期货合约到期需要移仓，价差可能不利

统计套利的局限性

1. 模型风险：”这次不一样”

历史上每次某个价差到3倍标准差都会回归，直到第10次它继续扩大到5倍、8倍、12倍…

2020年疫情初期，原油期货出现了史无前例的负价格，无数基于”原油不会跌破0”假设的套利策略爆仓。市场用最残酷的方式告诉我们：历史规律可能失效，模型假设可能崩溃。

过度拟合是另一个陷阱。把参数调整到在历史数据上完美盈利，但这些参数本质上是在”记忆”历史，而非发现真正的规律。实盘时往往惨不忍睹。

2. 流动性风险：想走走不了

2015年6月股灾，千股跌停。很多配对交易的多头腿跌停无法卖出，而空头腿却在涨，导致巨额亏损且无法止损。这就是极端行情下的流动性枯竭。

期货市场也有类似问题：非主力合约的持仓量很少，买卖价差巨大，实际成交价可能远离理论价格。

3. 资金容量限制

统计套利策略有明确的资金容量上限。当策略规模过大时：

自己的交易会影响价格
交易冲击成本上升
策略收益率下降

这也是为什么很多大型量化对冲基金逐渐放弃传统配对交易，转向高频交易或因子策略——它们的容量更大。

对个人投资者来说，这反而是优势：几十万、几百万的资金在市场中几乎不会造成冲击，可以获得更好的成交价格。

4. 技术门槛

统计套利不适合大多数散户，因为它需要：

编程能力：Python/R至少会一种
统计知识：理解协整、回归、假设检验等概念
数据获取：付费数据源或自己爬取清洗
持续优化：策略会衰退，需要不断改进

对于没有这些技能的普通投资者，强行尝试统计套利无异于用别人的武器打仗——不熟练就会伤到自己。

5. 黑天鹅来临时怎么办

统计规律失效、价差不回归反而继续扩大，这是最危险的时刻。承认错误比坚持信仰重要。

事前防范：

永远不要满仓：单对配对最多10-15%仓位，总体统计套利仓位不超过50%。这样即使某对完全亏损，也不会伤筋动骨。
分散配对：不要把鸡蛋放在同一个篮子里。持有5-8对不相关的配对，避免系统性风险。例如不要同时做3对银行股配对，一旦行业黑天鹅出现会全军覆没。
控制杠杆：期货天然带杠杆，如果用满保证金等于10倍杠杆。建议保证金占用不超过总资产的30%，预留足够的安全垫。
设置硬止损：不管内心多么相信”一定会回归”，都要设置一个无条件止损线。例如：
- 价差扩大到5倍标准差
- 单对亏损超过本金的3-5%
- 持仓时间超过预期2倍（如预期1个月回归，2个月还没回归就止损）

事中应对：

果断止损：当触发止损条件时，不要犹豫，不要加仓摊平。LTCM就是死在”价差一定会回归”的执念上。市场可以比你想象的更不理性，时间更长久。
检查基本面：价差异常扩大往往不是偶然。是不是：
- 其中一家公司出现财务问题？
- 行业发生重大变革？
- 政策环境发生变化？

历史案例：2020年原油期货负价格

中国银行”原油宝”事件是典型教训。产品跟踪原油期货，基于”原油不会跌破0”的假设。但2020年4月，WTI原油期货出现史无前例的-37美元/桶。

问题出在哪？

杠杆过高：产品设计本身就有杠杆
没有止损：一直持有到交割日，寄希望于价格回升
忽视极端情况：疫情导致需求断崖式下跌+储油设施饱和

正确做法应该是：

当原油跌破30美元时重新评估基本面
发现储油空间即将饱和时主动止损
绝不能持有到交割日（实物交割意味着要承担储存成本）

看似相关的资产，极端情况下可能走出完全不同的路径。市场不欠任何人一个”均值回归”。

个人投资者的思考

统计套利适合你吗？

在决定是否尝试统计套利之前，问自己几个问题：

1. 技术能力

我会写代码吗？能处理数据、做回测吗？
我理解协整检验、假设检验这些统计概念吗？

2. 时间精力

我有时间每天盯盘，监控价差变化吗？
我能投入精力持续学习和优化策略吗？

3. 心理承受力

我能接受连续几个月策略亏损但依然坚持吗？
我会在策略赚钱后因为贪婪而加大杠杆吗？

4. 资金规模

我至少有20-50万可以用于套利吗？（太小的资金收益绝对值太低）
这笔钱是闲置资金，短期不会急用吗？

如果以上问题大部分答案是”否”，那么统计套利可能不适合你。

替代方案

理解思想比实施更重要。即使不做统计套利，也可以借鉴思路：

配对基金定投

同时定投沪深300和中证500，当一个涨幅远超另一个时再平衡，就是”低买高卖”。

可转债双低策略

选价格低、溢价率低的可转债，本质上也是赌”均值回归”：价格低于100元有债底保护，溢价率低说明股性便宜，等价格或溢价率回归正常时卖出。

指数增强基金

指数增强基金的超额收益，很大一部分来自量化团队的统计套利、因子策略。投这类基金就是把专业的事交给专业的人。

没有圣杯

不存在永远赚钱的圣杯策略。

策略有生命周期，用的人多了超额收益就消失了。市场在进化，机构算法越来越快，散户生存空间越来越小。再完美的模型也无法预测黑天鹅。

但统计套利的思想还是有价值的：用概率思维看投资，不追求100%胜率，追求正期望值；控制风险比预测方向重要；纪律性执行，不情绪化操作。

总结

统计套利用数学和统计规律赚市场价差回归的钱，不预测方向，只交易偏离。

期货市场因为标准化、流动性好、双向交易、T+0，是做统计套利的理想场所。商品期货品种配对、股指期货跨期套利，都有不少机会。

但杠杆放大风险。LTCM的覆灭、原油宝的惨剧都说明：统计规律可能失效，风险管理永远第一位。

对于有技术能力、风险意识强、资金充足的投资者，统计套利值得探索。对于大多数普通投资者，理解思想、借鉴理念来优化投资组合，可能比直接实施更有意义。

投资的本质是管理风险，不是消灭风险。统计套利不是无风险套利，只是把方向性风险转化成相对价差的风险。市场有规律，但规律会变。

免责声明：本文仅为个人观点分享，不构成投资建议。期货交易具有高风险，杠杆可能导致巨额亏损。市场有风险，投资需谨慎。