OOS検証で再現しなかった戦略の構造:3つの分類パターン

10,269件の戦略検証のうち、OOS(Out-of-Sample)検証で訓練期間の優位性を再現できなかった戦略は1,091件ありました。これらは一般的にカーブフィッティング(過剰最適化)と解釈されがちですが、詳細な分析から大きく2つの構造、3つの分類パターンが見えてきました。

本記事では、この1,091戦略のデータに基づき、OOSで再現しない戦略の具体的な内訳と特性を解説します。

この記事のポイント

  • OOS検証で再現しない戦略は性能低下とOOS上振れの2構造に大別されます。
  • 訓練期間に過剰適合した「性能低下型」が全体の66%を占めました。
  • OOSで上振れた34%も訓練期間の性能が採用基準に届かず除外されます。

検証の全体像と分析対象の定義

約8年間で検証した10,269の戦略のうち、訓練期間での優位性がOOS(検証外期間)で再現しなかった1,091件が本分析の対象です。これらの戦略を「OOS_DEAD」と定義し、その内訳を分析することで、再現性のない戦略が持つ構造的なパターンを明らかにします。

10,269戦略のうち1,091件が分析対象

本稿で分析するデータは、約8年間にわたりFXの主要12通貨ペアを中心に検証された10,269件の自動売買戦略に基づいています。このうち、最終的に採用された戦略は全体の約1%(107件)にとどまり、残りの約99%は何らかの段階で却下されました。

分析対象とするのは、この却下された戦略群の中でも、OOS検証の段階で再現性が確認できなかった1,091件です。OOS検証とは、戦略のパラメータ設計・調整に用いた訓練期間とは異なる、未知のデータ期間で性能を試し、汎化性能を確認する工程を指します。

OOS_DEADラベルの定義:採用閾値0.85

本分析では、OOS期間のシャープレシオが採用閾値0.85を下回った戦略を「OOS_DEAD」と定義する。

ただし、0.85は一般的な投資基準ではなく、本データセットにおける内部的な運用値である。

再現しなかった戦略の2つの構造

OOS検証で再現しなかった1,091件は、単一の現象ではない。性能が低下する「性能低下型」が720件(66%)、訓練期間よりOOS期間で性能が上振れる「OOS上振れ型」が371件(34%)で、性質の異なる2つの構造に大別できる。

多くの戦略(66%)はカーブフィッティング(過剰最適化)を示唆する挙動だが、34%を占める上振れ型はその逆の構造を持つ。OOSで再現しない事象が、カーブフィッティングという単一の原因に起因するとは限らないことを示唆する。

3つの分類パターンの詳細な特性

前章で大別した2つの構造をさらに詳細に分析すると、OOS検証で再現しなかった1,091件の戦略は、3つの具体的なパターンに分類できます。性能低下型は「大幅低下(192件)」と「閾値直下(528件)」に分かれ、これに「OOS上振れ型(371件)」が加わります。

それぞれの数値的な特性を詳しく見ていきます。

分類 件数 Train SR OOS SR
大幅低下 192 1.58 0.34
閾値直下 528 1.45 0.83
OOS上振れ 371 0.74 2.02

Train SRとOOS SRの中央値を比較すると、 OOS_DEAD戦略は大きく3つのパターンに分類できる。

分類1:性能が大幅に低下するパターン (192件)

このパターンは、訓練期間で観測された優位性がOOS期間で大幅に失われる、典型的なカーブフィッティング(過剰最適化)の挙動を示唆します。192件の戦略がこの分類に該当しました。

数値的な特徴として、訓練期間のシャープレシオは中央値1.58と高い水準でしたが、OOS期間では中央値0.34まで低下しています。これは約80%の性能減少に相当します。訓練期間で見られた高い性能は、未知のデータに対する汎化性能を伴っていなかった可能性が高いと考えられます。

分類2:採用閾値の直下で再現しないパターン (528件)

528件が該当するこのパターンは、OOS_DEADの中で最も件数が多いグループです。分類1と同様に性能が低下するものの、その度合いが比較的小さい点が特徴です。

具体的には、訓練期間のシャープレシオ中央値1.45に対し、OOS期間では中央値0.83という結果でした。これは採用候補となる基準(シャープレシオ0.85)をわずかに下回る水準です。性能の低下幅は約43%で、大幅な低下ではないものの、訓練期間の優位性を再現するには至らなかったケースと言えます。

分類3:OOS期間で性能が上振れるパターン (371件)

371件が該当するこのパターンは、前の2つとは異なる逆の構造を持っています。訓練期間のシャープレシオ中央値が0.74と低い水準であったにもかかわらず、OOS期間では中央値2.02という非常に高い性能が観測されました。

これは、訓練期間では採用候補となる安定した優位性が確認できなかった戦略が、未知の期間で偶発的に高い性能を示したケースと考えられます。このパターンの取引サンプル数は中央値38と他に比べて少なく、サンプル数の不足が偶発的な結果を生み出す一因である可能性が示唆されます。

データから得られる示唆

これまでの分析で、OOS検証で再現しなかった1,091件の戦略が、性質の異なる2つの構造、3つのパターンに分類できることが確認できました。特に注目すべきは、全体の34%(371件)が「OOS上振れ型」という、訓練期間の性能をOOS期間が上回る逆の構造を持つ点です。

この事実は、OOS検証の結果を解釈する上で考慮すべき点を示しています。

OOS上振れ型がOOS_DEADに分類される理由

OOS期間のシャープレシオが中央値2.02と高いにもかかわらず、OOS上振れ型がOOS_DEADと分類されるのは、戦略評価の前提となる訓練期間での性能に理由があります。このパターンの訓練期間におけるシャープレシオの中央値は0.74であり、採用候補となる基準(0.85)を満たしていません。

戦略を採用する上では、まず訓練期間において、採用候補となる安定した優位性が確認されることが前提となります。OOS上振れ型はこの前提を満たしていないため、たとえOOS期間で偶発的に高い性能が観測されたとしても、「再現性のある優位性」とは見なされません。

サンプル数が中央値38と少ないことからも、OOS期間の高い性能は、特有の相場局面に偶然適合した結果である可能性が示唆されます。

OOS期間のシャープレシオだけでは評価が難しい

OOS上振れ型の存在は、「OOS期間のシャープレシオが高ければ良い戦略だ」という単純な評価が成立しないことを示しています。OOS期間の性能だけを見て判断する場合、訓練期間で優位性のないOOS上振れ型を、有望な戦略だと誤って評価する可能性があります。

例えば、「OOS期間のシャープレシオが2.0を超えれば採用」といった固定的な閾値による判断では、このパターンを見落とす可能性があります。

今回の分析では、OOSで再現しなかった戦略の34%が「OOS上振れ型」だった。これは「訓練期間の高シャープがOOSで再現されない」だけでなく、「訓練期間の低シャープがOOSで高シャープになる」現象も無視できない割合で存在することを示す。サンプル数が十分でない戦略では、訓練期間・OOS期間のどちらも偶然による振れ幅を含む可能性がある。

OOSで再現しなかった戦略を単純に「カーブフィッティング」と片付けることは難しい。今回のデータでは、性能低下型だけでなく、訓練期間よりOOS期間で上振れる戦略も一定数確認された。失敗戦略を分析することは、戦略がなぜ生き残れなかったのかを理解する手掛かりになる。