学ぶ / 論文レビュー / コア・アーキテクチャとアルゴリズム / CPAL2026 / AlphaFormer: End-to-End Symbolic Regression of Alpha Factors with Transformers

AlphaFormer: End-to-End Symbolic Regression of Alpha Factors with Transformers

クオンツ現場ではアルファ因子は依然として 手作りの式ブラックボックスモデル の間で揺れます。AlphaFormer は 合成時系列で Transformer を事前学習し、新しい市場データに対して 解釈可能な記号式 をエンドツーエンドで生成します。線形プール、IC 指標、PPO 型の安定化を数式ごとに読み解きます。
PDF原著 PDF を開く
[要約と導入] 3 行サマリー + 問題提起
3 行サマリー
- ① 従来の致命的な非効率: GP や RL ベースの記号回帰は データセットが変わるたびに探索をゼロから やり直し、学んだ「式の文法」を再利用しにくい。毎朝レシピを一から発明するようなもの。
- ② 古典的手法の限界: LightGBM や LSTM は予測は強いが ブラックボックス。人手設計は探索空間が広すぎてスケールしない。
- ③ 論文の核: 多様な 合成株価で Transformer を事前学習し、実データ XtX_t だけで RPN 形式のアルファ式を即生成——多くの「偽の厨房」で練習したシェフが、本番の材料で皿を出すイメージ。
比喩: レシピを毎回ランダム試行するロボ vs 文法を体に染み込ませたシェフ
従来探索は 厨房(市場)が変わるたびに調味料比率をやり直すロボです。AlphaFormer は 合成データの厨房で文法を学び、実戦の材料 XtX_t を見て その場で式(アルファ因子)を完成させます。ブラックボックスに頼らず探索コストを下げる方向です。
[背景知識] 本当に必要な概念(詳しめ)
各項目を 定義 → 直感 → 本論文での位置づけ の順で押さえると、後の数式がつながりやすくなります。
- アルファ因子
まず平易に: ある 1 日(時刻 tt について、注目銘柄が SS あるとします。各銘柄に dd 個の数値(例: 終値、出来高、直近リターン)があり、モデルがそれをまとめて読み、銘柄ごとに「今後、相対的に有利か?」のスコアを 1 つずつ 出す規則がアルファ因子です。SS 個のスコアを並べたベクトルが ztz_t です。
表で想像: SS 本(1 行=1 銘柄) × dd 本(1 列=1 種類の指標)。入力全体を XtX_t と呼び、XtRS×dX_t \in \mathbb{R}^{S \times d}「その日の銘柄数 × 銘柄あたりの特徴の数」 の大きさです。出力 ztRSz_t \in \mathbb{R}^Sii 番目=銘柄 ii のスコア です。
直感: 1 銘柄だけを時間方向に追う話ではなく、同じ日に複数銘柄を並べて「今日、誰が上か下か」 を付けるイメージです(横断面・cross-section)。ロングショートやランキング運用は、この順序を見て 買い・売り・ウェイト を決めます。
本論文: 生成器の最終出力が 解釈可能な記号式 としてのアルファ因子になる、というのが出発点です。
- 記号回帰
重みだけでなく `mean(close, 20d)` のような 演算木そのもの を探します。探索空間は広い一方、一度良い構造が得られると説明責任に有利です。GP/RL による データセットごとのコールドスタート探索 との対比軸になります。
- RPN(逆ポーランド記法)
人が読む 中置 の例は `mean(close, 20d)`(終値の 20 日平均)。モデルが左から右に並べるのは 同じ意味のトークン列 で、`close` → `20d` → `mean` → `end`。`end` はこの部分式チャンクの 終わり印 です。`[volume, 20d, mean, end]` のような 角括弧リスト はプログラミングの配列と混同されやすいので、順序付きのトークン と捉えてください。スタックで括弧なしの評価順を決め、Transformer の左から右への自己回帰生成とも相性が良いです。本論文ではアルファ式を RPN トークン列 として生成します。
- IC(情報係数)
通常は日次の ピアソン相関(予測とラベル)。Rank IC は順位重視で外れ値に強いです。プール学習や(任意の)RL での 品質指標 として現れます。
- 合成データ
GRU・Transformer・拡散などで作った時系列で事前学習し、複数生成器を アンサンブル して多様な時間構造を見せます。実データの前に 演算の文法 を学ぶ練習場として機能し、本論文の 文法事前学習 の前提です。
[提案手法] 中核の数式を解体
1) アルファプール — 複数の式を線形混合
zt=g(Xt)=k=1mwkfk(Xt)z_t = g(X_t) = \sum_{k=1}^{m} w_k\, f_k(X_t)
- 直感: fkf_k は別々のシェフ、wkw_k票の重みggアンサンブルヘッド
2) プール重みの学習 — アクセルと L1 ブレーキ
L(w)=1STt=1Tg(Xt)yt22+λw1\mathcal{L}(w) = \frac{1}{ST} \sum_{t=1}^{T} \big\| g(X_t) - y_t \big\|_2^2 + \lambda \|w\|_1
- 第 1 項: yty_t将来リターン等のラベルSTST(銘柄×日)で平均化した 二乗誤差 を下げる アクセル
- λw1\lambda\|w\|_1: L1 で不要な wkw_k0 に押し出しスパース化——ブレーキ兼ハサミ
3) IC — 日次相関の平均
σˉ(g(X),y)=1Tt=1Tσ(g(Xt),yt)\bar{\sigma}(g(X), y) = \frac{1}{T} \sum_{t=1}^{T} \sigma\big(g(X_t), y_t\big)
σˉrank(g(X),y)=1Tt=1Tσrank(g(Xt),yt)\bar{\sigma}_{\mathrm{rank}}(g(X), y) = \frac{1}{T} \sum_{t=1}^{T} \sigma_{\mathrm{rank}}\big(g(X_t), y_t\big)
- σ\sigma はピアソン、σrank\sigma_{\mathrm{rank}}順位相関
4) PPO — クリップと価値ヘッドで生成方策を安定化
L(θ,ϕ)=LCLIP(θ)+ηLvalue(ϕ)\mathcal{L}(\theta, \phi) = \mathcal{L}^{\mathrm{CLIP}}(\theta) + \eta\, \mathcal{L}^{\mathrm{value}}(\phi)
LCLIP(θ)=E^[min(rt(θ)A^t, clip(rt(θ),1ϵ,1+ϵ)A^t)]\mathcal{L}^{\mathrm{CLIP}}(\theta) = -\, \hat{\mathbb{E}}\Big[ \min\big( r_t(\theta)\,\hat{A}_t,\ \mathrm{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\,\hat{A}_t \big) \Big]
Lvalue(ϕ)=Vϕ(D,P)r22\mathcal{L}^{\mathrm{value}}(\phi) = \big\| V_\phi(\mathcal{D}, \mathcal{P}) - r \big\|_2^2
- rt(θ)r_t(\theta): 方策比。[1ϵ,1+ϵ][1-\epsilon,1+\epsilon] にクリップして更新を暴れさせない シートベルト
- A^t\hat{A}_t: アドバンテージ。IC ベース報酬と価値推定の差などで置ける。
- VϕV_\phi: 状態価値の予測;Lvalue\mathcal{L}^{\mathrm{value}} で実報酬 rr にフィット。
- η\eta: アクターとクリティックのバランス。
記号の読み方(同じ節の中で完結)
上の 4 つの数式に出てくる記号だけを 意味 → 役割 の順で整理します。別見出しの用語表は付けません。
- XtX_t, SS, dd: XtX_t は時刻 tt入力特徴XtRS×dX_t\in\mathbb{R}^{S\times d} と置くと SS は銘柄数、dd は各銘柄の特徴次元です。
- ztz_t: RS\mathbb{R}^S のベクトル。ii 番目が 銘柄 ii のアルファスコア
- fkf_k, mm, wkw_k, gg: fk(Xt)f_k(X_t)kk 番目の候補式のスコア、mm は候補の個数、wkw_k重み(信頼度)g(Xt)g(X_t) はそれらを線形混合した 最終予測
- yty_t, TT, STST, 22\|\cdot\|_2^2: yty_t教師ラベル(例: 将来リターン)。TT は日数、SS は銘柄数、STST銘柄×日の総セル数 なので、先頭の 1/ST1/ST はパネル全体の平均です。v22\|v\|_2^2 は成分の 二乗和
- λ\lambda, w1\|w\|_1: w1=k=1mwk\|w\|_1=\sum_{k=1}^m|w_k|λ\lambda を大きくすると多くの wkw_k正確に 0 になり因子が刈り込まれます(Lasso)。
- σ\sigma, σrank\sigma_{\mathrm{rank}}, σˉ\bar{\sigma}, σˉrank\bar{\sigma}_{\mathrm{rank}}: 日次の ピアソン順位 相関。上線は TT 日の 平均 IC
- θ\theta, ϕ\phi, PPO: θ\theta はトークン列を生成する 方策(Transformer) のパラメータ、ϕ\phi価値関数rt(θ)r_t(\theta) は新旧方策の 確率比ϵ\epsilonクリップ幅A^t\hat{A}_tアドバンテージVϕ(D,P)V_\phi(\mathcal{D},\mathcal{P}) は状態の 期待報酬の予測Lvalue\mathcal{L}^{\mathrm{value}} は実際の 報酬 rr に近づけます。η\eta は価値損失の重みです。
一文で
合成で文法を学び、RPN 式を生成し、線形プールと L1 で混ぜ、IC で評価し、クリップ付き PPO で生成だけ安全に微調整——これが全体像です。
[数式ウォークスルー] トイデータで頭の中シミュレーション
前節の式が どこに対応するか を追いやすくするため、銘柄が 3 本だけの 超ミニ市場 を思い浮かべます。数値は説明用の仮定です。
設定:tt に銘柄 A・B・C のみ。生成器が既に提案した候補因子が m=3m=3f1,f2,f3f_1,f_2,f_3。各 fkf_k はその日の スコアベクトル (R3)(\mathbb{R}^3) を返します。例:
f1=(1,0,1),f2=(0.5,1,0),f3=(0.2,0.3,0.1)f_1=(1,\,0,\,{-}1),\quad f_2=(0.5,\,1,\,0),\quad f_3=(0.2,\,{-}0.3,\,0.1)
(先頭から A,B,C)。
1) 線形プール — 3 本を比率で混合
重み w=(0.5,0.3,0.2)w=(0.5,\,0.3,\,0.2) なら zt=0.5f1+0.3f2+0.2f3z_t=0.5f_1+0.3f_2+0.2f_3。銘柄 A だけ切り出すと
zt,A=0.51+0.30.5+0.20.2=0.69.z_{t,A}=0.5\cdot1+0.3\cdot0.5+0.2\cdot0.2=0.69.
同様に zt,B=0.24z_{t,B}=0.24, zt,C=0.48z_{t,C}={-}0.48。つまり 各銘柄スコアは 3 候補の加重和 で、ベクトル ztz_t がその日の ランキング素材 です。
2) ラベル yty_t, MSE, L1 の役割
yty_t を所定ホライズンの実現リターンとすると、損失の第 1 項は ztz_tyty_t の二乗誤差を時系列×銘柄で平均したイメージです。外れが大きいと ww が更新されます。
λw1\lambda\|w\|_1 があると、寄与の小さい wkw_k から まず 0 に押され、対応する fkf_k がプールから 丸ごと落ちることがあります。「ミキサに入れたが、検証したら要らないソースは捨てる」イメージです。
3) IC — 1 日分の「順位が合ったか」
ztz_t で付けた順位と yty_t で付けた順位が近いとピアソン相関 σ(g(Xt),yt)\sigma(g(X_t),y_t)正に。0.08 なら「その日はまあまあ」程度。複数日平均 σˉ\bar{\sigma} が 0.02 付近より 0.06 付近の方が、ノイズを平均すると明らかに健全です。
4) PPO — 1 ステップの直感
方策が トークンを少し変えた新しい式 を提案するとプールと IC が変わり、それを報酬 rr にできます。rt(θ)r_t(\theta) は新・旧方策の確率の変わり過ぎを表し、クリップは一度の更新で振れ幅を抑える 安全装置 です。
5) 推論(デプロイ)
事前学習(と短い RL)の後は、新しい XtX_t のたびに 巨大な GP 探索を毎回ゼロから回すより、順伝播で式を出してプールに載せる運用に近く、遅延が下がるイメージです。
一行: プール=混合、L1=不要因子を捨てる、IC=順位の答案用紙、PPO=方策更新のシートベルト
[実験と結果]
- 探索効率: 強いベースラインより 少ない候補生成 で CSI300/CSI500 で IC・Rank IC がトップ帯——針穴を広げたのではなく 手が安定した
- 推論効率: 推論時に 大規模な逐次パラメータ更新が不要 というストーリー。
- 汎化: 合成生成器を 単一ではなくアンサンブル すると IC が伸びる;中国で事前学習したモデルを米 S&P500 にゼロショット でも戦えるという報告は、取引所ノイズだけでなく 時系列・演算の文法 が一部移っている可能性を示唆。
実務読み: GPU 時間を抑えつつ説明可能な因子が欲しいチームに、「合成事前学習+境界の効いた RL」は MLOps 的に魅力的な妥協点です。
[結論と限界]
実務への示唆(3 点以内)
1. ホワイトボックス: RPN/演算木はリスク部門に 式そのもの を渡しやすい。
2. 探索コスト削減: 文法の事前圧縮で 市場が変わるたびのコールドスタート を減らす。
3. E2E パイプライン: 生成→プール→IC→(任意)PPO で再現性とデプロイが単純化。
限界
- ハードウェア: GPU 前提は CPU のみのレガシー には合わない場合がある。
- レジーム: ゼロショットでも構造破壊後は 再学習・ドメイン適応 が要るかもしれない。
- ラベル: IC は 将来リターン定義とリーク管理 に敏感。

図解企画: 混沌探索 vs 制御された生成

左は試行の散布と IC 目標に届かないジグザグ経路 でコールドスタート探索を表現。右は 合成系列→事前学習→トークン生成→IC/プール一本パイプライン で AlphaFormer の E2E を表す。

従来: GP / RL 記号探索

データセットごとに広い探索から再開;候補が多くても IC は不安定。

累積効率IC試行 1試行 Nランダム探索過探索

提案: AlphaFormer

合成で文法を学び、少ない生成で IC が安定し、ゼロショット転移も視野に入る。

少数因子・高 IC累積効率IC事前学習生成試行 1試行 N
AlphaFormer は「市場が変わるたび記号探索をゼロから」を 文法の事前学習+クリップ付き RL 微調整 に置き換えます。プール・L1・IC・PPO は ミキサー・ハサミ・審査・シートベルト の役分担。GPU 依存とラベル品質を踏まえて PoC から段階導入が現実的です。