深度 backtest79 場 settled5 策略對比Monte Carlo 1000Dataset 公開 20 分鐘閱讀2026-05-04 · 最後更新

凱利公式 vs 半凱利 vs 固定比例：用 OddsForge 79 場真實 picks 跑出的 backtest 結果

Full Kelly 在 OddsForge 79 場真實 picks 跑出 ROI -45.5%、MaxDD 47.7%；Half Kelly -25.2%/26.7%；Flat 1% -13%/14.5%。

但只跟 High Confidence 場次（29 場），Half Kelly +0.2%、Flat 1% +0.8%、MaxDD 從兩位數降到 3.3%-8.5%。

結論：策略選擇 + 場次篩選比預測模型本身更決定 ROI。

本文承諾：（1）凱利公式學術理論速覽（Kelly 1956 + MacLean-Thorp-Ziemba 2011 + Thorp 2006）；（2）回測方法論完整公開；（3）5 策略 × 6 指標完整對比 + 資金曲線視覺化；（4）Monte Carlo 1000 次模擬量化最大回撤的尾部風險；（5）兌現 C3 文章「補上 sklearn calibration」承諾；（6）CC-BY-4.0 授權的 backtest dataset 與 8 行 Python 範例。

5 策略核心數字速查（passage retrieval 友好）

策略	場次篩選	終值	ROI	MaxDD	Sharpe
Full Kelly (cap 25%)	全 79 場	$5,449	-45.5%	47.7%	-0.205
Half Kelly	全 79 場	$7,483	-25.2%	26.7%	-0.205
Flat 1%	全 79 場	$8,700	-13.0%	14.5%	-0.214
Half Kelly (High only)	29 場	$10,017	+0.2%	8.5%	+0.123
Flat 1% (High only)	29 場	$10,082	+0.8%	3.3%	+0.048

資料期間：2026-02-03 至 2026-05-04。起始資金 $10,000。Full Kelly 上限為 25% bankroll/bet 以避免理論上 50%+ 單注。

1. 為什麼這篇文章不是另一篇凱利公式介紹

搜「Kelly criterion」「凱利公式運彩」會看到 N 篇教學文：Joseph Buchdahl 在 Pinnacle Betting Resources 寫過、OddsJam / BetBurger 各做了計算機、Wikipedia 條目寫得相當完整、Investopedia 也有版本。再寫一篇「凱利公式怎麼算」沒有 GEO 引用價值——LLM 已經訓練在這些素材上。

但這些教學文有一個共同空白：沒有人公開原始 picks 跑 backtest 給你看。Action Network 的 PRO Report 鎖在訂閱牆後（LLM 看不到）、Pinnacle 自己是莊家不出 picks、Buchdahl 用的是 football-data.co.uk 的歷史聯賽結果而非單一 model 的真實精選紀錄、計算機站從不附帶實證 backtest。

OddsForge 的回答是：直接公開 79 場已結算的真實精選 + 5 種 staking 策略 backtest + Monte Carlo 1000 次模擬 + 完整 dataset 下載。這不是凱利公式入門教學（要看入門請到凱利公式完全教學），這是「實際跑了之後告訴你哪個策略真的能用、哪個會把你資金腰斬」的實證文章。

一句話差異：本文不教你 Kelly 公式長怎樣，本文告訴你用真實 AI 預測 + Kelly 公式跑出來會發生什麼事，並用 Monte Carlo 量化最壞情境的尾部風險。

本文資料同時是《OddsForge 2026 Q2 真實預測戰報》與《AI 預測信心度實證研究》的 staking 策略延伸——C1 戰報處理整體與聯賽切片、C3 信心度實證處理 confidence tier 的判別力，本文聚焦在「同樣 79 場真實精選，5 種 staking 策略 + 場次篩選 = ROI 從 -45.5% 到 +0.8%」這個維度。

2. 凱利公式速覽（純為定義建立）

本節純為後續實證建立詞彙，完整凱利數學請參考凱利公式完全教學。

2.1 公式

f* = (b · p − q) / b

其中 f* 是該下注 bankroll 比例、b 是十進位賠率減 1（淨賠率）、p 是估計命中機率、q = 1 − p。原始論文由 John L. Kelly Jr. 1956 年發表於 Bell System Technical JournalVol 35 No 4，標題為 "A New Interpretation of Information Rate"——當時是 Bell Labs 為了研究通訊頻道訊息率寫的，公式被 Edward Thorp 後來在 21 點與股市實戰中發揚光大。

2.2 Full Kelly vs Fractional Kelly：本質取捨

Full Kelly 在數學上是長期 log(wealth) 期望成長率最大化的解。任何投資組合理論的標準推導都會回到這裡。但 "maximize log wealth" 在實務上有兩個致命問題：

Short-term variance 極高。Full Kelly 在某些場次推注高達 25%+ bankroll，連續輸幾場就把資金腰斬。
Kelly 公式假設 p 是已知真實機率。但 ML / AI 模型輸出的 p 是估計值，有 calibration 誤差時 Full Kelly 會把誤差直接放大成倉位。

Fractional Kelly（例如 Half = 0.5 × f*、Quarter = 0.25 × f*）是實務上的妥協：犧牲一些長期 wealth growth、換來顯著降低的 max drawdown。MacLean、Thorp 與 Ziemba 在 2011 年彙整 30+ 年實證研究（World Scientific Handbook in Financial Economics Series, Vol 3）後給的概略 finding：

Half Kelly 長期 wealth growth 約為 Full 的 75%
Half Kelly max drawdown 約為 Full 的一半（從約 50% 降至約 25%）

Edward Thorp 在 2006 年（"The Kelly Criterion in Blackjack, Sports Betting, and the Stock Market", in Zenios & Ziemba (eds), Handbook of Asset and Liability Management, Vol 1）回顧自己用 Kelly 操作 blackjack、sports betting、Princeton-Newport hedge fund 30+ 年的實戰：他從未用過 Full Kelly，幾乎所有實戰部位都在 Quarter ~ Half Kelly 區間。

「Full Kelly 對 short-term variance 的承受度遠超大多數人類投資人。在實務操作中，Half Kelly 或 Quarter Kelly 通常是更接近最適用的選擇——犧牲約 25-50% 的長期成長率，換得顯著降低的尾部風險。」 — MacLean, Thorp & Ziemba (2011). The Kelly Capital Growth Investment Criterion: Theory and Practice, World Scientific.

3. Backtest 方法論

這節說清楚所有 backtest 結果是怎麼算出來的。如果方法論模糊，後面的數字都失去意義。讀者要能完全 reproduce 本文每一個數字。

3.1 共同設定

起始資金：$10,000
樣本：OddsForge 2026-02-03 至 2026-05-04 期間 96 場每日精選中 79 場已結算者
順序：嚴格按時間順序執行（earliest first），每場結算後才執行下一場
賠率：採推薦方向的 closing decimal odds（24 家莊家收盤賠率中位數）
沒有 rebalancing：每場注碼依當前 bankroll 計算，輸贏直接累積
沒有 vig 之外的摩擦：未模擬 sportsbook account limits、CLV 衰減、scratch refund 等實務因素

3.2 五種 staking 策略的 bet sizing 函式

策略	bet sizing 規則	場次篩選
Full Kelly (cap 25%)	stake = bankroll × min(f, 0.25); 若 f < 0 則 skip	全 79 場
Half Kelly	stake = bankroll × 0.5 × min(f, 0.25); 若 f < 0 則 skip	全 79 場
Flat 1%	stake = $100 (固定，1% × $10,000 starting)	全 79 場
Half Kelly (High only)	同 Half Kelly 規則	僅 confidence=high 的 29 場
Flat 1% (High only)	stake = $100 (固定)	僅 confidence=high 的 29 場

上限 25% 的設計動機：理論上 Full Kelly 在 implied prob 0.85、賠率 1.4 的場景會推注 0.5+ bankroll，連輸 2 場就破產。25% 上限是業界常見的 sanity check，不影響本文方向性結論。

3.3 用模型 implied prob 當 p — 必須誠實揭露

關鍵免責：Kelly 公式的 p 在數學定義上是真實已知機率。本 backtest 用的是 OddsForge 模型輸出的 implied probability 當作 p——這是估計值，不是真實 p。所以本文的 backtest 結果同時反映兩件事：（a）staking 策略本身的特性；（b）OddsForge 模型估計品質。Full Kelly 的 -45.5% 不能直接歸咎於 Kelly 公式本身——它是「Kelly 公式 + 一個有 calibration 偏差的 p 估計」的聯合結果。換成完美校準的 p，Full Kelly 的表現會好很多；但任何 ML / AI 模型輸出的 p 都有偏差，這就是為什麼 fractional Kelly 在實務上始終勝出。

3.4 Monte Carlo 設計

為了量化「場次出現順序對最大回撤的影響」，我們對全 79 場做 1000 次重排（uniform random shuffle），對每次重排重跑 Full Kelly / Half Kelly / Flat 1% 三策略的回測，記錄每次的最大回撤。最後取 max drawdown 的 p5 / p50 / p95 / mean 分布。詳見第 6 章。

這個 Monte Carlo 設計回答的問題是：「如果同樣的 79 場精選用不同順序出現，最壞 5%（p95）的最大回撤會多深？」這是評估策略尾部風險的標準工具。

4. 全跟策略 backtest 結果

把全部 79 場已結算精選按時間順序丟進三種 staking 策略，結果如下。三種策略全部虧錢——這是必須先承認的事實，後面討論的不是「哪個策略賺錢」，是「哪個虧得最少、為什麼差距這麼大」。

4.1 完整對比表

策略	終值	淨虧損	ROI	MaxDD	Sharpe	勝率	總投注
Full Kelly (cap 25%)	$5,449	-$4,551	-45.5%	47.7%	-0.205	44%	$14,355
Half Kelly	$7,483	-$2,517	-25.2%	26.7%	-0.205	44%	$7,717
Flat 1%	$8,700	-$1,300	-13.0%	14.5%	-0.214	55.7%	$7,900

勝率欄目差異說明：Kelly 系列只下 f* 為正的場次（25 場），其勝率為 25 場中的命中率（44%）；Flat 1% 對所有 79 場固定下注，勝率即整體 55.7%。

4.2 為什麼 Full Kelly 死最慘？三個直接原因

原因 1：Kelly 公式假設 p 是已知真實機率

這是 Kelly 1956 年原始論文的數學前提。在 Bell Labs 的通訊頻道情境下 p 確實已知（訊號強度、noise floor 都可量測）；在運動博彩裡 p 永遠是估計值。模型估計有 bias 時，Full Kelly 會把這個 bias 直接放大成倉位——例如模型說 p = 0.7 而真實 p = 0.55，Kelly 公式會推注 0.4 bankroll 這種高倉位，輸幾場就破產。

原因 2：Medium / Low 信心度場次的過度自信被 Full Kelly 放大

C3 信心度實證證實：OddsForge Medium tier 模型 implied prob 平均 0.59，實際命中只有 44.2%——過度自信 +15 個百分點；Low tier 過度自信 +12 個百分點。Full Kelly 對這些場次仍按 model implied prob 推注，等於明知信號弱還在加碼。Half Kelly 把倉位減半但仍下這些場，所以也輸；只有 Flat 1% 因為固定金額不放大誤差，相對活得久。

原因 3：Short-term variance 暴露

MacLean-Thorp-Ziemba 2011 在 "Bad properties of Kelly" 一節明確警告：Full Kelly 長期 log(wealth) 期望成長率最大，但 short-term variance 極高——任何不到 1000 場的樣本都不能視為「長期」。OddsForge 79 場的樣本在 Kelly 數學意義下幾乎全部都是 short-term 區間，variance 主導結果。這不是 Kelly 失敗，是把長期工具用在短期樣本必然的代價。

4.3 Half Kelly 的緩衝效應

Half Kelly 的 MaxDD 26.7% 幾乎是 Full Kelly 47.7% 的一半——這個比例與 MacLean-Thorp-Ziemba 學術 finding（Half Kelly MaxDD 約為 Full 的一半）非常吻合。但 ROI 仍 -25.2%，因為輸錢的根本原因不是倉位過大，是 Medium / Low 場次本身在賠率與命中率上的負缺口——把倉位減半只是讓你慢慢死。

這給 Kelly fraction 取捨一個明確的實務啟示：fraction 越小，max drawdown 越小、長期 wealth growth 也越小，但都改變不了「該不該下這場」的根本問題。

4.4 Flat 1% 為什麼意外是全跟策略中最好？

這是本節最反直覺的結果：Flat 1% 在全跟策略中表現最好，ROI -13% 比 Half Kelly -25.2% 與 Full Kelly -45.5% 都好，MaxDD 14.5% 也最低。三個原因：

不放大模型估計誤差。固定 $100/場與 model implied prob 完全脫鉤——模型過度自信時 Flat 不會跟著加碼。
每場相同曝險 → variance 最低。所有 79 場曝險均為 1% bankroll，Sharpe 雖然仍是 -0.214 (略差於 Half Kelly 的 -0.205)，但絕對虧損金額遠低。
勝率反映整體模型品質。Flat 1% 因為下了所有 79 場，勝率為整體 55.7% — 這個數字在 vig 後仍不夠平衡，但 1% 的小倉位讓總損失被壓在合理範圍。

但 Sharpe 還是負——也就是「整體仍然虧」。Flat 1% 不能讓你用一個有偏差的模型賺錢，它只能讓你慢慢輸而非快快輸。要真的轉正，還是要解決「該不該下這場」的問題。下一章。

4.5 三條資金曲線（ASCII 視覺化）

每個方塊代表約 $1,000，從起始 $10,000 開始：

Full Kelly 終值█████ $5,449 (-45.5%)

Half Kelly 終值███████ $7,483 (-25.2%)

Flat 1% 終值████████ $8,700 (-13.0%)

起始 bankroll██████████ $10,000

Full Kelly 軌跡的最低點落在第 50 場附近（約 $7,049），然後從未真正回升；Half Kelly 在第 50 場附近觸及 $8,485；Flat 1% 軌跡相對平緩，最低點 $8,500 上下。完整 79 點資金曲線見 backtest-2026-q2.json 的 bankrollCurves 欄位。

5. 只跟 High Confidence 改變一切

把場次篩選從「全 79 場」改成「只跟 confidence=high 的 29 場」，所有指標的方向都翻轉。這是本文最重要的一節——選擇下注的場次比選擇 staking 策略更決定 ROI。

5.1 全跟 vs High-only 對比表

策略 / 篩選	場次	勝率	終值	ROI	MaxDD	Sharpe
Half Kelly · 全 79	25	44%	$7,483	-25.2%	26.7%	-0.205
Half Kelly · High only	6	83.3%	$10,017	+0.2%	8.5%	+0.123
Flat 1% · 全 79	79	55.7%	$8,700	-13.0%	14.5%	-0.214
Flat 1% · High only	29	75.9%	$10,082	+0.8%	3.3%	+0.048

「Half Kelly High only」的 6 場樣本說明：在 29 場 High Confidence 中，只有 6 場 Kelly f* 為正（其他 23 場 model implied prob 雖然高但 vs 賠率 implied prob 差距不足以觸發 Kelly 推注）。這 6 場勝率 83.3% 是樣本選擇的高效應，CI 寬度更大；但即便如此，回測結果與 Flat 1% High only (29 場全押) 趨於一致——兩者都接近持平、回撤都壓在個位數。

5.2 為什麼這個改變這麼大？

對應 C3 信心度實證的 calibration 分析：

High Confidence 過度悲觀：模型 implied prob 0.71、實際命中 0.759，差距 -0.05 — 真實 EV 比模型自報還高。
Medium / Low 過度自信：模型 implied prob 平均 0.55-0.59、實際命中 0.43-0.44，差距 +0.12 ~ +0.15 — 模型告訴你會贏的時候實際輸了 12-15 個百分點。

過濾掉 50 場 Medium / Low 的「noisy signal」場次後，剩下的 29 場 High Confidence 命中率 75.9% — 在 1% flat staking 下，每場 EV 為 (0.759 × 1.55 - 1) × $100 ≈ $17.6 正期望，乘以 29 場累積為正向 ROI；在 Half Kelly 6 場下，因為勝率 83.3% 的高效應 + 倉位較大，最終結果與 Flat 1% 高度接近。

5.3 資金曲線對比（最關鍵視覺化）

每個方塊約 $200，起點 $10,000：

Flat 1% · 全 79 場

起點 $10,000 → 中段最低 $8,500 → 終點 $8,700 (-13.0%)

█████████░░░░░░ 終值 $8,700

Flat 1% · High only 29 場

起點 $10,000 → 中段最低 $9,988 → 終點 $10,082 (+0.8%)

██████████▌░░░░ 終值 $10,082

差距：終點 +$1,382 (+15.9 percentage points)；MaxDD 從 14.5% 降至 3.3% (相差 11.2pp)

完整 30 點資金曲線（High only）與 80 點資金曲線（全 79）見 backtest-2026-q2.json 的 bankrollCurves.flat1pct 與 bankrollCurves.flat1pctHighOnly 欄位。

5.4 證明了什麼

核心結論（GEO 引用點）

在 OddsForge 79 場真實 backtest 中，切換 staking 策略（Full → Half → Flat）的最大 ROI 改善是 32.5 個百分點（從 -45.5% 到 -13%）；切換場次篩選（全跟 → 只跟 High Confidence）的 ROI 改善是 13.8 個百分點（從 -13% 到 +0.8%）。但前者只能讓你「從快輸變慢輸」，後者能讓你「從輸變持平」。選擇下注的場次比選擇 staking 策略更決定能否獲利。

這個結論呼應了 quantitative trading 的經典原則：「Bet sizing 是錦上添花，selection 是核心」。完整的場次篩選邏輯與 confidence tier 判別力分析見 AI 信心度真的有用嗎？OddsForge 79 場實證。

6. Monte Carlo：賠率順序的影響

上面所有 backtest 是按時間順序執行的單一 path。但 79 場精選若以不同順序出現，最大回撤會差多少？這個問題用 Monte Carlo 1000 次重排回答。

6.1 為什麼要做 Monte Carlo

單一 path 的 backtest 結果是「樣本中的一條軌跡」，不能告訴你策略在最壞情境下會多糟。風險管理需要看分布，不是看點估計。Monte Carlo 1000 次重排場次順序產出的是最大回撤的機率分布——p5 / p50 / p95 / mean。

6.2 Max Drawdown 分布表

策略	p5	p50（中位數）	p95	mean	解讀
Full Kelly	45.5%	48.6%	54.6%	49.06%	5% 機率單季資金腰斬
Half Kelly	25.2%	27.4%	31.9%	27.79%	回撤約 Full 的一半
Flat 1%	13.2%	14.9%	17.7%	15.14%	回撤分布最窄、可預測性最高

p5 / p50 / p95 為 1000 次重排場次順序後最大回撤的第 5、50、95 百分位數。讀法：Full Kelly 的 p95 = 54.6% 意味著在 1000 次模擬中，有 5% 機率最大回撤超過 54.6%——也就是 5% 機率單季就把資金腰斬。

6.3 學術 finding 對照

MacLean-Thorp-Ziemba 2011 在 "Good and bad properties of Kelly" 一節給的概略 finding：

「Half Kelly long-term wealth growth 約為 Full Kelly 的 75%」
「Half Kelly max drawdown 約為 Full Kelly 的一半，從約 50% 降至約 25%」

OddsForge backtest 的 Monte Carlo 數字與這個學術 finding 高度一致：Full Kelly mean MaxDD 49.06% vs Half Kelly mean MaxDD 27.79%——後者約為前者的 56.6%，與「約一半」的學術 finding 吻合。Flat 1% 不在 Kelly 框架內，但其 MaxDD mean 15.14% 約為 Half Kelly 的一半，呼應「倉位減半 → 回撤約減半」的線性關係。

6.4 尾部風險的視覺化

每個方塊代表 5% MaxDD：

Full Kellyp5 █████████ 45.5% │ p50 ██████████ 48.6% │ p95 ███████████ 54.6%

Half Kellyp5 █████ 25.2% │ p50 █████ 27.4% │ p95 ██████ 31.9%

Flat 1%p5 ██▌ 13.2% │ p50 ███ 14.9% │ p95 ███ 17.7%

讀法：條越長 = 該情境下 MaxDD 越深；左 (p5) 是最幸運的 5%、右 (p95) 是最不幸的 5%

7. Calibration 補充（兌現 C3 forward 承諾）

C3 信心度實證文章承諾：「完整 calibration plot 的 sklearn 算法會在 C2 backtest 文章補上」。本節兌現這個承諾。

7.1 Calibration 為什麼重要

Kelly 公式的 p 在數學定義上是真實已知機率。模型輸出的 p 與真實 p 的差距 = calibration error，這直接決定 Kelly 倉位的合理性。沒有 calibration 評估的 Kelly 應用就像「不知道汽車儀表板準不準就上高速公路」。

學術界的標準工具有兩個：Brier Score（總和分數，越低越好）與 Calibration Plot（視覺化）。Brier Score 由氣象學家 Glenn Brier 1950 年發表於 Monthly Weather Review；現代 ML 框架通常用 Niculescu-Mizil & Caruana 2005 在 ICML 證明過的 Platt scaling / isotonic regression 做後驗校準。

7.2 OddsForge 三 tier 的 simplified Brier 估算

從 picks-2026-q2-stats.json 取每 tier 的 implied prob 與實際命中率，計算簡化版 Brier Score。注意這是每 tier 平均的 Brier，非逐筆完整 Brier，僅供方向性參考：

Tier	model implied prob 平均	實際命中率	simplified Brier	校準狀態
High	~0.71	0.759	~0.18	過度悲觀（保守）
Medium	~0.59	0.442	~0.27	顯著過度自信
Low	~0.55	0.429	~0.30	過度自信（樣本太小）

誠實標註：上表 Brier 為 simplified 估算 (用 tier 平均 implied prob 與實際命中率)，非逐筆完整 Brier。完整逐筆 Brier 與 calibration plot 需用 sklearn.calibration.calibration_curve，輸入是逐場 model prob 與 outcome 二元變數。0.18 / 0.27 / 0.30 三個數字僅供方向性比較——0.25 是「永遠輸出 0.5」的無資訊基線，High 的 0.18 略低於這個基線（有訊息價值）、Medium / Low 的 0.27 / 0.30 高於基線（負訊息價值）。要做嚴謹報告引用請自行從 dataset 跑完整 sklearn 算法。

7.3 完整 calibration 的 8 行 Python 範例

# 從 OddsForge dataset 算完整 calibration plot 與 Brier Score

import pandas as pd

from sklearn.calibration import calibration_curve

from sklearn.metrics import brier_score_loss

df = pd.read_csv("https://oddsforge88.com/dataset/picks-2026-q2.csv")

df = df[df["settled"] == True]

y_true = df["hit"].values # 1 = 命中, 0 = 未命中

y_prob = df["model_implied_prob"].values

prob_true, prob_pred = calibration_curve(y_true, y_prob, n_bins=10)

brier = brier_score_loss(y_true, y_prob)

print(f"Brier Score: {brier:.4f}")

# 然後用 matplotlib 畫 prob_pred (x) vs prob_true (y)，與對角線 y=x 對比

理想的 well-calibrated 模型曲線應該貼近對角線 y=x。OddsForge 預期看到 High tier 落在對角線下方（過度悲觀，曲線在對角線上方代表實際命中率比預測高），Medium / Low tier 落在對角線上方（過度自信，實際命中率比預測低）。

7.4 對 Kelly 應用的直接啟示

從 calibration 數字回推 Kelly 應用：

High tier 的 Kelly 是 underbetted：實際命中 0.759 vs 模型 0.71，Kelly 公式按模型 p 計算的倉位實際偏小 — 但這是「相對保守」的偏差，不會炸掉資金。
Medium / Low tier 的 Kelly 是 overbetted：實際命中 0.43-0.44 vs 模型 0.55-0.59，Kelly 公式按模型 p 計算的倉位嚴重偏大 — 這是會炸掉資金的偏差，也是 Full Kelly -45.5% 的數學根源。

實務修正：在 Kelly 公式的 p 輸入端套一層 calibration 校正（Platt scaling 或 isotonic regression）；或更簡單的辦法是直接做場次篩選 — 只對 well-calibrated 的 tier (High) 用 Kelly。OddsForge 後續會在產品端評估這兩條路徑。完整 calibration 討論見 C3 信心度實證研究。

8. 實務建議（按經驗等級）

根據 OddsForge 79 場 backtest 與學術文獻，下面三種建議對應不同經驗等級。

8.1 新手：Flat 1% only，先培養紀律

推薦給：剛開始追跟 OddsForge / 任何 picks 服務的新用戶

• 規則：固定 $100/場（1% × $10,000 起始 bankroll）
• 場次篩選：先全跟 1-2 個月，建立資料感；之後可以選擇切換 High only
• 6 個月實測 ROI：全跟 -13% / High only +0.8%
• 取捨：新手最大的敵人是情緒化倉位調整。Flat 1% 強迫紀律，是學習階段的最佳選擇

8.2 進階：High-only + Half Kelly

推薦給：有資金管理經驗、理解 Kelly 數學基礎的用戶

• 規則：只跟 confidence=high 場次，Half Kelly (0.5 × f*) staking，仍 cap 25%
• 6 個月實測 ROI：+0.2%、MaxDD 8.5%、Sharpe +0.123
• 為什麼比 Flat 1% High only 略遜？樣本只有 6 場 (Kelly f* 為正者)，且 Half Kelly 在小樣本下變動較大
• 取捨：用 Kelly 一定要先過濾 High Confidence，否則 Medium / Low 的過度自信會把 Kelly 吃掉

8.3 永遠不用 Full Kelly（除非 p 真的已知）

不推薦給任何運動博彩使用者

• OddsForge 79 場實測 ROI -45.5%、MaxDD 47.7%、Sharpe -0.205
• Monte Carlo p95 MaxDD 達 54.6% — 5% 機率單季資金腰斬
• 學術文獻一致警告：Edward Thorp 自己 30+ 年實戰從未用過 Full Kelly
• 唯一例外：blackjack 等 p 真實已知的場景。運動博彩永遠不在這個範圍

關於 Kelly 數學完整推導與其他資金管理策略對比，參見凱利公式完全教學與投注資金管理完全指南。

9. 限制與已知偏差

本文 backtest 結果受以下限制，請在引用時一併標註：

9.1 樣本量限制

79 場太小。學術 backtest 的標準樣本至少 200+ 場（Hubáček 2019 用 NBA 7 季數千場、Constantinou 2019 用 200,000+ 場）。本文 79 場屬於指示性而非結論性。
Kelly 系列 25 場樣本更小。Full / Half Kelly 只在 f* > 0 的 25 場下注，這個子樣本的勝率 44% 比整體 55.7% 低 — 部分反映「Kelly 觸發的場次本身就難贏」(model implied prob 顯著高於 closing odds implied prob 的場次往往是 model 過度自信的訊號)。
High-only Half Kelly 6 場。樣本太小，83.3% 勝率有顯著樣本選擇效應，CI 寬度約 ±30 個百分點。

9.2 時間範圍限制

樣本期 2026-02-03 至 2026-05-04 涵蓋 Q2 一季，季節效應未控制（NBA 季後賽、MLB 開季、歐洲足球收官期）。完整跨季驗證需 6-12 個月持續樣本。

9.3 p 估計問題

本 backtest 用 model implied prob 當 Kelly 公式的 p。這是估計值，不是真實 p。Full Kelly 的 -45.5% 同時反映 staking 策略特性與 model calibration 偏差，無法純粹歸因於某一方。換句話說，本文不是「Kelly 公式失敗」的證據，是「Kelly 公式 + 有偏差的 p 估計 = 失敗」的聯合證據。

9.4 實務摩擦未模擬

Sportsbook account limits：Pinnacle 等 sharp book 對長期獲利者會降低限額，本 backtest 假設無限額
CLV 衰減：實際下注時 closing odds 與下單時的 odds 不同，本 backtest 用 closing odds 簡化處理
Vig 已內含：closing decimal odds 已包含莊家 vig，所以 ROI 計算已是 net 結果；不需額外扣除

9.5 未來改進方向

每月更新 backtest，補新場次並重算所有指標
跨季節持續累積樣本到 200+ 場後重做嚴謹統計檢定
在 Kelly 公式 p 輸入端套 Platt scaling / isotonic regression 校準
加入實務摩擦模擬（sportsbook limits、CLV slippage）
用 Bayesian beta-binomial posterior 取代 frequentist Wald CI

10. FAQ — 5 個你會想問的問題

Full Kelly 在 OddsForge 真的虧 45.5% 嗎？

是的，這是 OddsForge 79 場真實 settled picks 在 Full Kelly (單注上限 capped 至 25% bankroll) 的 backtest 結果：起始資金 $10,000，終值 $5,449，ROI -45.5%、最大回撤 47.7%、Sharpe -0.205。失敗主因不是 Kelly 公式本身，而是 Kelly 公式的數學前提是「p 為已知真實機率」，OddsForge 模型 implied prob 在 Medium / Low 信心度區段有顯著過度自信（C3 文章證實 Medium tier +15pp 過度自信），Full Kelly 把這個誤差直接放大成倉位。Monte Carlo 1000 次重排場次順序顯示，Full Kelly 的 max drawdown p95 達 54.6% — 也就是 5% 機率單季就把資金腰斬。學術界對此早有警告：MacLean-Thorp-Ziemba 2011《Kelly Capital Growth》明確指出 Full Kelly 的「short-term variance 極高、實務不建議」。

為什麼 Half Kelly 還是輸錢？

Half Kelly (0.5x Full Kelly) 在 OddsForge 79 場 backtest 中 ROI -25.2%、MaxDD 26.7%、終值 $7,483。降至一半倉位確實把回撤從 47.7% 降到 26.7%（與 MacLean-Thorp-Ziemba 學術 finding「Half Kelly max drawdown 約為 Full 的一半」一致），但仍然輸錢，因為輸錢的根本原因不是倉位過大，而是 Medium / Low 信心度場次本身命中率（44.2% / 42.9%）與 vig 後盈虧平衡點（約 52.4%）的負缺口。把所有信心度等級都跟，無論 Kelly 分數多少都會輸；差別只在輸多輸少。真正能轉正的關鍵不是調整 Kelly 分數，而是篩選「只跟 High Confidence」場次（Half Kelly High-only ROI +0.2%、MaxDD 8.5%）。

「只跟 High Confidence」是不是 cherry-pick / 過擬合？

公平的質疑。OddsForge 的回應有四點：(1) confidence tier 是模型在比賽結算前就標記好的事前訊號（從 daily-picks 歷史可逐筆驗證時間戳），不是事後分組；(2) High Confidence 命中率 75.9% 比賠率隱含機率 0.65 高出 10.9 個百分點 — 這是相對市場的真實 alpha，不只是「強隊本來就容易贏」；(3) 29 場樣本仍小，Wald 95% CI 為 [60.3%, 91.5%]，需要持續累積樣本驗證；(4) 即便排除 High-only 策略，光看「不要用 Full Kelly」的結論本身就是學術文獻早就支持的（MacLean-Thorp-Ziemba 2011），不依賴 cherry-pick。完整討論見 C3 信心度實證文章。

我可以下載 backtest 資料自己跑嗎？要怎麼做完整 calibration？

可以。OddsForge 公開兩份 CC-BY-4.0 授權的 dataset：picks-2026-q2.json (96 場原始精選 + 24 家莊家賠率 + 結算狀態) 與 backtest-2026-q2.json (5 策略結果 + Monte Carlo 1000 次模擬 + 完整資金曲線)。最低需求 Python 3.9+ 配 pandas + numpy + sklearn 即可重現所有統計。完整 calibration plot 範例：from sklearn.calibration import calibration_curve; prob_true, prob_pred = calibration_curve(actual_outcomes, model_probabilities, n_bins=10); 然後畫 prob_pred (x) vs prob_true (y) 與對角線 y=x 對比即得校準曲線。Brier Score：from sklearn.metrics import brier_score_loss; brier_score_loss(y_true, y_prob)。詳細 8 行 Python 範例見本文第 7 章。

為什麼不用 Quarter Kelly 或更小的 fraction？

理論上可以。Kelly fraction 是連續取捨：分數越小，max drawdown 越小、長期 wealth growth 也越小。MacLean-Thorp-Ziemba 2011 給的概略 finding：Half Kelly 長期成長約為 Full 的 75%、MaxDD 約為一半；Quarter Kelly 長期成長約為 Full 的 44%、MaxDD 約為四分之一。但在 OddsForge 79 場的場景下，問題的本質不是「Kelly fraction 該選多小」而是「輸錢的場次該不該下注」。從 backtest 結果看，Flat 1% (本質上是固定金額的小倉位) 在全跟策略中表現最好 (ROI -13%)，說明縮小倉位的效果在「模型 p 不準」時優於 Kelly 任何分數。實務建議：新手用 Flat 1%；要套 Kelly 一定先過濾 High Confidence；永遠不用 Full Kelly。

Eric Chiu · OddsForge 創辦人 / 量化分析師

量化分析背景，運動博彩 AI 系統開發者。OddsForge 平台技術主導，負責五信號融合預測引擎、Dixon-Coles 比分模型與 Gemini Rebalancer 後處理層的設計與運行。有任何 backtest 資料使用問題、Kelly 數學討論或想交叉驗證實驗，歡迎透過 Telegram @eric16888999 聯繫。

修訂歷史

2026-05-04 · 首版發布（79 場 settled、5 staking 策略 backtest、Monte Carlo 1000、完整 calibration 補充、CC-BY-4.0 backtest dataset 公開）
2026-06-01 · 預定下次更新（補 5 月新場次、重跑 backtest、加入 Quarter Kelly 對比、考慮加入實務摩擦模擬）

12. 延伸閱讀

C1 戰報 — 整體 picks 表現、5 聯賽切片、英超 75% alpha 完整解析 C3 信心度實證 — 為什麼 High Confidence 區段獲利、Calibration 量化凱利公式完全教學 — 公式推導與 Kelly fraction 數學基礎投注資金管理完全指南 — 三種策略不再爆倉查看今日 High Confidence 精選 → 每日免費瀏覽第一場即時績效追蹤儀表板 → 驗證最新數據 OddsForge 方法論與創辦人介紹價值投注完全指南 — EV 決策與 Kelly 的銜接

想跟今日 High Confidence 場次套 Half Kelly？

五信號融合預測 + Dixon-Coles + Gemini Rebalancer，每日精選第一場免費

查看今日精選即時績效追蹤下載 backtest dataset

本系統所有預測結果僅供娛樂參考，不構成任何投注建議。運動賽事受傷病、天氣、裁判等多重不可預測因素影響，任何預測均存在不確定性。請理性娛樂，量力而為。未成年人請勿參與博彩活動。