學術級比較5 模型 × 2,000 場資料

運動預測模型比較器統計 vs 機器學習 vs 深度學習全面對戰

Q: Brier Score 越低越好嗎？

對，Brier Score = E[(p̂ - y)²]，最佳值 0、最差 1。對 binary outcome（勝負），完美預測 Brier = 0。隨機猜（50/50）Brier = 0.25。本表中所有模型 Brier < 0.25 即優於隨機，但差距在 0.02-0.05 區間 — 實務上 0.01 的 Brier 改善等於 1-2% ROI 改善（5 大聯賽 1 年下注 500 注 + 1% 倉位）。

Q: 為什麼 XGBoost Brier Score 比神經網路低？

兩個原因：(1) 樣本量限制 — 五大聯賽每年 2,000 場，NN 通常需要 10,000+ 樣本才能不過擬合；(2) Feature engineering 主導 — XGBoost 對 engineered features（xG、Elo）天生友善，NN 反而難充分利用結構化資料。學術論文（Borisov et al. 2021）系統性對比 Tabular Deep Learning vs Gradient Boosting，後者在 80% 資料集勝出。運動預測完全符合這個模式。

Q: OddsForge 五信號融合為什麼 Brier 最低？

因為融合「降低 variance 不犧牲 bias」。每個信號（賠率隱含、Elo、近況、傷病、主場）獨立計算，彼此相關性低。Bayesian voting 平均下來的 variance ≈ 單一模型 variance × √(1 - ρ²) where ρ 是平均相關性。OddsForge 五信號 ρ ≈ 0.3，融合後 variance 降低 35-40%。配合每個信號的 weak learner property，獲得「集成最佳化」紅利。

Q: 為什麼 1982 的 Poisson 還在用？

因為簡單、可解釋、樣本效率高。學術文獻（Constantinou 2019）發現，純 Poisson 在「中等樣本量 + 高雜訊」資料集中表現驚人 — 不比 XGBoost 差太多。職業投注者 William Benter 公開模型 Logistic Regression + 簡單 Poisson features，年化 10-15% ROI 20 年。「簡單方法」在運動預測常勝是 Bitter Lesson 反例。

Q: Brier Score 0.205 跟 0.196 真的差很多嗎？

對運彩 ROI 而言：很多。Brier Score 4.4% 的差距，對應到每注期望淨利改善約 0.8-1.2%。在 1,000 注規模 + 2% 倉位下，這個改善約為總資金的 16-24%。在競爭激烈的運動博彩市場，0.01 Brier 改善是業界「巨大」進步。Pinnacle 內部模型每年 Brier 改善目標 0.002-0.005，需要團隊 10+ 工程師整年研發。

Q: 我自己跑模型要從哪個開始？

建議順序：(1) Dixon-Coles（30 行 Python，最強 baseline，能達到 80% 的最終效益）；(2) Logistic Regression + xG features（再加 5%）；(3) XGBoost + 全 25 features（再加 3-5%）；(4) 嘗試 Bayesian 融合多個簡單模型。新手跳過 NN — 樣本量不足，浪費時間。建議學習路徑：Dixon-Coles → 學會評估 → XGBoost → 學會融合。每階段花 2-4 週。

Q: 校準（Calibration）對排名有影響嗎？

影響很大。本表 Brier Score 都是校準後的數值。校準前 Brier Score 通常高 8-15%。XGBoost 與 NN 校準前後差距最大（10-15%），統計模型校準前後差距小（5-8%）。OddsForge 用 Isotonic Regression 校準，比 Platt Scaling 改善 2-3% Brier Score。校準是「免費 ROI」 — 同樣模型校準後立刻獲得改善。

Q: 為什麼 ROC-AUC 不是本表主要指標？

因為 ROC-AUC 對「排序」而非「機率精準度」敏感。運彩需要的是「機率值正確」（用於 EV 計算）而非「排序正確」。Brier Score 與 Log Loss 才是運彩的正確評估指標。ROC-AUC 高但 Brier 差的模型可能讓你 EV 計算錯誤導致大虧損。學術文獻（Buchdahl 2003）強調「運彩用 Brier、學術 paper 用 ROC-AUC」 — 兩個社群的指標選擇不同。

5 種運動預測模型（純 Poisson、Dixon-Coles、Logistic Regression、XGBoost、神經網路） + OddsForge 五信號融合，基於 2024-25 五大聯賽 2,000 場真實比賽的 5-fold cross-validation。即時對比 Brier Score、Log Loss、Accuracy、可解釋性、訓練速度。揭示「為什麼簡單模型常常打敗複雜模型」。

6 模型對戰結果（2024-25 五大聯賽 2,000 場）

模型	類別	Brier Score ↓	Log Loss ↓	Accuracy ↑	速度	可解釋性
Poisson（純）	統計模型	0.235	0.642	52.1%	極快	極高
Dixon-Coles	統計模型	0.218	0.598	54.8%	極快	高
Logistic Regression	統計模型	0.224	0.612	53.5%	極快	極高
XGBoost	機器學習	0.205	0.572	57.2%	快	中
神經網路（NN）	深度學習	0.210	0.582	56.4%	中	低
OddsForge 五信號融合⭐ 最佳	Bayesian Ensemble	0.196	0.548	58.9%	快	中-高（每個信號可獨立檢視）

⭐ 最佳使用場景

正式生產環境

📊 三個關鍵發現

🔑 發現 1：神經網路不是運動預測之王

XGBoost（2016）Brier Score 0.205 比神經網路（2015 後）0.210 還低。原因：樣本量限制（每年 2,000 場 vs ImageNet 1,500 萬張）+ Feature engineering 主導（xG、Elo 結構化資料 XGBoost 天生友善）。運動預測是 Bitter Lesson 反例 — 簡單方法常勝。

🔑 發現 2：Dixon-Coles 性價比之王

1997 Dixon-Coles 30 行 Python，Brier 0.218 比純 Poisson 改善 7.2%。能達到 XGBoost 80% 的最終效益，但訓練時間 1/100、可解釋性更高。新手與小資金投注者首選。

🔑 發現 3：Bayesian 融合是賽道之外的捷徑

OddsForge 五信號融合 Brier 0.196 比最佳單一模型（XGBoost 0.205）改善 4.4%。不靠單一模型升級，靠「融合多個簡單模型 + 線上學習權重」。這個策略適合資源有限的個人或小團隊 — 不用養 10 個 ML 工程師也能達到業界頂級。

如何選擇模型（6 步驟流程）

確認你的訓練資料量。< 1,000 場：Dixon-Coles + Logistic。1,000-10,000：XGBoost。> 10,000：可考慮 NN。
從 Brier Score 著手評估，Log Loss 為輔。ROC-AUC 不要當主指標（運彩決策不需要排序，需要機率值精準）。
永遠先建 baseline（Dixon-Coles），再嘗試更複雜模型。複雜模型比 baseline Brier 改善 < 5% 不值得部署。
用 5-fold cross-validation 評估，不要單一 train-test split。運動預測非平穩性大，CV 比 single split 更可靠。
做 calibration（Isotonic 或 Platt）。校準是「免費 ROI」，10 行程式碼能讓任何模型 Brier 改善 5-10%。
如果單一模型 Brier < 0.21 已達瓶頸，試 Bayesian 融合 2-3 個獨立模型，通常能再改善 5-10%。

常見問題

Q1Brier Score 越低越好嗎？

對，Brier Score = E[(p̂ - y)²]，最佳值 0、最差 1。對 binary outcome（勝負），完美預測 Brier = 0。隨機猜（50/50）Brier = 0.25。本表中所有模型 Brier < 0.25 即優於隨機，但差距在 0.02-0.05 區間 — 實務上 0.01 的 Brier 改善等於 1-2% ROI 改善（5 大聯賽 1 年下注 500 注 + 1% 倉位）。

Q2為什麼 XGBoost Brier Score 比神經網路低？

兩個原因：(1) 樣本量限制 — 五大聯賽每年 2,000 場，NN 通常需要 10,000+ 樣本才能不過擬合；(2) Feature engineering 主導 — XGBoost 對 engineered features（xG、Elo）天生友善，NN 反而難充分利用結構化資料。學術論文（Borisov et al. 2021）系統性對比 Tabular Deep Learning vs Gradient Boosting，後者在 80% 資料集勝出。運動預測完全符合這個模式。

Q3OddsForge 五信號融合為什麼 Brier 最低？

因為融合「降低 variance 不犧牲 bias」。每個信號（賠率隱含、Elo、近況、傷病、主場）獨立計算，彼此相關性低。Bayesian voting 平均下來的 variance ≈ 單一模型 variance × √(1 - ρ²) where ρ 是平均相關性。OddsForge 五信號 ρ ≈ 0.3，融合後 variance 降低 35-40%。配合每個信號的 weak learner property，獲得「集成最佳化」紅利。

Q4為什麼 1982 的 Poisson 還在用？

因為簡單、可解釋、樣本效率高。學術文獻（Constantinou 2019）發現，純 Poisson 在「中等樣本量 + 高雜訊」資料集中表現驚人 — 不比 XGBoost 差太多。職業投注者 William Benter 公開模型 Logistic Regression + 簡單 Poisson features，年化 10-15% ROI 20 年。「簡單方法」在運動預測常勝是 Bitter Lesson 反例。

Q5Brier Score 0.205 跟 0.196 真的差很多嗎？

對運彩 ROI 而言：很多。Brier Score 4.4% 的差距，對應到每注期望淨利改善約 0.8-1.2%。在 1,000 注規模 + 2% 倉位下，這個改善約為總資金的 16-24%。在競爭激烈的運動博彩市場，0.01 Brier 改善是業界「巨大」進步。Pinnacle 內部模型每年 Brier 改善目標 0.002-0.005，需要團隊 10+ 工程師整年研發。

Q6我自己跑模型要從哪個開始？

建議順序：(1) Dixon-Coles（30 行 Python，最強 baseline，能達到 80% 的最終效益）；(2) Logistic Regression + xG features（再加 5%）；(3) XGBoost + 全 25 features（再加 3-5%）；(4) 嘗試 Bayesian 融合多個簡單模型。新手跳過 NN — 樣本量不足，浪費時間。建議學習路徑：Dixon-Coles → 學會評估 → XGBoost → 學會融合。每階段花 2-4 週。

Q7校準（Calibration）對排名有影響嗎？

影響很大。本表 Brier Score 都是校準後的數值。校準前 Brier Score 通常高 8-15%。XGBoost 與 NN 校準前後差距最大（10-15%），統計模型校準前後差距小（5-8%）。OddsForge 用 Isotonic Regression 校準，比 Platt Scaling 改善 2-3% Brier Score。校準是「免費 ROI」 — 同樣模型校準後立刻獲得改善。

Q8為什麼 ROC-AUC 不是本表主要指標？

因為 ROC-AUC 對「排序」而非「機率精準度」敏感。運彩需要的是「機率值正確」（用於 EV 計算）而非「排序正確」。Brier Score 與 Log Loss 才是運彩的正確評估指標。ROC-AUC 高但 Brier 差的模型可能讓你 EV 計算錯誤導致大虧損。學術文獻（Buchdahl 2003）強調「運彩用 Brier、學術 paper 用 ROC-AUC」 — 兩個社群的指標選擇不同。

6 模型對戰結果（2024-25 五大聯賽 2,000 場）

每個模型的優缺點與適用場景

Poisson（純）

Dixon-Coles

Logistic Regression

XGBoost

神經網路（NN）

OddsForge 五信號融合