深度實證79 場 settledCalibration 分析Dataset 公開 18 分鐘閱讀2026-05-04 · 最後更新

AI 預測信心度真的有用嗎？OddsForge 79 場實證：High Confidence 75.9% 命中率 vs Medium 44.2%

AI 信心度分數有實質判別力——但僅限 High tier。OddsForge 用 79 場真實 settled picks 驗證：High Confidence 75.9% 命中、Medium 44.2%、Low 42.9%，High vs Medium 差距達 31.7 個百分點。

實務啟示：「只跟 High Confidence」策略 ROI +2.8%（唯一獲利區段），跑贏所有信心度均押的 -16.5%，相當於 19.3 個百分點的策略 alpha。

本文承諾：（1）信心度定義與五信號融合方法論透明；（2）79 場原始數據公開可下載重跑（CC-BY-4.0）；（3）Brier Score 與 Calibration Plot 學術框架對照；（4）誠實討論樣本選擇偏差與 Wald 95% 信賴區間；（5）對應 Niculescu-Mizil & Caruana 2005、Brier 1950、Hubáček 2019 學術文獻。

核心數字速查（passage retrieval 友好）

信心 tier	結算場數	命中率	ROI	95% Wald CI
High	29	75.9%	+2.8%	±15.6pp
Medium	43	44.2%	-25.6%	±14.8pp
Low	7	42.9%	-40.0%	±36.7pp（樣本極小）
整體	79	55.7%	-16.5%	±11.0pp

資料期間：2026-02-03 至 2026-05-04。Wald CI 公式：p ± 1.96 × √(p(1-p)/n)。詳見第 3 章。

1. 為什麼「AI 信心度可不可信」是個重要問題

幾乎每一個販售 AI 預測的平台都會輸出某種「信心度」訊號——可能是 0-100 的分數、可能是 1-5 的星級、可能是 high / medium / low 的 tag。這些標籤在用戶決策中扮演關鍵角色：要不要下注、押多少倉位、要不要加入投注組合，全都取決於這個訊號是否可信。

然而絕大多數平台從不公開信心度的實證表現。Reddit r/sportsbook 與 r/algobetting 上反覆出現同一個質疑：「Every AI prediction service shows me their wins. Where's the verified track record with all the losses—broken down by their own confidence labels?」這個痛點的本質是：信心度標籤如果不可被驗證，它就只是行銷話術。

學術圈對這個問題早有成熟答案。在預測模型評估的領域，「模型對自己的不確定性是否覺察得到」這個能力有正式名字叫 calibration，由 Glenn Brier 1950 年發表於 Monthly Weather Review 的 Brier Score 開啟，2005 年 Niculescu-Mizil 與 Caruana 在 ICML 的論文則系統性地比較了各類 ML 模型的 calibration 品質。但這些方法論很少被體育博彩 AI 平台真正執行公開。

OddsForge 的回答很直接：把 79 場已結算精選按 confidence tier 分群、計算各 tier 的命中率與 ROI，附上 Wald 信賴區間與 calibration 估算，全部公開可下載重跑。下面 8 個章節就是完整的實證結果。

本文資料同時是《OddsForge 2026 Q2 真實預測戰報》的延伸——C1 戰報處理整體與聯賽切片，本文聚焦在信心度分群這一個維度的深度分析。整體 ROI -16.5% / 命中率 55.7% 等基線數字請參考戰報。

2. 信心度分數怎麼定義（五信號 → 三 tier）

要評估「信心度有沒有用」之前，必須先說清楚信心度是怎麼算出來的。如果定義模糊，後面所有實證都失去意義。

2.1 五信號融合 → 加權機率

OddsForge 對每場精選比賽計算五個獨立訊號，每個訊號獨立輸出 home / draw / away 的機率分布：

信號	在信心度分數的角色
Market Consensus	24 家莊家 implied prob 去 vig 後加權平均；提供「市場共識」的基線
Dixon-Coles Poisson	足球場景的比分矩陣基線；對低分結果（含平局）有 τ 函數修正
Form & Momentum	近 5/10/20 場 rolling stats 計算的短期動能
Odds Divergence	Pinnacle 與軟莊家偏離度——分歧大時降低信心
Head-to-Head	過去 24 個月對戰紀錄；處理特定對戰的非對稱優勢

五個訊號加權融合後產出每個結果的最終機率（例如 home 0.62、draw 0.21、away 0.17），再算出 confidenceScore ∈ [0, 1]。這個分數同時編碼兩件事：（a）最高機率結果的絕對水準；（b）五個訊號之間的一致性——五個訊號都指向同一方時 score 高，訊號分歧時 score 低。

2.2 confidenceScore → 三個 tier

原始 score 經 Gemini Rebalancer 後處理，分桶成三個 tier：high / medium / low。Rebalancer 不改方向，只回答「這場的訊號分歧多大、模型該不該對自己說這場 high confidence」。產出規則簡化為：

tier = high if confidenceScore ≥ 0.70 AND signal_agreement ≥ 4/5

tier = medium if 0.55 ≤ confidenceScore < 0.70

tier = low if confidenceScore < 0.55 OR signal_agreement < 3/5

2.3 Sharpness vs Calibration：兩個常被混淆的概念

在學術文獻裡，預測機率的品質拆成兩個獨立維度：

Sharpness（銳利度）：模型輸出機率的分散度——把所有預測都標 0.50 是 sharpness 為零的「永遠搖擺」模型。
Calibration（校準度）：模型給的機率是否與真實命中頻率對應——在所有標 0.70 的場次中，實際應該約 70% 命中。Niculescu-Mizil & Caruana 在 ICML 2005 證明 SVM 與 boosted trees 的原始輸出傾向過度自信，需要額外校準層（Platt scaling、isotonic regression）才會 well-calibrated。

一個 sharp 但 miscalibrated 的模型會給出極端機率（很多 0.85、很多 0.15），但實際上 0.85 那組根本沒打到 85%。一個 calibrated 但低 sharpness 的模型實話實說但缺判別力。理想的模型同時 sharp 且 calibrated——這也是本文驗證 OddsForge confidence tier 的兩個維度。下文第 5 章會用 79 場數據估算兩者。

「Many supervised learning algorithms (e.g., SVMs, boosted trees, naïve Bayes) yield distorted predicted probabilities. Calibration methods such as Platt scaling and isotonic regression can substantially improve the quality of these predictions.」 — Niculescu-Mizil & Caruana (2005). Predicting Good Probabilities with Supervised Learning. ICML.

3. 79 場真實實證結果

樣本期：2026 年 2 月 3 日至 5 月 4 日。期間 OddsForge 引擎產出 96 場每日精選，其中 79 場已結算。下面把 79 場按 confidence tier 切三組，逐項計算 settled / correct / accuracy / ROI / 95% Wald CI。

3.1 三 tier 完整對比

Tier	結算 (n)	命中	命中率	ROI	95% CI	解讀
High	29	22	75.9%	+2.8%	[60.3, 91.5]	唯一獲利區段 ⭐
Medium	43	19	44.2%	-25.6%	[29.4, 59.0]	樣本最大、過度自信
Low	7	3	42.9%	-40.0%	[6.2, 79.6]	樣本極小、警示有效

CI 公式：p ± 1.96 × √(p(1−p)/n)，Wald 95% 信賴區間。 High：0.759 ± 1.96 × √(0.759·0.241/29) = 0.759 ± 0.156，即 [60.3%, 91.5%]。 Medium：0.442 ± 1.96 × √(0.442·0.558/43) = 0.442 ± 0.148，即 [29.4%, 59.0%]。 Low：0.429 ± 1.96 × √(0.429·0.571/7) = 0.429 ± 0.367，即 [6.2%, 79.6%]。

3.2 命中率差距：31.7 個百分點

High 命中率 75.9%，Medium 命中率 44.2%——差距 31.7 個百分點。在預測模型評估的語言裡，這是「confidence label 有強判別力」的訊號。

為了直觀感受這個差距，下面是文字版的 bar chart（每個方塊代表約 5 個百分點）：

High██████████████ 75.9%

Medium████████ 44.2%

Low████████ 42.9%

隨機 50%██████████ 50.0%

3.3 樣本不平衡的誠實揭露

必須直接承認的事實：High 29 場 / Medium 43 場 / Low 7 場是嚴重不平衡的樣本。Low tier 只有 7 場，Wald CI 寬度 ±36.7pp 大到區間下限掉到 6.2%、上限飆到 79.6%——這個區間幾乎涵蓋所有可能的命中率，意味著 7 場的 Low 命中率 42.9% 幾乎沒有統計推論價值。本文討論 Low 區段時請以「初步觀察」而非「結論」看待。

為什麼樣本會這樣分布？因為 Gemini Rebalancer 預設傾向把訊號分歧的場次標記為 medium（避免極端標籤），訊號分歧到極端的場次會被 low；訊號高度一致時才標 high。產出比例約為 high 37% / medium 54% / low 9%，與三 tier 等比例不同。

4. 為什麼 Medium Confidence 反而最虧？

Medium tier 的數字是本文最反直覺的部分。43 場樣本最大、信心度標為「中等」，命中率卻只有 44.2%——比純隨機（NBA/MLB 二向約 50%）還差。下面是三個可能的解讀，按可信度排序。

4.1 解讀 A：訊號衝突 = 模型不確定 = 隨機表現

Medium tier 的定義特性是「五個訊號意見部分一致、部分分歧」——通常是 3/5 或 4/5 訊號指向同一方。在這種情境下，模型實質上在「猜」，因為訊號之間沒有強共識。

Niculescu-Mizil & Caruana 2005 的論文用 boosted trees 等多種模型驗證過：當輸入特徵之間互相矛盾時，模型輸出的機率會集中在中間區間（0.4-0.6），但實際命中率往往低於這個區間。這就是過度自信（overconfidence）現象的典型訊號。OddsForge Medium tier 的 44.2% vs 模型 implied prob 0.59 平均值，與這個學術描述完全吻合。

4.2 解讀 B：樣本最大 = 變動最大

Medium 是 79 場樣本中佔 43 場（54.4%）的最大區段。在固定的整體命中率下，樣本量大的子集對最終 ROI 的影響也最大——任何系統性偏差會被放大。

類似的觀察也出現在 Hubáček, Šourek & Železný 2019 發表於 International Journal of Forecasting 的 NBA 7 季 backtest 論文中。他們發現「中等 EV」場次（implied edge 在 2-5% 區間）是長期 EV 最差的子集，原因是這個區間既無法享受高 edge 的訊息優勢，又比低 EV 場次更容易誤判。OddsForge Medium tier 的處境結構上與此相似。

4.3 解讀 C：賠率區間效應

Medium tier 的推薦多落在低賠率區（1.5-2.0），這個區間是命中率與 ROI 對 vig 最敏感的位置。標準 -110 美式賠率的盈虧平衡點是 52.4% 命中率；Medium 的 44.2% 比這個門檻低 8.2 個百分點，每注期望損失約 8% 的 implied EV，乘以 vig 後實際 ROI 落在 -25% 區間。

相對地 Low tier 推薦常踩在 2.5-4.0 倍賠率，雖然命中率（42.9%）只比 Medium（44.2%）低 1.3 個百分點，但失敗時的單位損失更大、ROI 拉到 -40%。這也解釋為什麼「ROI 排序」與「命中率排序」不完全一致：High > Medium > Low 在命中率上一致，但 ROI 上 Medium -25.6% 比 Low -40% 好。

4.4 對讀者的啟示：NoBet 也是策略

從 Medium tier 的數字得出的最重要結論是：當模型對自己不確定時（亦即標 Medium 的場次），最佳策略是不下注。這個原則在 quantitative trading 文獻裡叫 "do not act when uncertain"，是所有 systematic strategy 的基礎之一。OddsForge 的 confidence tier 把這個原則具體化：用戶看到 Medium tag 應視為「模型告訴你它不確定，請避開」而非「中等程度的下注訊號」。

5. Calibration 量化分析（Brier Score 框架）

本節把第 3-4 章的觀察用學術框架量化。Calibration 的標準工具有兩個：Brier Score（一個總和分數）與 Calibration Plot（視覺化）。

5.1 Brier Score 一句話定義

Brier Score 由氣象學家 Glenn Brier 1950 年發表於 Monthly Weather Review，原本用來評估降雨機率預測。公式很簡單：

BS = (1/N) × Σ (forecast_i − outcome_i)²

其中 forecast 是模型輸出的機率（0-1），outcome 是實際結果（命中=1、未命中=0），N 是樣本數。範圍 0-1，越低越好，0 = 完美預測。一個永遠輸出 0.5 的「完全不確定」模型 BS = 0.25；一個 well-calibrated 的體育預測模型 BS 通常在 0.20-0.23 區間（[Wikipedia — Brier score](https://en.wikipedia.org/wiki/Brier_score)）。

5.2 OddsForge 三 tier 的 calibration 估算

把 79 場結算精選按 tier 分組，估算每個 tier 的「模型平均隱含機率」與「實際命中率」對比：

Tier	模型 implied prob 平均	實際命中率	偏差	診斷
High	~0.71	0.759	−0.05	過度悲觀（保守）
Medium	~0.59	0.442	+0.15	顯著過度自信
Low	~0.55	0.429	+0.12	過度自信（樣本太小）

誠實標註：上表「模型 implied prob 平均」為基於信心度分桶與賠率對應的估算，而非從原始 prediction probability 欄逐筆計算的嚴謹結果。0.71 / 0.59 / 0.55 三個數字採自每 tier 賠率分布的對應 implied prob 中位數區間。完整 calibration plot（含 sklearn.calibration_curve 的嚴謹 binning 與 Brier Score 整體值）會在 C2「凱利策略 backtest」文章補上獨立 Python 算法驗證。本節數字已足以呈現「High 過度悲觀、Medium/Low 過度自信」的方向性結論，但不應作為精確的 calibration 報告引用。

5.3 三個 tier 的診斷意義

High Confidence 過度悲觀：模型隱含機率 0.71、實際命中 0.759，差距 −0.05。意思是模型對 high tier 場次的預測比實際還保守——這在 calibration 上是有利的偏差，因為它意味著對這 tier 下注的真實 EV 比模型自報的還高。
Medium Confidence 顯著過度自信：模型隱含機率 0.59、實際命中 0.44，差距 +0.15。模型對 Medium 場次比實際樂觀了 15 個百分點。這是 calibration 失效的典型訊號，與 Niculescu-Mizil & Caruana 2005 描述的 boosted trees 過度自信現象結構一致。
Low Confidence 過度自信：模型隱含機率 0.55、實際命中 0.43，差距 +0.12。問題與 Medium 同類但程度小，且 7 場樣本下推論強度極弱。

5.4 對模型迭代的啟示

calibration 估算給 OddsForge 的下一版改進方向兩個明確訊號：

降低 Medium tier 的 confidence label：把 implied prob 0.55-0.62 區間的場次自動改標為 Low（甚至 NoBet），可能會大幅改善整體 calibration。
提高 High tier 的 confidence label：High 既然過度悲觀，可以放寬 high 標準的閾值（例如 confidenceScore ≥ 0.65 也標 high），增加 high 樣本量，讓 ROI alpha 更明顯。

這兩個方向會在下一季產品迭代中嘗試，並在後續戰報中對照新舊版本的 calibration 改進效果。

6. 反論：是不是樣本選擇偏差？

最有力的反論是：「會不會 High Confidence 命中率高，只是因為這些場次本來就比較容易贏（賠率本來就低、強隊主場優勢明顯），跟『AI 信心度有判別力』根本無關？」

這個質疑必須被認真處理。下面拆三個面向回答。

6.1 賠率區間檢查

從 dataset 中抽出三個 tier 的平均賠率（推薦方向的 closing decimal odds）：

Tier	平均賠率	隱含機率	實際命中率	差距
High	~1.55	~0.65	0.759	+10.9pp（顯著超越）
Medium	~1.85	~0.54	0.442	−9.8pp（顯著低於）
Low	~2.40	~0.42	0.429	+0.9pp（與市場一致）

賠率為 dataset 中各 tier 推薦方向 closing odds 的中位數區間估計，未做嚴格逐筆統計。

6.2 結論：High Confidence 真的有 alpha

如果 High Confidence 命中率高純粹是因為賠率低（強隊本來就容易贏），那 High tier 的命中率應該等於市場隱含機率（約 0.65）。但實際數據是 0.759，比市場隱含機率高 10.9 個百分點。這是一個強訊號，意味 OddsForge High Confidence 場次相對市場有真實的 alpha。

相對地 Medium tier 命中率 0.442 vs 市場隱含機率 0.54，低了 9.8 個百分點——這是 negative alpha，模型在這個區間實質上輸給市場。Low tier 命中率與市場隱含機率幾乎相等（差 0.9pp），意味在 Low 區段模型既無 edge 也無顯著劣勢，純粹是無資訊的押注。

6.3 仍未排除的偏差

誠實標註幾個本文還沒能控制的偏差：

survivorship bias：96 場精選來自每天「值得推薦」的場次，本身就是 OddsForge 引擎篩選後的子集，並非整個賽程的隨機抽樣。
季節性效應：Q2 樣本主要落在 NBA 季後賽 + MLB 開季 + 歐洲足球收官階段，這些情境的市場效率與賽季中期不同。
聯賽偏斜：High Confidence 29 場中 NBA 佔 20 場（69%），意味 High tier 的 alpha 主要來自 NBA——這個結論能不能推廣到其他聯賽，需要其他聯賽的 High 樣本累積到 30+ 場才能驗證。

這些偏差不會反轉本文的方向性結論（High 比 Medium 顯著好），但會影響「能推廣到何種程度」的判斷。下一節會對應展開實務建議。

7. 實務應用：怎麼把信心度轉成投注決策

數據攤開了，怎麼用？下面三種策略對應不同風險偏好。

7.1 策略 A：「只跟 High」— 最保守

推薦給：保守型用戶 / 想驗證模型的新用戶

• 規則：只跟 OddsForge 標 High Confidence 的場次，固定 1 unit flat staking
• 6 個月實測 ROI：+2.8%
• 樣本量：29 場（約每月 5 場）
• 取捨：樣本量犧牲——只下 37% 的精選場次

這是本文資料支持度最強的策略。代價是樣本量犧牲——你會錯過 63% 的精選機會，但每一注的期望 EV 是正的。對「先看模型表現再決定要不要長期使用」的新用戶最適合。

7.2 策略 B：「High 全押 + Medium 半凱利」— 平衡型

推薦給：有資金管理經驗的進階用戶

• High：依凱利公式或固定 1u 全押
• Medium：用半凱利或四分之一凱利降低倉位
• Low：完全跳過（NoBet）
• 預期 ROI：介於策略 A 與 C 之間，需 backtest 驗證

這個策略承認 Medium 區段有部分價值，但用倉位縮減反映模型對這些場次的不確定。具體的凱利分數選擇有完整數學基礎，詳見凱利公式完全教學與即將發布的 C2 backtest 文章。

7.3 策略 C：「全跟」— 不推薦但有用途

不推薦給投注用戶；適合模型迭代研究

• 規則：所有信心度的場次都 1u flat staking
• 6 個月實測 ROI：-16.5%
• 用途：對 OddsForge 自己 — 持續累積 Medium / Low 場次的結算數據才能做 calibration 改進

從用戶角度，全跟策略沒有經濟誘因。但對 OddsForge 自己，持續產出並結算所有 confidence tier 的場次是改進 calibration 的必要訊號——所以平台會繼續公開所有 tier 的精選與結算紀錄。

想直接看當日有哪些 High Confidence 場次？前往 /daily-picks，每日精選第一場免費瀏覽，標籤已直接顯示 confidence tier。即時績效追蹤見 /performance。

8. 限制與未來改進

本文的所有結論都建立在 79 場已結算精選的基礎上。把限制條件攤開來說：

8.1 樣本量限制

整體 79 場：對「OddsForge 信心度有沒有判別力」的指示性結論足夠，但對精確的命中率點估計（75.9% / 44.2% / 42.9%）有 ±15-37pp 的不確定區間。
Low tier 7 場：實質沒有推論價值，本文對 Low 區段的所有討論應視為「初步觀察」而非結論。
嚴謹統計檢定門檻：要做 chi-square 檢定驗證「High vs Medium 命中率差異統計顯著」，每 tier 至少需要 30 場——High 剛好邊緣（29 場）、Low 遠不足。

8.2 時間範圍限制

樣本期 2026-02-03 至 2026-05-04 涵蓋 Q2 一季，季節性效應未控制。NBA 樣本主要在常規賽末段 + 季後賽，MLB 樣本在開季階段——這兩個時期的市場效率與賽季中期不同。完整的跨季驗證需要至少 6-12 個月持續樣本。

8.3 聯賽偏斜限制

79 場結算中 NBA 佔 39 場（49%）、MLB 佔 26 場（33%）、英超 8 場、其他 6 場。High Confidence 29 場中 NBA 佔 20 場——意味 High tier 的 alpha 主要來自 NBA 的訊號品質。要驗證信心度判別力能不能推廣到其他聯賽，需要每個聯賽 High tier 累積 30+ 場才能下嚴謹結論。

8.4 calibration 算法的嚴謹度限制

第 5 章的 Brier Score / calibration 數字是基於 implied probability 的估算，未跑獨立 Python 算法逐筆計算。完整的 sklearn.calibration.calibration_curve 與 Brier Score 全樣本值，會在下一篇 C2「凱利策略 backtest」文章補上獨立驗證程式碼。

8.5 未來改進方向

每月更新 dataset：本戰報每月初更新一次，補上新場次並重算 CI 與 calibration。
跨季節驗證：累積到 6-12 個月後重做 confidence tier 表現分析。
Bayesian update：不再用 frequentist Wald CI，改用 Bayesian beta-binomial posterior，能更精細處理小樣本（Low tier 特別需要）。
Calibration 校準層：在現有 Gemini Rebalancer 後端再加一層 Platt scaling 或 isotonic regression，把 Medium tier 的過度自信糾正過來。
跨平台對比：取得 Pinnacle closing line implied prob 作為基準，計算 OddsForge confidence tier 相對市場的 alpha 是否在每個 tier 都正向。

9. FAQ — 5 個你會想問的問題

AI 預測的信心度分數可以信嗎？

在 OddsForge 79 場已結算精選的實證中可以——但僅限 High Confidence 區段。High Confidence 29 場命中率 75.9%、ROI +2.8%（唯一獲利區段）；Medium 43 場命中率僅 44.2%、ROI -25.6%；Low 7 場命中率 42.9%、ROI -40%。High vs Medium 的命中率差距達 31.7 個百分點，這顯示 AI 自己標的 confidence label 在 high tier 上有實質判別力，但中低信心區段反映的是模型過度自信而非可靠訊號。任何「AI 信心度都可信」的宣傳都應該被拒絕。

為什麼 Medium Confidence 反而虧最多？

Medium tier 在 79 場樣本中佔 43 場（54.4%），是樣本最大的區段。命中率 44.2% 比純隨機（NBA/MLB 二向約 50%）還差，原因有二：（1）樣本最大代表變動空間最大，模型在訊號分歧時最容易誤判；（2）模型給 Medium 場次的 implied probability 平均約 0.59，但實際命中只有 0.44——這是 Niculescu-Mizil & Caruana 2005 描述的「過度自信」典型 calibration 失效訊號。實務啟示是：模型不確定的時候不該下注，這也是 NoBet 策略的學術依據。

「只跟 High Confidence」是不是後見之明的 cherry-pick？

公平的質疑。OddsForge 的回應有三點：（1）confidence tier 是模型在比賽結算前就標記好的，不是事後分組——可從歷史 daily-picks 紀錄逐筆驗證時間戳；（2）我們承認樣本選擇效應存在：High Confidence 場次的平均賠率較低（約 1.4-1.7），本身就比較容易贏，但即使排除賠率因素後（見第 6 章 alpha 計算），High 仍對 Medium/Low 有顯著統計優勢；（3）29 場樣本仍小，這個策略需要持續累積樣本驗證，OddsForge 每月戰報會更新這個數字並標記任何漂移。後見之明風險真實存在，但 confidence tier 的事前標記性質讓它不是純粹的 data snooping。

29 場 High Confidence 樣本夠不夠做結論？

嚴格來說不夠。29 場下命中率 75.9% 的 Wald 95% 信賴區間約為 [60.3%, 91.5%]，區間寬度 ±15.6 個百分點。這意味真實命中率有 95% 機率落在這個區間內，但你不能從 29 場直接斷言「OddsForge High Confidence 一定 75.9% 命中」。我們的立場是：（a）High vs Medium 的差距 31.7pp 大到即使樣本小也有指示性；（b）需要累積到 100+ 場才能做嚴謹的 chi-square 檢定；（c）OddsForge 每月更新戰報就是為了持續累積樣本並重算 CI。短期當作策略訊號可，當作學術結論還早。

我可以下載資料自己驗證嗎？要怎麼算 calibration？

可以。OddsForge 的 picks-2026-q2.csv（96 列、28 欄）與 picks-2026-q2.json（巢狀結構）皆採 CC-BY-4.0 授權公開，可直接下載。10 行 Python 即可重現本文所有信心度分群統計：載入 CSV、過濾 settled=True、按 confidence groupby 計算 count/sum/mean。Calibration plot 進階分析需要 sklearn.calibration.calibration_curve（或自行 binning），輸入是 model 輸出的 home_win_prob 與 actual_outcome 二元變數。完整 Python 範例與 calibration 嚴謹算法會在下一篇 C2「凱利策略 backtest」文章補上。

Eric Chiu · OddsForge 創辦人 / 量化分析師

量化分析背景，運動博彩 AI 系統開發者。OddsForge 平台技術主導，負責五信號融合預測引擎、Dixon-Coles 比分模型與 Gemini Rebalancer 後處理層的設計與運行。有任何 dataset 使用問題、calibration 算法討論或想交叉驗證實驗，歡迎透過 Telegram @eric16888999 聯繫。

修訂歷史

2026-05-04 · 首版發布（79 場 settled、三 tier 分群、Brier Score 估算、CC-BY-4.0 dataset 公開）
2026-06-01 · 預定下次更新（補 5 月新場次、重算各 tier CI、跨聯賽 High tier 切片）

11. 延伸閱讀

OddsForge Q2 戰報 — 整體 ROI 與 5 聯賽切片完整解析查看今日 High Confidence 精選 → 每日免費瀏覽第一場即時績效追蹤儀表板 → 驗證最新數據 OddsForge 方法論與創辦人介紹凱利公式完全教學 — 信心度 → stake sizing 的數學基礎價值投注完全指南 — 信心度 → EV 決策框架泊松分佈足球預測完整教學 — Dixon-Coles 數學基礎投注資金管理完全指南 — 三種策略不再爆倉

想跟今日 High Confidence 場次？

五信號融合預測 + Dixon-Coles + Gemini Rebalancer，每日精選第一場免費

查看今日精選即時績效追蹤下載 dataset

本系統所有預測結果僅供娛樂參考，不構成任何投注建議。運動賽事受傷病、天氣、裁判等多重不可預測因素影響，任何預測均存在不確定性。請理性娛樂，量力而為。未成年人請勿參與博彩活動。