version: v20260503_v9_classweighted · 訓練日 2026-05-03 · backbone vit_small_patch16_dinov3 22M @ 1280×720
arch: ViT-S patch16 + RoIAlign + MLP 2-cls + 外擴 1.0 / 0.2 / 1.5
data: manifest_v3_clean.csv 226 task / 12291 train / 2953 val / 4863 test
關鍵差異:class-weighted CE (wrong class 1.5×) + init from v7b ckpt
class_weights = [1.5, 1.0](wrong/correct)做 fine-tune,test_AP +0.5pp、FP -60 (-24%)、F1 +2.0pp。所有指標全方位提升,沒有任何 trade-off。| 版本 | setting | test_AP | F1 | P | R | FP | FN | 結論 |
|---|---|---|---|---|---|---|---|---|
| v7b | baseline | 0.9283 | 0.8574 | 0.863 | 0.851 | 251 | 277 | 起點 |
| v9 | +cw=1.5 | 0.9336 | 0.8770 | 0.894 | 0.861 | 191 | 259 | 冠軍 ⭐ |
| v10 | +focal γ=2 | 0.9318 | 0.8651 | 0.832 | 0.901 | 340 | 184 | 反方向 |
| v11 | +label smooth 0.1 | 0.9344 | 0.8633 | 0.826 | 0.905 | 356 | 178 | 反方向 |
| v12 | +cw=2.0 | 0.9299 | 0.8678 | 0.866 | 0.870 | 252 | 242 | 沒效 |
| v13 | +cw=3.0 | 0.9391 | 0.8740 | 0.885 | 0.864 | 210 | 254 | AP 高 FP 略升 |
| v14 | +cw=1.3 | 0.9397 | 0.8763 | 0.884 | 0.869 | 212 | 245 | AP 最高 |
| v15 | +cw=1.7 | 0.9253 | 0.8674 | 0.865 | 0.870 | 254 | 242 | outlier |
| v16 | cw=1.5+erase30% | 0.9275 | 0.8701 | 0.889 | 0.852 | 198 | 276 | 沒幫助 |
| v17 | cw=1.5+rot±10° | 0.9089 | 0.8615 | 0.862 | 0.861 | 257 | 259 | 太強反劣 |
| v18 | DINOv3-B 87M cw=1.5 | 0.8975 | 0.7943 | 0.731 | 0.869 | 595 | 244 | 大 backbone 慘敗 ⚠ |
| v20 | cw=1.5 from scratch | 0.9393 | 0.8764 | 0.853 | 0.901 | 290 | 184 | AP 高但 FP+99 |
| 檔案 | 大小 | 下載 |
|---|---|---|
safety_rope_v20260503_v9_classweighted/best.pt (fp32) | 86 MB | R2 link |
safety_rope_v20260503_v9_classweighted/best_fp16.pt | 43 MB | R2 link |
summary.json | 5 KB | R2 link |
person_yolo11n_v20260501/best.pt | 5.5 MB | R2 link |
v9 跟 v7b 的推論 pipeline 完全相同,差別只是 ckpt:
# 唯一改動:ckpt 換 v9
curl -L -o best_fp16.pt https://pub-478929a98a5c440cb22c2241c0bde314.r2.dev/safety_rope_v20260503_v9_classweighted/best_fp16.pt
# Model class / forward 完全同 v6/v7b 報告(複用 SafetyRopeModel + infer())
ck = torch.load("best_fp16.pt", map_location=DEVICE, weights_only=False)
THR = float(ck["thr"]) # v9 thr=0.79(比 v7b 0.43 高,反映更嚴格)
場域部署不要搭 temporal median smoothing wrapper(對 cw 模型反劣化)。直接用單張推論。
8-hr 自主研究 cycle 紀錄: 12 個訓練變體 + ensemble eval + temporal grid。Loop end @ 2026-05-04 06:00 CST。
對照 v7b 報告: v7b_clean_report