🦺 Safety Rope v20260502 Ablation v2 — 14 路完整比較

RoI Align cvat2 project 8 + 10 manifest_v3 (10120 train / 2681 val / 4560 test) 2026-05-02

📊 主要結論(TL;DR)

Best Test AP
0.9026
Best Precision (FP 最低)
0.8330
資料量
16K rows
模型變體數
10 + 6 zero-shot
三個關鍵發現:
  1. SigLIP HD aug 微贏成新冠軍 (AP 0.903) — photometric augment 對 ViT-base 大有幫助 (+5pp over no-aug);
  2. DINOv3 FP 最低 (283 個) — 對降誤報率最直接,雖 AP 微差 0.3pp;
  3. Photometric augment 效果跟 backbone 強相關:對 mobilenetv3 / CLIP 反而劣化(小模型已過配 aug),對 SigLIP-B 大有幫助(+5pp)。

📋 完整對照表(按 AP 排序)

Rank模型Backbone全圖外擴 X/Yt/YbAugtest_APF1PRFP
1SigLIP HD aug ⭐ 新冠軍vit_base_patch16_siglip_512512×5121.0/0.2/1.50.90260.83290.8180.849320
2DINOv3 ⭐ FP 最低vit_base_patch16_dinov31280×7201.0/0.2/1.5+ photometric0.89960.83380.8330.835283
3mobilenetv3 widex (X=1.5)mobilenetv3_large_1001280×7201.5/0.2/1.50.89840.83240.7900.879395
4mobilenetv3 HD ⭐ 主版mobilenetv3_large_1001280×7201.0/0.2/1.50.88980.84260.8310.854293
5mobilenetv3 HD noexp (X=0)mobilenetv3_large_1001280×7200.0/0.0/0.00.87760.83050.7900.876395
6mobilenetv3 HD augmobilenetv3_large_1001280×7201.0/0.2/1.5+ photometric0.86510.82410.8050.845347
7SigLIP HD (no aug)vit_base_patch16_siglip_512512×5121.0/0.2/1.50.85340.77370.7230.832538
8mobilenetv3 640mobilenetv3_large_100640²1.0/0.2/1.50.84500.81620.7500.895504
9CLIP @384 (no aug)vit_base_patch16_clip_384384×3841.0/0.2/1.50.81440.73290.6630.819704
10CLIP @384 augvit_base_patch16_clip_384384×3841.0/0.2/1.50.78680.72360.6860.766594

Zero-shot baselines(research agent 測量,不訓練)

MethodAPF1PR備註
SigLIP-2 base zero-shot crop0.77350.71530.6080.869由 research agent 測量
Qwen2.5-VL-3B zero-shot crop0.73700.73100.6570.8250.16s/image,可當 hard-neg sidecar
SigLIP-2 so400m zero-shot crop0.71000.71440.6230.837更大的 SigLIP-2 反而較差
CLIP zero-shot crop0.67300.66100.6030.732原始 baseline
SigLIP-2 base zero-shot mark0.59100.63300.5780.700全圖+紅框較差
CLIP zero-shot mark0.53200.58600.4480.846全圖+紅框最差

📈 訓練曲線

🎯 為什麼 photometric augment 對不同 backbone 效果相反?

Backbone無 aug AP+ photometric AP解讀
mobilenetv3-L0.8900.865-2.5 pp5M 小模型,原 jitter v2 已偏強,photometric 進一步增加難度但 patience=8 太早 stop
CLIP ViT-B/16 @ 3840.8140.787-2.7 pp低解析度(384²)下 photometric 干擾過大
SigLIP ViT-B/16 @ 5120.8530.903+5.0 pp解析度夠 + ViT 容量大,photometric 補了 generalization gap
DINOv3 ViT-B/16 @ 1280×7200.900N/A第一次跑就含 photometric,跟 mobilenetv3 HD 主版基本打平 (+0.6 pp AP)

🏆 主版選擇建議

用途推薦版本理由
降誤報率(你的痛點)DINOv3FP 283 全場最低(比主版少 10、比 SigLIP HD aug 少 37),P 0.833 最高
追求 max APSigLIP HD aug0.903 微贏;但 FP 320,比 DINOv3 多
輕量部署 (≤ 10MB ckpt)mobilenetv3 HD 主版5M params,AP 0.890 已非常強,對 RTSP 5fps real-time 最適合
研究比較 / 對照三版同存於 model_viewersafety_rope = HD 主版;切 safety_rope_p10 看 640 對照;切 safety_rope_v502 看 v502

🔬 推論時 Multi-scale ROI 集成(提案,未實測)

對每個 person bbox,用 N 個外擴比例(如 0.7×, 1.0×, 1.3×)做 RoIAlign → N probs per person → 集成。Backbone 只 forward 1 次,cost 幾乎不變。

沒有實測(要在 model_viewer 裡實作),但理論上跟 hard-neg mining 結合應再降 1-2 pp FP。

🎬 Hard Negative Mining(model_viewer 已實作)

在錄製紀錄頁加了「收集策略」radio:

用法:你站到鏡頭前真的沒掛繩、選 wrong + Mode B → 模型還誤判 correct 的 frames 全收集 → 重訓直接修 FP。預期 +3-5 pp Precision。

📦 R2 公開下載 + 線上比較

線上比較:ppe-demo.intemotech.com 切下拉切換 3 版 safety_rope。

🧠 Research Agent 補充建議

5090-2 自主 research agent (~/safety_rope_research/research_report.md) 還列出更多方向,本次未試但記下: