🦺 Safety Rope v20260502 Ablation v2 — 14 路完整比較

RoI Align cvat2 project 8 + 10 manifest_v3 (10120 train / 2681 val / 4560 test) 2026-05-02

📊 主要結論（TL;DR）

Best Test AP

0.9026

Best Precision (FP 最低)

0.8330

資料量

16K rows

模型變體數

10 + 6 zero-shot

三個關鍵發現：

SigLIP HD aug 微贏成新冠軍 (AP 0.903) — photometric augment 對 ViT-base 大有幫助 (+5pp over no-aug)；
DINOv3 FP 最低 (283 個) — 對降誤報率最直接，雖 AP 微差 0.3pp；
Photometric augment 效果跟 backbone 強相關：對 mobilenetv3 / CLIP 反而劣化（小模型已過配 aug），對 SigLIP-B 大有幫助（+5pp）。

Rank	模型	Backbone	全圖	外擴 X/Yt/Yb	Aug	test_AP	F1	P	R	FP
1	SigLIP HD aug ⭐ 新冠軍	vit_base_patch16_siglip_512	512×512	1.0/0.2/1.5	—	0.9026	0.8329	0.818	0.849	320
2	DINOv3 ⭐ FP 最低	vit_base_patch16_dinov3	1280×720	1.0/0.2/1.5	+ photometric	0.8996	0.8338	0.833	0.835	283
3	mobilenetv3 widex (X=1.5)	mobilenetv3_large_100	1280×720	1.5/0.2/1.5	—	0.8984	0.8324	0.790	0.879	395
4	mobilenetv3 HD ⭐ 主版	mobilenetv3_large_100	1280×720	1.0/0.2/1.5	—	0.8898	0.8426	0.831	0.854	293
5	mobilenetv3 HD noexp (X=0)	mobilenetv3_large_100	1280×720	0.0/0.0/0.0	—	0.8776	0.8305	0.790	0.876	395
6	mobilenetv3 HD aug	mobilenetv3_large_100	1280×720	1.0/0.2/1.5	+ photometric	0.8651	0.8241	0.805	0.845	347
7	SigLIP HD (no aug)	vit_base_patch16_siglip_512	512×512	1.0/0.2/1.5	—	0.8534	0.7737	0.723	0.832	538
8	mobilenetv3 640	mobilenetv3_large_100	640²	1.0/0.2/1.5	—	0.8450	0.8162	0.750	0.895	504
9	CLIP @384 (no aug)	vit_base_patch16_clip_384	384×384	1.0/0.2/1.5	—	0.8144	0.7329	0.663	0.819	704
10	CLIP @384 aug	vit_base_patch16_clip_384	384×384	1.0/0.2/1.5	—	0.7868	0.7236	0.686	0.766	594

Method	AP	F1	P	R	備註
SigLIP-2 base zero-shot crop	0.7735	0.7153	0.608	0.869	由 research agent 測量
Qwen2.5-VL-3B zero-shot crop	0.7370	0.7310	0.657	0.825	0.16s/image，可當 hard-neg sidecar
SigLIP-2 so400m zero-shot crop	0.7100	0.7144	0.623	0.837	更大的 SigLIP-2 反而較差
CLIP zero-shot crop	0.6730	0.6610	0.603	0.732	原始 baseline
SigLIP-2 base zero-shot mark	0.5910	0.6330	0.578	0.700	全圖+紅框較差
CLIP zero-shot mark	0.5320	0.5860	0.448	0.846	全圖+紅框最差

Backbone	無 aug AP	+ photometric AP	差	解讀
mobilenetv3-L	0.890	0.865	-2.5 pp	5M 小模型，原 jitter v2 已偏強，photometric 進一步增加難度但 patience=8 太早 stop
CLIP ViT-B/16 @ 384	0.814	0.787	-2.7 pp	低解析度（384²）下 photometric 干擾過大
SigLIP ViT-B/16 @ 512	0.853	0.903	+5.0 pp	解析度夠 + ViT 容量大，photometric 補了 generalization gap
DINOv3 ViT-B/16 @ 1280×720	—	0.900	N/A	第一次跑就含 photometric，跟 mobilenetv3 HD 主版基本打平 (+0.6 pp AP)

用途	推薦版本	理由
降誤報率（你的痛點）	DINOv3 ⭐	FP 283 全場最低（比主版少 10、比 SigLIP HD aug 少 37），P 0.833 最高
追求 max AP	SigLIP HD aug	0.903 微贏；但 FP 320，比 DINOv3 多
輕量部署 (≤ 10MB ckpt)	mobilenetv3 HD 主版	5M params，AP 0.890 已非常強，對 RTSP 5fps real-time 最適合
研究比較 / 對照	三版同存於 model_viewer	`safety_rope` = HD 主版；切 `safety_rope_p10` 看 640 對照；切 `safety_rope_v502` 看 v502

對每個 person bbox，用 N 個外擴比例（如 0.7×, 1.0×, 1.3×）做 RoIAlign → N probs per person → 集成。Backbone 只 forward 1 次，cost 幾乎不變。

沒有實測（要在 model_viewer 裡實作），但理論上跟 hard-neg mining 結合應再降 1-2 pp FP。

在錄製紀錄頁加了「收集策略」radio：

全存（保險）：不過濾，跟之前一樣
⚡只存 model 答錯（hard-neg）：你選 correct + 模型判 wrong（FP 案例）OR 你選 wrong + 模型判 correct（FN 案例）才存
🤔只存 uncertain：模型 prob 0.4-0.6 不確定的 frame，補強決策邊界

用法：你站到鏡頭前真的沒掛繩、選 wrong + Mode B → 模型還誤判 correct 的 frames 全收集 → 重訓直接修 FP。預期 +3-5 pp Precision。

safety_rope_v20260502_p10_hd/best.pt ⭐ 主版（mobilenetv3 HD，5MB）
safety_rope_v20260502_p10/best.pt（640 對照）
safety_rope_v20260502/best.pt（舊版）
safety_rope_v20260502_p10_dinov3/best_fp16.pt ⭐ FP 最低（DINOv3 ViT-B/16, fp16 167MB）
safety_rope_v20260502_p10_siglip_hd_aug/best_fp16.pt ⭐ AP 最高（SigLIP-B/16 @512, fp16 168MB）
fp16 weights 推論時要 model.half()。fp32 原版 350MB 超 wrangler 300MB 限制，內部 5090-2/gx10 有。

線上比較：ppe-demo.intemotech.com 切下拉切換 3 版 safety_rope。

5090-2 自主 research agent (~/safety_rope_research/research_report.md) 還列出更多方向，本次未試但記下：

Multi-scale image augment — 跟 BBOX_SIZE_JITTER 重複，本次跳過
Random erasing / cutout — 模擬人被部分遮擋，未試
SAM 2.1 / SAM 3 prompt UX — 點一下 → mask → bbox → 既有 classifier，未實作（需要 demo 框架支援）
Qwen2.5-VL-3B 當 hard-neg mining sidecar — 已測 zero-shot 0.737 AP，可離線過濾 manifest 中的疑似 mislabel