RoI Align cvat2 project 8 + 10 manifest_v3 (10120 train / 2681 val / 4560 test) 2026-05-02
| Rank | 模型 | Backbone | 全圖 | 外擴 X/Yt/Yb | Aug | test_AP | F1 | P | R | FP |
|---|---|---|---|---|---|---|---|---|---|---|
| 1 | SigLIP HD aug ⭐ 新冠軍 | vit_base_patch16_siglip_512 | 512×512 | 1.0/0.2/1.5 | — | 0.9026 | 0.8329 | 0.818 | 0.849 | 320 |
| 2 | DINOv3 ⭐ FP 最低 | vit_base_patch16_dinov3 | 1280×720 | 1.0/0.2/1.5 | + photometric | 0.8996 | 0.8338 | 0.833 | 0.835 | 283 |
| 3 | mobilenetv3 widex (X=1.5) | mobilenetv3_large_100 | 1280×720 | 1.5/0.2/1.5 | — | 0.8984 | 0.8324 | 0.790 | 0.879 | 395 |
| 4 | mobilenetv3 HD ⭐ 主版 | mobilenetv3_large_100 | 1280×720 | 1.0/0.2/1.5 | — | 0.8898 | 0.8426 | 0.831 | 0.854 | 293 |
| 5 | mobilenetv3 HD noexp (X=0) | mobilenetv3_large_100 | 1280×720 | 0.0/0.0/0.0 | — | 0.8776 | 0.8305 | 0.790 | 0.876 | 395 |
| 6 | mobilenetv3 HD aug | mobilenetv3_large_100 | 1280×720 | 1.0/0.2/1.5 | + photometric | 0.8651 | 0.8241 | 0.805 | 0.845 | 347 |
| 7 | SigLIP HD (no aug) | vit_base_patch16_siglip_512 | 512×512 | 1.0/0.2/1.5 | — | 0.8534 | 0.7737 | 0.723 | 0.832 | 538 |
| 8 | mobilenetv3 640 | mobilenetv3_large_100 | 640² | 1.0/0.2/1.5 | — | 0.8450 | 0.8162 | 0.750 | 0.895 | 504 |
| 9 | CLIP @384 (no aug) | vit_base_patch16_clip_384 | 384×384 | 1.0/0.2/1.5 | — | 0.8144 | 0.7329 | 0.663 | 0.819 | 704 |
| 10 | CLIP @384 aug | vit_base_patch16_clip_384 | 384×384 | 1.0/0.2/1.5 | — | 0.7868 | 0.7236 | 0.686 | 0.766 | 594 |
| Method | AP | F1 | P | R | 備註 |
|---|---|---|---|---|---|
| SigLIP-2 base zero-shot crop | 0.7735 | 0.7153 | 0.608 | 0.869 | 由 research agent 測量 |
| Qwen2.5-VL-3B zero-shot crop | 0.7370 | 0.7310 | 0.657 | 0.825 | 0.16s/image,可當 hard-neg sidecar |
| SigLIP-2 so400m zero-shot crop | 0.7100 | 0.7144 | 0.623 | 0.837 | 更大的 SigLIP-2 反而較差 |
| CLIP zero-shot crop | 0.6730 | 0.6610 | 0.603 | 0.732 | 原始 baseline |
| SigLIP-2 base zero-shot mark | 0.5910 | 0.6330 | 0.578 | 0.700 | 全圖+紅框較差 |
| CLIP zero-shot mark | 0.5320 | 0.5860 | 0.448 | 0.846 | 全圖+紅框最差 |
| Backbone | 無 aug AP | + photometric AP | 差 | 解讀 |
|---|---|---|---|---|
| mobilenetv3-L | 0.890 | 0.865 | -2.5 pp | 5M 小模型,原 jitter v2 已偏強,photometric 進一步增加難度但 patience=8 太早 stop |
| CLIP ViT-B/16 @ 384 | 0.814 | 0.787 | -2.7 pp | 低解析度(384²)下 photometric 干擾過大 |
| SigLIP ViT-B/16 @ 512 | 0.853 | 0.903 | +5.0 pp | 解析度夠 + ViT 容量大,photometric 補了 generalization gap |
| DINOv3 ViT-B/16 @ 1280×720 | — | 0.900 | N/A | 第一次跑就含 photometric,跟 mobilenetv3 HD 主版基本打平 (+0.6 pp AP) |
| 用途 | 推薦版本 | 理由 |
|---|---|---|
| 降誤報率(你的痛點) | DINOv3 ⭐ | FP 283 全場最低(比主版少 10、比 SigLIP HD aug 少 37),P 0.833 最高 |
| 追求 max AP | SigLIP HD aug | 0.903 微贏;但 FP 320,比 DINOv3 多 |
| 輕量部署 (≤ 10MB ckpt) | mobilenetv3 HD 主版 | 5M params,AP 0.890 已非常強,對 RTSP 5fps real-time 最適合 |
| 研究比較 / 對照 | 三版同存於 model_viewer | safety_rope = HD 主版;切 safety_rope_p10 看 640 對照;切 safety_rope_v502 看 v502 |
對每個 person bbox,用 N 個外擴比例(如 0.7×, 1.0×, 1.3×)做 RoIAlign → N probs per person → 集成。Backbone 只 forward 1 次,cost 幾乎不變。
沒有實測(要在 model_viewer 裡實作),但理論上跟 hard-neg mining 結合應再降 1-2 pp FP。
在錄製紀錄頁加了「收集策略」radio:
用法:你站到鏡頭前真的沒掛繩、選 wrong + Mode B → 模型還誤判 correct 的 frames 全收集 → 重訓直接修 FP。預期 +3-5 pp Precision。
線上比較:ppe-demo.intemotech.com 切下拉切換 3 版 safety_rope。
5090-2 自主 research agent (~/safety_rope_research/research_report.md) 還列出更多方向,本次未試但記下: