Safety Rope v20260503 Ablation v3 — 完整 20 路比較

RoI Align cvat2 project 8 + 10 manifest_v3 (10120 train / 2681 val / 4560 test) 2026-05-02 → 2026-05-03

📊 主要結論（TL;DR）

三個關鍵發現：

DINOv3-S + RE upper-bbox 是新冠軍（22M params 小模型！）AP 0.9167 / P 0.854 / FP 241 — 比 v2 mobilenetv3 HD 主版 +2.7pp AP / -52 FP（-18%）
RE upper-bbox 假設驗證成功：對冠軍加 RE 帶來 +0.77pp AP / +2pp Precision / -55 FP（-18.6%），跟 research agent 預測完美吻合
更小是更好（在這個 task 上）：DINOv3-S (22M) 勝 DINOv3-B (87M) 0.9pp AP，ViT 大模型在 10K rows 容易過擬合

📋 完整對照表（按 AP 排序）

Rank	模型	Backbone	解析度	Aug	test_AP	F1	P	R	FP
1	DINOv3-S + RE on upper bbox ⭐⭐⭐ 新冠軍	vit_small_patch16_dinov3	1280×720	photo+RE	0.9167	0.8449	0.854	0.836	241
2	DINOv3-S (no RE)	vit_small_patch16_dinov3	1280×720	photo	0.9090	0.8568	0.834	0.881	296
3	SigLIP-B @512 + photometric	vit_base_patch16_siglip_512	512×512	—	0.9026	0.8329	0.818	0.849	320
4	DINOv3-B	vit_base_patch16_dinov3	1280×720	photo	0.8996	0.8338	0.833	0.835	283
5	mobilenetv3 HD widex (X=1.5)	mobilenetv3_large_100	1280×720	—	0.8984	0.8324	0.790	0.879	395
6	mobilenetv3 HD (v2 主版)	mobilenetv3_large_100	1280×720	—	0.8898	0.8426	0.831	0.854	293
7	mobilenetv3 HD noexp (X=0)	mobilenetv3_large_100	1280×720	—	0.8776	0.8305	0.790	0.876	395
8	mobilenetv3 HD + photometric	mobilenetv3_large_100	1280×720	photo	0.8651	0.8241	0.805	0.845	347
9	SigLIP-B @512 (no aug)	vit_base_patch16_siglip_512	512×512	—	0.8534	0.7737	0.723	0.832	538
10	mobilenetv3 640	mobilenetv3_large_100	640²	—	0.8450	0.8162	0.750	0.895	504
11	SigLIP-L @384	vit_large_patch16_siglip_384	384×384	—	0.8319	0.7338	0.711	0.758	520
12	CLIP-B @384 (no aug)	vit_base_patch16_clip_384	384×384	—	0.8144	0.7329	0.663	0.819	704
13	SigLIP-B HD1280 (interpolated)	vit_base_patch16_siglip_512	1280×720	—	0.8006	0.7301	0.634	0.861	842
14	CLIP-B @384 + photometric	vit_base_patch16_clip_384	384×384	—	0.7868	0.7236	0.686	0.766	594

Rank

模型

Backbone

解析度

Aug

test_AP

DINOv3-S + RE on upper bbox ⭐⭐⭐ 新冠軍

vit_small_patch16_dinov3

1280×720

photo+RE

0.9167

0.8449

0.854

0.836

241

DINOv3-S (no RE)

vit_small_patch16_dinov3

1280×720

photo

0.9090

0.8568

0.834

0.881

296

SigLIP-B @512 + photometric

vit_base_patch16_siglip_512

512×512

—

0.9026

0.8329

0.818

0.849

320

DINOv3-B

vit_base_patch16_dinov3

1280×720

photo

0.8996

0.8338

0.833

0.835

283

mobilenetv3 HD widex (X=1.5)

mobilenetv3_large_100

1280×720

—

0.8984

0.8324

0.790

0.879

395

mobilenetv3 HD (v2 主版)

mobilenetv3_large_100

1280×720

—

0.8898

0.8426

0.831

0.854

293

mobilenetv3 HD noexp (X=0)

mobilenetv3_large_100

1280×720

—

0.8776

0.8305

0.790

0.876

395

mobilenetv3 HD + photometric

mobilenetv3_large_100

1280×720

photo

0.8651

0.8241

0.805

0.845

347

SigLIP-B @512 (no aug)

vit_base_patch16_siglip_512

512×512

—

0.8534

0.7737

0.723

0.832

538

mobilenetv3 640

mobilenetv3_large_100

640²

—

0.8450

0.8162

0.750

0.895

504

SigLIP-L @384

vit_large_patch16_siglip_384

384×384

—

0.8319

0.7338

0.711

0.758

520

CLIP-B @384 (no aug)

vit_base_patch16_clip_384

384×384

—

0.8144

0.7329

0.663

0.819

704

SigLIP-B HD1280 (interpolated)

vit_base_patch16_siglip_512

1280×720

—

0.8006

0.7301

0.634

0.861

842

CLIP-B @384 + photometric

vit_base_patch16_clip_384

384×384

—

0.7868

0.7236

0.686

0.766

594

Zero-shot baselines（research agent 測量，不訓練）

Method	AP	F1
SigLIP-2 base zero-shot crop	0.7735	0.7153
Qwen2.5-VL-3B zero-shot crop	0.7370	0.7310
SigLIP-2 so400m zero-shot crop	0.7100	0.7144
CLIP zero-shot crop	0.6730	0.6610
SigLIP-2 base zero-shot mark	0.5910	0.6330
CLIP zero-shot mark	0.5320	0.5860

Method

SigLIP-2 base zero-shot crop

0.7735

0.7153

Qwen2.5-VL-3B zero-shot crop

0.7370

0.7310

SigLIP-2 so400m zero-shot crop

0.7100

0.7144

CLIP zero-shot crop

0.6730

0.6610

SigLIP-2 base zero-shot mark

0.5910

0.6330

CLIP zero-shot mark

0.5320

0.5860

🎯 RE upper-bbox ablation 細節

變體	AP	F1	P	R	FP	delta vs base
DINOv3-S 基線（v10）	0.9090	0.857	0.834	0.881	296	—
DINOv3-S + RE upper（v11）	0.9167	0.845	0.854	0.836	241	+0.77pp AP / +2.0pp P / -55 FP（-18.6%） / R -4.5pp

變體

delta vs base

DINOv3-S 基線（v10）

0.9090

0.857

0.834

0.881

296

—

DINOv3-S + RE upper（v11）

0.9167

0.845

0.854

0.836

241

+0.77pp AP / +2.0pp P / -55 FP（-18.6%） / R -4.5pp

RE 設計：只在 person bbox 上半 60% 範圍（頭、胸、手）做 random erasing（prob 0.4，area 5-20%），保留下方腰扣鉤環區 + 外擴範圍的繩子拖地段 + 上方鉤點。 forces 模型用「繩子鉤環、anchor、lifeline 的視覺證據」而非「身穿 PPE 制服 = correct」shortcut。

📈 訓練曲線（top-4）

🔬 v2 → v3 進化軌跡

🚀 推薦使用

主版（FP 最低）：DINOv3-S + RE

# R2 公開
https://pub-478929a98a5c440cb22c2241c0bde314.r2.dev/safety_rope_v20260503_p10_dinov3_small_re/best.pt

# ckpt schema：跟 v2 mobilenetv3 同 RoIAlign + MLP 2-cls，只是 backbone 換成 DINOv3 ViT-S/16
# 推論：Person YOLO bbox → expand 1.0/0.2/1.5 → image @1280×720 過 backbone → RoIAlign(spatial_scale=1/16) → MLP
# 86 MB ckpt（ViT-Small 22M params + RoIAlign head + 1.0/0.2/1.5 expand 設定）

🔬 線上比較（ppe-demo）

🦺 mobilenetv3 HD（v2 主版，5M params 輕量）

🦺 mobilenetv3 HD multi-scale ROI [0.7/1.0/1.3]（推論集成）

🦺 DINOv3-S（22M ViT，AP 0.909）

🦺 DINOv3-S + RE（22M ViT，AP 0.917，FP 最低 241）⭐

🦺 SigLIP-B @512 + photometric（87M，AP 0.903）

🦺 v502 舊版對照

🦺 Safety Rope v20260503 Ablation v3 — 完整 20 路比較

📊 主要結論（TL;DR）

📋 完整對照表（按 AP 排序）

Zero-shot baselines（research agent 測量，不訓練）

🎯 RE upper-bbox ablation 細節

📈 訓練曲線（top-4）

🔬 v2 → v3 進化軌跡

🚀 推薦使用

主版（FP 最低）：DINOv3-S + RE

📦 R2 公開下載

🔬 線上比較（ppe-demo）