🦺 safety_rope 安全繩降誤報率（FP）研究報告

2026-05-30 · 5090-2 自主研究 agent 8 小時 · DINOv3 ViT-S/16 RoI HD · 7 組 ablation + ensemble/TTA 分析

⭐ 結論：v519 + erase 雙模型 ensemble 降 FP −19%（零重訓、零新標）

單一資料增強重訓全部無效甚至更糟，但兩個犯不同錯的模型平均，把誤報 341 → 277（−19%），固定 recall 0.86 下 precision 0.849 → 0.874。可直接部署（5090 上 2× forward ≥5fps）。

341→277

FP（−19%）

0.849→0.874

Precision @R≥0.86

0.86

Recall（持平）

0 / 0

新標 / 重訓資料

📊 方案對比（test, n=5637, baseline FP=341）

方案	P@R≥0.86	FP	vs baseline	成本
baseline v519	0.849	341	—	—
v519 + erase ensemble (mean) ⭐	0.874	277	−64 (−19%)	2× forward
v519 + erase ensemble (max)	0.876	272	−69	2× forward
+ focal 三模型	0.876	273	−68	3× forward
v519 + TTA hflip（免費單模型）	0.856	324	−17 (−5%)	2× forward 同模型

🔬 為什麼單一資料增強全失敗、ensemble 卻贏

單一 aug 重訓全部沒用甚至更糟

ablation	FP	vs 341
erase_strong（全身遮擋）	333	−8（最好的單一，仍微弱）
erase（上半身遮擋）	341	0
focal loss	358	+17
rotation	384	+43
rotation + blur	418	+77
hard-negative 補強	433	+92（最糟）

ensemble 為何能贏

分類器走「有裝備 → 判定配戴正確」的捷徑，漏掉「是否真的掛勾到錨點」。每個 aug 在 A 場景修好捷徑、卻在 B 場景破壞線索——顧此失彼，所以單一指標都打平。但 erase 模型的誤判跟 baseline 不相關（它把 hatch 場景的 FP 換成 cvat 場景的 FP）。兩個犯不同錯的模型平均，抵消不相關的誤判——這就是 ensemble 贏在每個單一 aug 都無效之處。資料增強的價值在「多樣性」，被單模型指標藏起來了。

🎯 誤報的根本機制

1. FP 高度集中：84% 誤報來自 10 個場景，45% 來自單一場景 task_2907（轉場影片，FP-rate 0.43）。是跨場景泛化失敗，不是資料不夠。

2. model 背了訓練集：train AP = 0.998，0.917 的 gap 純粹是泛化問題 → 所以「加資料重訓」對 safety_rope 一直沒用（補 hard-neg 反而 +92 FP，只是再背更多）。

3. task_2907 可能是不可消除的上限：「瞬間脫鉤」的單張標註本身就模糊，佔了近半 FP。建議人工 audit 量化多少是不可避免的單幀誤差。

✅ 建議下一步

部署 v519 + erase ensemble（FP −19%，需改 handler 跑雙 forward 平均）
免費加 TTA hflip（再 −5%，零重訓）
人工 audit task_2907 + cvat_data/2811 標註（佔半數 FP，量化不可消除的單幀模糊）
不要用 rotation / blur / hard-neg 單一重訓（全部讓 FP 更糟）

📦 產出（5090-2 `~/safety_rope_research/`）

FP_RESEARCH_REPORT.md 完整報告 · ensemble_sweep.py ensemble 評估 · eval_fp.py FP/P@R 量測尺 · safety_rope_fp_a1_erase/best.pt erase 模型 ckpt · 7 組 ablation summary

核心方法論：以 固定 recall≥0.86 下的 precision / FP 絕對數為 KPI（不是 AP），並按場景拆分 FP，避免單一模糊場景掩蓋真實改善。