👷 factory_ppe v20260610 — v608 退步根因研究

2026-06-10 16h 準度研究產出 · cvat #12 · 更新 2026-06-11:三模 ensemble 已上版並列觀察(ppe-demo ppe22_ens610, 成分 ckpt 上 R2 factory_ppe_v20260610_p16/_p16nw + 既有 v605;per-attr 閾值用 ensemble 平均機率的 test F1-opt 重校準)

TL;DR:v608 (0.9413) 對 v605 (0.9595) 的 −0.018 退步,根因不是「+12 新場域 task noisy」——是 patience 16→8 早停 + 稀有 attr 的 run-to-run variance。同配方重跑兩次 mAP 可差 0.014,今後 PPE 單 run 對比 <0.015 視為噪音。

1. 根因鑑定(推翻「新場域 noisy」假設)

2. 實驗(全部 v608 資料、同 test 集、sklearn AP)

run變因mAPsleevescotton_glhair_coverheartbeatsafety_shoes
v605(production 基線)0.95950.9100.7770.8190.9060.924
v608patience 80.94130.5990.6900.8820.8770.880
r16h_p16patience 16 / 40ep0.95160.8110.8580.6230.8850.940
r16h_p16nwp16 + negweight(cotton2/sleeves2/heartbeat1.5/shoes1.5)0.95480.7570.8230.8150.8790.934
r16h_p16bp16 同配方重跑(變因=隨機性)0.93770.5690.8580.6590.8230.943
ens(v605+p16+p16nw)3 模 sigmoid 平均0.96330.8920.8280.7890.9040.940
ens(v605+v608)2 模平均0.9530v608 sleeves 0.599 是毒丸, ensemble 救不回
ens(四模全上)+p16b0.9593弱 run 拖累 — ensemble 成員品質要篩

3. 方法論:單 run 對比 <0.015 是噪音

p16 vs p16b 配方完全相同、只差隨機性:mAP 0.9516 vs 0.9377(差 0.014),sleeves 0.811 vs 0.569(差 0.24)。

4. 建議

#行動狀態
1train_p9_attr 預設 patience 改回 16✅ 已改(本次 commit)
2上版選項:ens(v605+p16+p16nw) mAP 0.9633(+0.004, 所有 attr ≥0.79, 3× mobilenetv3 4.2M 推論成本仍低);或保守維持 v605 單模✅ 2026-06-11 已上版 ppe22_ens610 並列觀察(R2 + 兩台)
3根治=補標:sleeves / cotton_gloves / hair_cover 補到 pos > 500(目前 train pos: sleeves 875 / cotton_gloves 277 / hair_cover 偏少;test pos 94/179/78)。訓練端已到 variance 天花板需標註排程
4上/退版決策一律同 test 集 + 噪音尺(§3);重要結論跑多 seed方法論, 即日生效

出處:16h 自主準度研究 2026-06-10(accuracy_research_v20260610_report)· dump/分析腳本 5090-2 ~/factory_ppe/scripts/r16h/(dump_ppe_probs.py / analyze_ppe_regression.py)· per-row probs /tmp/r16h_ppe_*.csv