🚜 堆高機 forklift v20260702 — YOLO26n det cascade
cvat #9 重訓 · +IRODA 倉庫大門口 / FOX 新場景 · 配方全沿用 v612(yolo26n imgsz1280 ep100 patience30 batch32)
結論:v702 嚴格優於現役 v612 —— 同 recall 下 FP 少 29~37%。
同一 test 集(含新場景 2,285 img)、對齊 recall 0.996:v702 FP 比 v612 少 29~37%(各 conf),mAP50-95 +0.007。已上 ppe-demo 並列 forklift_ppe_v702。
① conf 掃描(同 test,IoU0.5,同 recall 0.996)
| conf | v702 P | v702 FP | v612 P | v612 FP | FP 降幅 |
| 0.10 | 0.921 | 177 | 0.892 | 250 | −29% |
| 0.15 | 0.934 | 145 | 0.906 | 214 | −32% |
| 0.25 | 0.948 | 112 | 0.920 | 178 | −37% |
recall 三者皆 0.996(v702 未犧牲 recall)。ultralytics val 的整體 mAP50 兩版打平(0.9938 vs 0.9939)、mAP50-95 v702 +0.007(0.8565 vs 0.8493)。部署 conf 沿用 cascade 0.1 即比 v612 少 29% FP;要更保守可調 0.15。
② FP 按場景拆(v702 @conf0.15,SOP 3.5)
| task | FP 數 | 佔比 |
| t4962 | 64 | 44% |
| t1698 | 21 | 14% |
| t1707 | 16 | 11% |
| 其餘 13 task | 44 | 30% |
⚠️ FP 70% 集中前 3 task(t4962 單一佔 44%)。建議人工 audit t4962 幾張——可能標註模糊或單一難場景(不可消除上限),量化後決定是否補標。
③ 訓練 stack
- backbone yolo26n · 訓練 imgsz 1280 / 推論 imgsz 1280(cascade 自動讀 ckpt,訓推一致,規則18)
- ep100 patience30 batch32 · scale0.7 mosaic1.0 fliplr0.5 · base /home/ubuntu/yolo26n.pt
- 資料:cvat #9 acceptance 過濾 + video-mode(27支)via cvat_frame_iter + rectangle+polygon→bbox · train 12,834 / val 1,392 / test 2,285 img(14,919 bbox)
- cascade:forklift det(1280) → 框內 person(1280) → PPE 22-attr(v526);forklift_conf 0.1 / person_conf 0.25
→ 所有報告目錄