2026-06-08 · 5090-2 · MobileNetV3-L 2-binary (smoke/fire) · cvat #2 · 修 video-mode 漏標
發現 build_p2_manifest 對 cvat #2 的 35 支 video-mode 影片每支只用了第 1 張 frame,漏掉整支影片其餘標註。v608 加 video 分支從 mp4 抽出 全部 4344 個漏掉的 frame(含 GREENIDEAS 河川/社區新場域)。用同一 test 集公平對照 v603:mAP 0.9617 → 0.9725(+0.0108),連原本的 image 場景也跟著變好,且誤報(FP)下降。
| 項目 | v603(舊) | v608(修) |
|---|---|---|
| 35 支 video 影片 | 每支只用第 1 張 → 共 35 frame | 全抽 → 4379 frame |
| 採樣策略 | — | 有標 fire/smoke 全抽 + 無煙 negative 每隔 5 幀 |
| manifest 總量 | (漏 video) | 157,230(train 130103 / val 9478 / test 17649) |
原因:cvat video-mode task 的 meta["frames"] 只有 1 個 entry(整支影片當 1 frame),舊 script 用 enumerate(frames) 只取到第一張。v608 偵測 mode=="interpolation" 時改用 cv2 從 raw/*.mp4 解碼抽 frame,tag 用 annotation 的 frame index 對齊。
| test 集 | model | mAP | smoke AP | fire AP | smoke FP | fire FP |
|---|---|---|---|---|---|---|
| A) 完整(含 video, 17649) | v608 | 0.9725 | 0.9649 | 0.9802 | 708 | 426 |
| v603 | 0.9617 | 0.9551 | 0.9683 | 891 | 547 | |
| B) 原 image 範圍(16907) | v608 | 0.9726 | 0.9649 | 0.9803 | 607 | 426 |
| v603 | 0.9620 | 0.9556 | 0.9684 | 754 | 547 |
兩個 test 集 v608 都贏 +0.011:不只完整集(含 v603 沒訓過的 video frame)大勝,連原本的 image-mode 場景也進步(B +0.0106)——納入 video frame 的多樣性連帶讓 image 場景更準,且 smoke/fire 誤報都下降。符合「沒退步才上版」(實為全面進步)。
backbone: mobilenetv3_large_100.ra_in1k | variant camaug | 2-binary (smoke/fire) BCE + pos_weight imgsz 224 | batch 96 | epochs 25 (early-stop ep21) | lr 5e-4 | wd 0.05 | mixup 0.2 | drop 0.3 val_mAP 0.9752 | pos_weight smoke=1.80 fire=2.82 | 資料: cvat #2 1324 acceptance task(含 video-mode fix)
已上 ppe-demo gx10 model key fire_smoke_v608。gx10-4t cloudflared 待補。
fire_smoke_v20260608/best.pt ⬇(17.0 MB)