2026-06-03 · 5090-2 · DINOv3 ViT-S/16 + RoIAlign HD · 照 safety_rope 邏輯 · 已上 ppe-demo 兩台
cvat #20 全部 20 個可訓 task 都是同一支 camera(LOCAL_DAVIDMAC_5_190),train/val/test 同分布 → test 1.0 是 domain leak(背了同場域),不代表換場域可用。要真正落地必須收不同 camera / 角度 / 光線的資料再訓。本版僅為納入今天新標資料的 PoC 迭代。
| split | correct(有拿) | wrong(沒拿) | 合計 |
|---|---|---|---|
| Train | 431 | 520 | 951 |
| Validation | 71 | 58 | 129 |
| Test | 73 | 50 | 123 |
規則#3:export 加 acceptance/completed 過濾,自動跳過 1 個未完成 task(21→20)。全 rectangle bbox(走 RoI)、全 annotation mode(無 video-mode 坑)。label 平衡,無 unknown。
test_AP=1.000 F1=1.000 P=1.000 R=1.000 acc=1.000 thr=0.998 TP=73 FP=0 FN=0 TN=50 (← 同場域,務必當 PoC 看) ep02 即達 val_AP 1.0,ep10 early-stop
backbone: DINOv3 ViT-S/16 (vit_small_patch16_dinov3, LVD-1689M SSL) + RoIAlign + MLP 2-cls img: 1280×720 | RoI expand: x 1.0 / y_top 0.2 / y_bot 1.5 | photometric aug batch 8 | epochs 15(early-stop ep10)| lr 1e-4 OneCycle | AdamW | params 22.47M person detector: person_yolo26s@1280(cascade 偵測 person bbox → RoIAlign 判 holding_cup_tray)
已上 ppe-demo 兩台(gx10 + gx10-4t)model key cup_holder(🥤 拿杯子)。錄製面板可選 cvat #20 繼續收資料。建議:用 ppe-demo 錄製不同場域影片 → cvat #20 標註 → 再訓,才能驗證真泛化。
cup_holder_v20260603/best.pt ⬇(86 MB,DINOv3-S RoI)