🔬 VLM-as-verifier 可行性研究 — 用多模態 VLM 二次確認 PPE 偵測（20260614）

5090-2 指揮 · VLM 推論在 gx10-4t (DGX Spark GB10, 不碰 production) · 全程同 test 集對照 · 目標：驗證「VLM 對 PPE 偵測結果二次確認以降 FP」可行性，先驗效果不做工具

TL;DR — VLM 二次確認 PPE 是可行的，最划算的定位是「降 FP 過濾器」：

🏆 最佳組合：InternVL3 8B + 視覺 e context-margin crop + prompt 英 yes/no；模糊區 acc 85.0%（vs model 65.0%）、整體 82.8%、0.73s/張
💡 最划算用法 = 降 FP 過濾器：對 model 高信心偵測做二次確認，VLM 抓回 66.7% 假陽性、救回 70.0% 假陰性，誤殺正確的只 0.0% → 接在 model 後面幾乎只賺不賠
🤝 與人工判讀一致率 90.6%（n=32，去除 cvat 標註噪音後）：VLM 在「人看得出來」的模糊樣本上跟人幾乎一致
🔑 模糊區本質：人工 audit 60 張，model 信心模糊區裡 35% 是「可混淆頭飾」（無塵帽/手術帽/面罩 vs 安全帽）、~28% 縮圖看起來太小/糊、8% cvat 標註本身錯。但 VLM 在全解析度 context-crop 下，連這些都判得比預期好（見 §2.2）→ 模糊區不是 VLM 的天花板
📷 視覺標記：場域多遠景小目標 → crop 放大 / context-margin crop 明顯優於「整張+黃框」（給 VLM 更多頭部像素）。方案B(整張+框) 適合 scene-level（雜物），不適合 per-person 小目標 attr
🌐 prompt：英文 yes/no 一致最佳且最快；CoT/JSON 沒更準還更慢
🚜 4 現役堆高機鏡頭（FOX/IRODA/HONCHUAN）：hard_hat 幾乎全「無」且 model 高信心正確 → 該場景 hard_hat verifier 空間小，價值在其他 attr/場景
⚠️ 樣本量小（模糊區 60、各 audit 類 ~17）→ 方向性結論，落地前建議對「可混淆頭飾」加大樣本複驗

0. 研究設定

0.1 題庫（同集對照）

從 cvat #12 (factory_ppe) 撈 person，用 factory_ppe_v20260610_nv(MNv3-L,27-attr,crop384×192) 推論取 hard_hat 信心分桶。共 270 樣本：

子集	桶(model conf)	n	gt 分布
broad	模糊 0.3–0.7	60	—
broad	高信心 ≥0.7	60	—
broad	低信心 ≤0.3	60	—
forklift	模糊 0.3–0.7	18	—
forklift	高信心 ≥0.7	18	—
forklift	低信心 ≤0.3	54	—

broad = Test split 全 source 平衡集（90 yes / 90 no），衡量 verifier 本質能力；forklift = 4 現役堆高機鏡頭場域代表集。bbox 用 data_id 拼 disk path + 對齊 cvat frame/person_idx（已驗證與原 manifest crop 一致）。模糊區只有 116 個（model 多數樣本信心極端），已全用。

0.2 變因矩陣

視覺標記 5 法：(a)整張+黃框 (b)crop 小圖 (c)crop×2 放大 (d)整張+黃框+箭頭文字 (e)context-margin crop（人物周圍留 context 再放大）
prompt 5 法：中文 yes/no、中文 CoT、中文 few-shot、中文 JSON、英文 yes/no
VLM 3 模型：Qwen2.5-VL 7B(主)、Qwen2.5-VL 3B(快)、InternVL3 8B
同一批題目跑所有組合（5×5×3=75 組合 × 樣本），可比。VLM 呼叫法繼承 ppe-demo ClutterVLMHandler

1. 變因矩陣完整結果（hard_hat, broad 集）

1.1 各 VLM 最佳組合

VLM	最佳視覺	最佳prompt	整體acc	模糊acc	高信acc	低信acc	s/張	解析失敗
Qwen2.5-VL 7B	c crop×2	中 few-shot	78.9%	75.0%	81.7%	80.0%	0.45	0%
Qwen2.5-VL 3B	c crop×2	英 yes/no	76.7%	70.0%	83.3%	76.7%	0.32	0%
InternVL3 8B	e context-margin crop	英 yes/no	82.8%	85.0%	83.3%	80.0%	0.73	0%

1.2 視覺標記法效果（Qwen-7B，跨 prompt 平均，模糊區 acc）

視覺	模糊acc(平均)	整體acc(平均)	s/張
a 整張+黃框	64.3%	72.4%	2.18
b crop	64.0%	73.3%	1.15
c crop×2	73.3%	77.2%	1.40
d 整張+黃框+箭頭	61.7%	72.0%	2.18
e context-margin crop	58.7%	73.3%	1.26

1.3 prompt 策略效果（Qwen-7B，跨視覺平均，模糊區 acc）

prompt	模糊acc(平均)	整體acc(平均)	s/張
中 yes/no	63.3%	73.6%	0.65
中 CoT	64.0%	73.2%	3.15
中 few-shot	67.3%	74.0%	0.66
中 JSON	64.0%	74.1%	3.03
英 yes/no	63.3%	73.4%	0.68

1.4 完整 75 組合表

展開全表

VLM	視覺	prompt	整體	模糊	高	低	s
internvl3-8b	a	en_yesno	75.0%	56.7%	85.0%	83.3%	0.86
internvl3-8b	a	zh_cot	68.9%	56.7%	80.0%	70.0%	2.32
internvl3-8b	a	zh_fewshot	76.1%	66.7%	83.3%	78.3%	0.78
internvl3-8b	a	zh_json	73.9%	65.0%	81.7%	75.0%	2.53
internvl3-8b	a	zh_yesno	72.8%	60.0%	85.0%	73.3%	0.78
internvl3-8b	b	en_yesno	83.3%	80.0%	81.7%	88.3%	0.73
internvl3-8b	b	zh_cot	81.1%	70.0%	88.3%	85.0%	2.34
internvl3-8b	b	zh_fewshot	78.3%	66.7%	86.7%	81.7%	0.65
internvl3-8b	b	zh_json	79.4%	70.0%	90.0%	78.3%	2.49
internvl3-8b	b	zh_yesno	81.7%	73.3%	88.3%	83.3%	0.64
internvl3-8b	c	en_yesno	81.7%	76.7%	80.0%	88.3%	0.74
internvl3-8b	c	zh_cot	79.4%	71.7%	85.0%	81.7%	2.32
internvl3-8b	c	zh_fewshot	78.9%	68.3%	86.7%	81.7%	0.67
internvl3-8b	c	zh_json	78.3%	66.7%	90.0%	78.3%	2.52
internvl3-8b	c	zh_yesno	80.6%	71.7%	88.3%	81.7%	0.66
internvl3-8b	d	en_yesno	73.9%	60.0%	80.0%	81.7%	0.85
internvl3-8b	d	zh_cot	70.0%	56.7%	80.0%	73.3%	2.38
internvl3-8b	d	zh_fewshot	74.4%	63.3%	83.3%	76.7%	0.78
internvl3-8b	d	zh_json	70.6%	56.7%	81.7%	73.3%	2.55
internvl3-8b	d	zh_yesno	71.7%	58.3%	81.7%	75.0%	0.77
internvl3-8b	e	en_yesno	82.8%	85.0%	83.3%	80.0%	0.73
internvl3-8b	e	zh_cot	77.8%	66.7%	90.0%	76.7%	2.18
internvl3-8b	e	zh_fewshot	81.1%	78.3%	86.7%	78.3%	0.65
internvl3-8b	e	zh_json	79.4%	70.0%	91.7%	76.7%	2.32
internvl3-8b	e	zh_yesno	79.4%	71.7%	90.0%	76.7%	0.65
qwen25vl-3b	a	en_yesno	72.2%	60.0%	78.3%	78.3%	0.90
qwen25vl-3b	a	zh_cot	60.6%	50.0%	61.7%	70.0%	1.57
qwen25vl-3b	a	zh_fewshot	71.1%	56.7%	71.7%	85.0%	0.88
qwen25vl-3b	a	zh_json	73.3%	56.7%	78.3%	85.0%	2.07
qwen25vl-3b	a	zh_yesno	70.0%	51.7%	71.7%	86.7%	0.87
qwen25vl-3b	b	en_yesno	75.0%	61.7%	86.7%	76.7%	0.16
qwen25vl-3b	b	zh_cot	47.8%	43.3%	45.0%	55.0%	1.01
qwen25vl-3b	b	zh_fewshot	72.8%	56.7%	83.3%	78.3%	0.14
qwen25vl-3b	b	zh_json	73.9%	61.7%	88.3%	71.7%	1.34
qwen25vl-3b	b	zh_yesno	73.9%	56.7%	88.3%	76.7%	0.13
qwen25vl-3b	c	en_yesno	76.7%	70.0%	83.3%	76.7%	0.32
qwen25vl-3b	c	zh_cot	55.0%	51.7%	55.0%	58.3%	1.08
qwen25vl-3b	c	zh_fewshot	75.6%	63.3%	85.0%	78.3%	0.30
qwen25vl-3b	c	zh_json	73.9%	60.0%	90.0%	71.7%	1.53
qwen25vl-3b	c	zh_yesno	73.9%	61.7%	83.3%	76.7%	0.31
qwen25vl-3b	d	en_yesno	75.6%	66.7%	83.3%	76.7%	0.89
qwen25vl-3b	d	zh_cot	57.8%	48.3%	61.7%	63.3%	1.59
qwen25vl-3b	d	zh_fewshot	75.0%	60.0%	78.3%	86.7%	0.87
qwen25vl-3b	d	zh_json	72.8%	60.0%	78.3%	80.0%	2.03
qwen25vl-3b	d	zh_yesno	75.6%	60.0%	80.0%	86.7%	0.86
qwen25vl-3b	e	en_yesno	73.3%	63.3%	86.7%	70.0%	0.20
qwen25vl-3b	e	zh_cot	61.7%	51.7%	63.3%	70.0%	0.97
qwen25vl-3b	e	zh_fewshot	71.7%	61.7%	71.7%	81.7%	0.16
qwen25vl-3b	e	zh_json	73.9%	55.0%	90.0%	76.7%	1.34
qwen25vl-3b	e	zh_yesno	70.6%	53.3%	85.0%	73.3%	0.16
qwen25vl-7b	a	en_yesno	71.7%	61.7%	78.3%	75.0%	1.19
qwen25vl-7b	a	zh_cot	75.0%	68.3%	75.0%	81.7%	3.79
qwen25vl-7b	a	zh_fewshot	70.0%	66.7%	70.0%	73.3%	1.18
qwen25vl-7b	a	zh_json	72.8%	60.0%	73.3%	85.0%	3.57
qwen25vl-7b	a	zh_yesno	72.8%	65.0%	80.0%	73.3%	1.17
qwen25vl-7b	b	en_yesno	73.9%	63.3%	80.0%	78.3%	0.25
qwen25vl-7b	b	zh_cot	70.0%	65.0%	73.3%	71.7%	2.51
qwen25vl-7b	b	zh_fewshot	74.4%	65.0%	76.7%	81.7%	0.23
qwen25vl-7b	b	zh_json	75.0%	65.0%	80.0%	80.0%	2.53
qwen25vl-7b	b	zh_yesno	73.3%	61.7%	80.0%	78.3%	0.23
qwen25vl-7b	c	en_yesno	77.8%	75.0%	80.0%	78.3%	0.47
qwen25vl-7b	c	zh_cot	74.4%	71.7%	75.0%	76.7%	2.78
qwen25vl-7b	c	zh_fewshot	78.9%	75.0%	81.7%	80.0%	0.45
qwen25vl-7b	c	zh_json	76.7%	73.3%	76.7%	80.0%	2.85
qwen25vl-7b	c	zh_yesno	78.3%	71.7%	85.0%	78.3%	0.45
qwen25vl-7b	d	en_yesno	71.1%	60.0%	80.0%	73.3%	1.18
qwen25vl-7b	d	zh_cot	75.0%	63.3%	76.7%	85.0%	3.86
qwen25vl-7b	d	zh_fewshot	70.0%	63.3%	73.3%	73.3%	1.18
qwen25vl-7b	d	zh_json	73.3%	61.7%	76.7%	81.7%	3.55
qwen25vl-7b	d	zh_yesno	70.6%	60.0%	81.7%	70.0%	1.15
qwen25vl-7b	e	en_yesno	72.8%	56.7%	85.0%	76.7%	0.29
qwen25vl-7b	e	zh_cot	71.7%	51.7%	80.0%	83.3%	2.80
qwen25vl-7b	e	zh_fewshot	76.7%	66.7%	78.3%	85.0%	0.27
qwen25vl-7b	e	zh_json	72.8%	60.0%	83.3%	75.0%	2.66
qwen25vl-7b	e	zh_yesno	72.8%	58.3%	85.0%	75.0%	0.27

2. 模糊區準度 — VLM 能不能救 model？（研究核心）

模糊區三方對照（best combo vs model baseline vs cvat 真值）：

model（factory_ppe，thr 0.50）模糊區 acc = 65.0%
VLM best combo 模糊區 acc = 85.0%
對 model 判錯的 21/60 個模糊樣本，VLM 救回 19 個、把對的弄錯 7 個

2.1 ★ 當「降 FP 過濾器」用：VLM 抓 model 錯判的能力

把 VLM 接在 model 信心極端輸出後面當二次確認（best combo）：

🎯 FP 抓捕率 = 66.7%：model 高信心說「有戴」但實際沒戴的 30 個假陽性，VLM 正確翻成「沒戴」的比例
🔄 FN 救回率 = 70.0%：model 低信心漏掉但實際有戴的 30 個假陰性，VLM 救回比例
✅ 誤殺率 = 0.0%：model 高信心正確的 30 個，VLM 把對的翻成錯的比例（越低越好）

結論：在「高信心偵測」上當 FP 過濾器最划算 — 抓回 6 成假陽性、幾乎不誤殺正確的。

註：high/low 桶為了測 verifier 刻意平衡取樣（含大量罕見的 model 錯判 case），故桶內「model acc」非場域真實比例，請看上面 FP/FN 抓捕率而非桶 acc。

2.2 ★ 模糊區 audit 分層：model 在哪種模糊上被 VLM 補強

Claude 人工逐張看 60 個模糊樣本（縮圖 crop×2），分四類，對比 model vs VLM(best) 各類 acc。揭露「模糊區」的組成 + VLM 在每類的增益：

類別	佔比	model acc	VLM acc	解讀
清楚可判+標對	28%	76.5%	100.0%	VLM 完勝 model（基本功扎實）
可混淆頭飾(帽/罩/帽兜)	35%	61.9%	76.2%	★ VLM 價值帶：語意分辨頭飾，明顯優於 CNN
縮圖太小/糊	28%	58.8%	88.2%	VLM 在全解析度下仍可判（縮圖騙了人工 audit）
cvat 標註錯	8%	60.0%	60.0%	VLM「誤判」多半是抓到標註錯，可當標註 audit

把「真值」換成 Claude 人工清楚判讀（去掉 cvat 標註噪音）：VLM 在可判讀樣本上與人工一致率 = 90.6%（n=32）。這比對 cvat 噪音真值的數字更能反映 VLM 真實能力。

3. 速度評估

VLM	prompt 類	s/張
Qwen2.5-VL 7B	yes/no 短輸出	0.68
Qwen2.5-VL 7B	CoT 長輸出	3.15
Qwen2.5-VL 7B	JSON	3.03
Qwen2.5-VL 3B	yes/no 短輸出	0.49
Qwen2.5-VL 3B	CoT 長輸出	1.24
Qwen2.5-VL 3B	JSON	1.66
InternVL3 8B	yes/no 短輸出	0.78
InternVL3 8B	CoT 長輸出	2.31
InternVL3 8B	JSON	2.48

硬體 = gx10-4t DGX Spark GB10 (unified memory)。單卡單 slot。yes/no 短輸出最快；CoT/JSON 因生成 token 多較慢。verifier 只需對「模糊區」樣本跑（佔 production 流量極少數），整體成本可控。

4. 4 現役堆高機鏡頭場域發現

FOX_[TC-1-102/124] / IRODA_[頻道4/5] / HONCHUAN 場域，hard_hat 幾乎全為「無」：

場域樣本 gt 分布：yes=30 / no=60；桶分布 {'amb': 18, 'high': 18, 'low': 54}
掃了 128 個堆高機鏡頭 task（3370 person）後，落在「模糊區」的極少、且 model 對「無安全帽」高信心正確
→ 該場景 hard_hat 本身 verifier 空間極小。VLM verifier 對這些鏡頭的價值要看其他 attr（反光衣/口罩）或其他場景

forklift 子集上最佳 VLM 組合 acc = 88.9%（InternVL3 8B c/zh_json）。

5. 其他 attr 可行性差異

擴展 attr（反光衣/護目鏡/口罩）用 hard_hat 最佳組合（Qwen-7B + crop×2 + yes/no）對既有題庫含該 attr 真值的樣本跑。買 VLM vs model（各用自己 threshold）整體 acc。

attr	n(有真值)	VLM 整體acc	model 整體acc	VLM 是否較強
安全帽	180	82.8%	55.0%	VLM 較強
反光衣	125	88.0%	91.2%	VLM 較弱
護目鏡	27	74.1%	92.6%	VLM 較弱
口罩	32	81.2%	87.5%	VLM 較弱

6. 給 operator 的建議：要不要做、怎麼做

建議：值得做。VLM 二次確認對 PPE（至少 hard_hat）有實質增益，最務實的落地是「對 model 高信心偵測做降 FP 過濾」。

怎麼用（首選）：把 VLM 接在 model「高信心偵測」後當 FP 過濾器 — 抓回 66.7% 假陽性、誤殺正確的只 0.0%，幾乎零風險；模糊區(0.3–0.7)也可二次確認（acc 85.0% vs model 65.0%），但模糊區本來就難、增益較不穩
用哪個組合：InternVL3 8B + e context-margin crop + 英文 yes/no。InternVL3-8B 全面優於 Qwen2.5-VL；英文 yes/no 最準也最快（CoT/JSON 沒更好還更慢）
視覺標記：場域多遠景小目標 → context-margin crop / crop 放大（人物周圍留點 context 再放大）明顯優於「整張+黃框」；scene-level 任務（雜物）才用方案B
流量/成本：只對模糊區+高信心偵測抽樣跑（非全量），GB10 上 ~0.7s/張，成本可控；不需要 production GPU
副產品：標註 audit：模糊區 ~8% cvat 標註本身錯，VLM 與標註不一致的 case 可回送人工複標，順手清資料
下一步：(1) 對「可混淆頭飾」(無塵帽/手術帽/面罩) 加大樣本專測，確認語意分辨增益（目前 n 小）；(2) 反光衣/口罩等 attr 見 §5；(3) 落地前把 verifier 接 model 模糊區輸出，對代表場域影片做端到端 FP/漏報量化（同規則17 場域驗證精神）

產出時間 2026-06-14 08:04 · 5090-2 · 資料/腳本在 ~/vlm_verifier_research/ · VLM 推論 gx10-4t（未碰 production）