5 模型分類器對比報告

任務：Roadside Drain 垃圾分類（clean / litter） GB10 GPU · fp16 2026-04-09
資料集：cls_crops same-source crops 224×224 · 訓練設定：BATCH=96, EPOCHS=15, LR=5e-4, OneCycleLR, AdamW, mixup α=0.2, label_smoothing=0.1

最佳模型

MobileNetV3-L

準度 + 速度全面勝出

最高準度

94.57%

MobileNetV3-Large

最高吞吐量

4,599

img/s · MobileNetV3-L

測試集大小

8,901

張 crop

CCTV 容量估算

184

路 @25fps / 單卡

準度比較（Test Set, n=8,901）

模型	Params	Test Acc	Precision	Recall	F1
MobileNetV3-Large ★	4.2 M	0.9457	0.9513	0.9390	0.9451
ResNet50	23.5 M	0.9447	0.9444	0.9444	0.9444
EfficientNet-B0	4.0 M	0.9434	0.9512	0.9340	0.9426
ConvNeXt-Tiny	27.8 M	0.9415	0.9544	0.9266	0.9403
ViT-Small/16	21.7 M	0.9405	0.9478	0.9316	0.9396

Test Accuracy 比較

Y 軸起始 93.5% — 5 模型差距 < 0.6%，已逼近資料噪聲上限

混淆矩陣熱區圖

吞吐量比較（fp16, single GB10）

模型	Max Throughput	Best Batch	Latency/img	Peak Mem
MobileNetV3-Large ★	4,599 img/s	32	0.22 ms	193 MB
ViT-Small/16	3,320 img/s	32	0.30 ms	116 MB
EfficientNet-B0	2,520 img/s	32	0.40 ms	344 MB
ConvNeXt-Tiny	1,592 img/s	32	0.63 ms	278 MB
ResNet50	1,304 img/s	8	0.77 ms	138 MB

吞吐量橫條圖

準度 vs 吞吐量（氣泡大小 = 參數量）

右上角 = 最佳（高準度 + 高吞吐量）· 氣泡越小 = 參數越少

Batch Size vs Throughput 曲線

關鍵發現

MobileNetV3-L 全面勝出：準度最高 (0.9457)、吞吐量最高 (4,599 img/s)、僅 4.2M 參數。對 streaming CCTV pipeline 是壓倒性最佳選擇。
ViT-Small 出乎意料快：GB10 上吞吐量 3,320 img/s，超過所有 CNN 大模型。矩陣乘法主導 + Tensor Core 友善。
大模型無精度優勢：ConvNeXt-T (28M) 反而比 EffNet-B0 (4M) 低 0.2%。Binary task 模型容量已飽和。
ResNet50 最差性價比：23.5M 參數但吞吐量最低，殘差結構對 GPU 不友善。
容量規劃：MobileNetV3-L @25fps → 184 路 CCTV / 張卡，比 EffNet-B0 的 74 路大幅提升。