5 模型分類器對比報告

任務:Roadside Drain 垃圾分類(clean / litter)  GB10 GPU · fp16  2026-04-09
資料集:cls_crops same-source crops 224×224 · 訓練設定:BATCH=96, EPOCHS=15, LR=5e-4, OneCycleLR, AdamW, mixup α=0.2, label_smoothing=0.1

最佳模型
MobileNetV3-L
準度 + 速度全面勝出
最高準度
94.57%
MobileNetV3-Large
最高吞吐量
4,599
img/s · MobileNetV3-L
測試集大小
8,901
張 crop
CCTV 容量估算
184
路 @25fps / 單卡

準度比較(Test Set, n=8,901)

模型ParamsTest AccPrecisionRecallF1
MobileNetV3-Large 4.2 M0.94570.95130.93900.9451
ResNet5023.5 M0.94470.94440.94440.9444
EfficientNet-B04.0 M0.94340.95120.93400.9426
ConvNeXt-Tiny27.8 M0.94150.95440.92660.9403
ViT-Small/1621.7 M0.94050.94780.93160.9396

Test Accuracy 比較

93.5% 94.0% 94.5% 95.0% 94.57% MobileNetV3-L 94.47% ResNet50 94.34% EffNet-B0 94.15% ConvNeXt-T 94.05% ViT-S/16

Y 軸起始 93.5% — 5 模型差距 < 0.6%,已逼近資料噪聲上限

混淆矩陣熱區圖

吞吐量比較(fp16, single GB10)

模型Max ThroughputBest BatchLatency/imgPeak Mem
MobileNetV3-Large 4,599 img/s320.22 ms193 MB
ViT-Small/163,320 img/s320.30 ms116 MB
EfficientNet-B02,520 img/s320.40 ms344 MB
ConvNeXt-Tiny1,592 img/s320.63 ms278 MB
ResNet501,304 img/s80.77 ms138 MB

吞吐量橫條圖

準度 vs 吞吐量(氣泡大小 = 參數量)

右上角 = 最佳(高準度 + 高吞吐量)· 氣泡越小 = 參數越少

Batch Size vs Throughput 曲線

關鍵發現

  1. MobileNetV3-L 全面勝出:準度最高 (0.9457)、吞吐量最高 (4,599 img/s)、僅 4.2M 參數。對 streaming CCTV pipeline 是壓倒性最佳選擇。
  2. ViT-Small 出乎意料快:GB10 上吞吐量 3,320 img/s,超過所有 CNN 大模型。矩陣乘法主導 + Tensor Core 友善。
  3. 大模型無精度優勢:ConvNeXt-T (28M) 反而比 EffNet-B0 (4M) 低 0.2%。Binary task 模型容量已飽和。
  4. ResNet50 最差性價比:23.5M 參數但吞吐量最低,殘差結構對 GPU 不友善。
  5. 容量規劃:MobileNetV3-L @25fps → 184 路 CCTV / 張卡,比 EffNet-B0 的 74 路大幅提升。

推薦決策

  1. 生產部署:MobileNetV3-Large @ B=32,準度與速度俱佳。
  2. 更省記憶體:EfficientNet-B0(peak mem 100 MB @ B=8)。
  3. 突破 0.945 上限:加 ViT-S epoch 至 30 + 更強 augmentation,或 ensemble (MobileNetV3-L + ViT-S)。

Generated 2026-04-09 · Data: /home/rai/kaggle_work/runs/cmp_5models_eval.json