CV任务类型与模型架构

CV任务类型与模型架构

一、CV竞赛任务类型总览

任务类型	输入	输出	典型比赛	评价指标
图像分类	图像	类别标签	木薯叶疾病识别、外星信号搜索	Accuracy、AUC
目标检测	图像	边界框+类别	小麦穗检测、海星检测	mAP、IoU
语义分割	图像	像素级类别	入侵肾脏(肾小球分割)	IoU、Dice
实例分割	图像	像素级类别+实例区分	Open Images Instance Segmentation	mAP
图像检索	查询图像	相似图像排序	DIGX	mAP@K

任务识别与模型选择决策

观察到的特征	推断的任务类型	首选模型族
输出是离散类别	图像分类	ResNet/EfficientNet/ViT
输出是矩形框+类别	目标检测	Faster R-CNN/YOLOv5/EfficientDet
输出是像素级掩码	语义分割	U-Net/DeepLab/Mask R-CNN
输出是框+像素掩码	实例分割	Mask R-CNN/Cascade R-CNN
输出是相似度排序	图像检索	孪生网络/Triple Network

非典型CV数据的处理

场景	处理方式	案例
信号频谱图	直接当作图像输入CNN	外星信号搜索(频谱图→2D矩阵→图像分类)
医学TIF大图	裁剪为小图后训练，预测时拼接	入侵肾脏(几万像素TIF→1024x1024切片)
表情识别	先人脸检测裁剪，再分类	神经网络表情识别(face_recognition→CNN)

二、CNN基础架构演进

卷积核心概念

概念	说明	与全连接的区别
局部感受野	每个神经元只关注局部区域	全连接假设所有像素相关
权重共享	同一卷积核在整张图上滑动	全连接每对连接独立参数
步长(Stride)	卷积核每次移动的像素数	步长>1可降维
填充(Padding)	输入周围补零保持尺寸	SAME填充保持尺寸，VALID不填充
池化(Pooling)	降维+平移不变性	Max Pooling/Avg Pooling

经典模型演进路线

模型	核心创新	参数量级	竞赛适用性
AlexNet	ReLU激活、Dropout、GPU训练	60M	已过时
VGG	小卷积核(3x3)堆叠替代大卷积核	138M	特征提取backbone
ResNet	残差连接解决梯度消失	25M(ResNet50)	通用baseline首选
DenseNet	密集连接，特征复用	8M(DenseNet121)	显存受限时
EfficientNet	复合缩放(深度+宽度+分辨率)	5M~66M	竞赛主力，性价比最高
ViT	Transformer替代CNN，Patch Embedding	86M	数据量大时有效
Swin Transformer	层级式窗口注意力	88M	检测/分割backbone

模型选择实战建议

场景	推荐模型	理由
首次baseline	ResNet18/34	快速验证流程，训练快
分类冲分	EfficientNet-B3~B7	精度与速度的最佳平衡
检测baseline	EfficientDet-D0~D5	检测专用，自带FPN
检测冲分	YOLOv5 + EfficientDet双路	跨架构融合收益大
分割baseline	U-Net + ResNet34 backbone	医学分割经典组合
分割冲分	U-Net + EfficientNet backbone + Attention	更强特征提取+注意力
数据量极大(>50K)	ViT/Swin Transformer	Transformer需要大数据量
数据量小(<5K)	ResNet/EfficientNet	CNN的归纳偏置更适合小数据

新一代模型架构

模型	核心改进	参数量级	竞赛适用性
ConvNeXt	纯CNN架构借鉴ViT设计(大卷积核7x7、LayerNorm、GELU)	28M~350M	分类/检测/分割通用，ViT的CNN替代
EfficientNetV2	渐进式训练 + Fused-MBConv + 更小缩放	21M~120M	比V1训练快5~11倍，竞赛首选
Swin Transformer V2	后归一化 + 缩放余弦注意力 + 连续位置偏置	88M~197M	更稳定的训练，检测/分割backbone
CoAtNet	CNN+Transformer混合，浅层卷积深层Transformer	25M~240M	兼顾CNN归纳偏置和Transformer全局建模
ConvNeXt V2	全局响应归一化(GRN)，MAE预训练	28M~350M	自监督预训练+微调范式

模型选型升级建议

场景	传统选择	升级选择	理由
分类冲分	EfficientNet-B5	EfficientNetV2-M/L	更快训练，同等精度
分类冲分	ViT	ConvNeXt	CNN归纳偏置，小数据更稳定
检测backbone	ResNet50	ConvNeXt-T/S	更强特征提取
分割backbone	ResNet34	Swin Transformer	层级特征更适合分割
快速验证	ResNet18	EfficientNetV2-S	更快收敛

三、目标检测模型详解

两阶段检测器

模型	流程	优势	劣势
Faster R-CNN	RPN生成候选框→RoI Pooling→分类+回归	精度高	速度慢
Cascade R-CNN	多级IoU阈值级联精炼	对高质量框更准	更慢
Mask R-CNN	Faster R-CNN + 分割分支	同时做检测和分割	显存消耗大

单阶段检测器

模型	流程	优势	劣势
YOLOv5	Backbone→Neck→Head直接预测	速度快，社区活跃	小目标检测弱
EfficientDet	EfficientNet + BiFPN + Head	精度效率平衡好	超参敏感
RetinaNet	ResNet + FPN + Focal Loss	解决正负样本不均衡	中等速度

检测模型关键组件

组件	作用	常见选择
Backbone	特征提取	ResNet/EfficientNet/Swin Transformer
Neck	多尺度特征融合	FPN/BiFPN/PANet
Head	预测框+类别	分类分支+回归分支
Anchor	候选框先验	预设Anchor/Anchor-Free

FPN(特征金字塔网络)

维度	说明
问题	单一尺度特征无法同时检测大小目标
方案	自顶向下融合多尺度特征
流程	深层低分辨率特征上采样→与浅层高分辨率特征相加
效果	小目标检测显著提升
变体	BiFPN(加权融合)、PANet(双向传播)

四、语义分割模型详解

U-Net架构

维度	说明
编码器	逐步下采样提取高层语义特征
解码器	逐步上采样恢复空间分辨率
跳跃连接	将编码器特征与解码器对应层拼接，保留细节信息
输入输出	输入HxWxN，输出HxWxC(C=类别数)
二分类简化	肾小球分割中C=1，即前景/背景二分类

U-Net改进方向

改进点	方法	效果
Backbone替换	ResNet34→EfficientNet	更强特征提取
注意力机制	Attention Gate/SE Block/CBAM	聚焦关键区域
多尺度	ASPP/SPP/PPM	捕获不同尺度上下文
深度监督	中间层也计算Loss	加速收敛，提升梯度流
残差连接	编码器-解码器间加残差	缓解梯度消失

分割模型选型

场景	推荐模型	理由
医学图像	U-Net + ResNet/EfficientNet	数据量小，U-Net跳跃连接保留细节
自然场景	DeepLabV3+	ASPP处理多尺度
实例级需求	Mask R-CNN / Cascade Mask R-CNN	同时做检测和分割
实时需求	BiSeNet / Fast-SCNN	速度优先

五、图像分类模型详解

EfficientNet核心思想

维度	说明
复合缩放	同时缩放深度(d)、宽度(w)、分辨率(r)
缩放公式	d = alpha^phi, w = beta^phi, r = gamma^phi, 约束 alphabeta^2gamma^2 ≈ 2
phi值	B0(phi=0)到B7(phi=7)，越大越强越慢
竞赛建议	B3~B5性价比最高，B7显存消耗大

Vision Transformer (ViT)

维度	说明
核心思想	将图像切为Patch，当作序列输入Transformer
Patch大小	典型16x16，越小计算量越大
位置编码	可学习位置嵌入，保留空间信息
数据需求	需要大数据量(>50K)才能超越CNN
竞赛经验	小数据集上效果不如EfficientNet，大数据集上可尝试
Swin改进	层级式窗口注意力，更适合检测/分割

六、CV竞赛通用框架选择

框架	适用任务	优势	劣势
MMDetection	检测/分割	模型齐全，社区活跃	学习曲线陡
Detectron2	检测/分割	Facebook出品，质量高	文档较少
YOLOv5官方	检测	易上手，训练快	定制化困难
PyTorch + timm	分类	灵活，预训练模型丰富	需自己写训练循环
Albumentations	数据增强	增强方法全面，速度快	仅做增强

七、赛题类型与Baseline模型速查

赛题	类型	Baseline模型	冲分模型
木薯叶疾病识别	图像分类(5类)	EfficientNet-B3	EfficientNet-B5 + ViT融合
外星信号搜索	图像分类(二分类)	ResNet18	EfficientNet-B0 + Swin Transformer
小麦穗检测	目标检测	EfficientDet-D5	EfficientDet + YOLOv5 + Faster R-CNN
海星检测	目标检测	Faster R-CNN	EfficientDet + Cascade R-CNN
入侵肾脏	语义分割(二分类)	U-Net + ResNet34	U-Net + EfficientNet + Attention

上一章超参数调优与工程实践下一章数据增强与输入管线