金牌方案核心Trick解析
一、NLP竞赛金牌Trick
1.1 文本分类
| Trick |
说明 |
提升幅度 |
适用场景 |
| 多模型多层融合 |
DeBERTa-v3-large + RoBERTa-large + Electra,取最后4层加权平均 |
0.5~1% |
所有分类赛 |
| 对抗训练+R-Drop |
FGM + R-Drop双正则,训练更鲁棒 |
0.2~0.5% |
小数据/噪声标签 |
| 伪标签迭代 |
3轮伪标签,每轮置信度阈值递减(0.95→0.9→0.85) |
0.3~0.8% |
数据不足 |
| 多折伪标签 |
5折交叉伪标签,每折用其他4折模型预测 |
0.2~0.5% |
比单次伪标签更稳定 |
| 后处理规则 |
根据业务规则修正预测(如长度<5的文本强制标为某类) |
0.1~0.3% |
有明确规则的场景 |
| 外部预训练 |
在比赛相关语料上继续预训练MLM,再微调 |
0.5~2% |
领域差异大 |
| 文本清洗 |
去HTML标签、特殊字符、重复文本、编码修复 |
0.1~0.5% |
脏数据 |
| 多段文本拼接 |
长文本截取多段分别编码再pooling |
0.2~0.5% |
长文本分类 |
| MLM头+分类头联合 |
同时训练MLM和分类,MLM作为正则 |
0.1~0.3% |
小数据 |
1.2 命名实体识别
| Trick |
说明 |
提升幅度 |
适用场景 |
| GlobalPointer |
处理嵌套实体,比CRF更优 |
0.5~1.5% |
嵌套实体 |
| 多模型投票 |
3~5个模型对实体边界投票,取多数 |
0.3~0.8% |
所有NER |
| 实体词典匹配 |
用外部实体词典做规则匹配,与模型预测合并 |
0.5~2% |
有词典可用 |
| 半监督NER |
用CRF自训练或伪标签扩充标注数据 |
0.3~1% |
标注数据少 |
| Span F1优化 |
直接优化Span级别的F1而非Token级别 |
0.2~0.5% |
评价指标为Span F1 |
| 多任务学习 |
NER+分类/NER+RE联合训练 |
0.1~0.5% |
多任务数据可用 |
1.3 NLP金牌方案通用模式
1. 数据清洗 + 文本预处理
2. 领域自适应预训练(DAPT)
3. 多模型训练(DeBERTa/RoBERTa/Electra)
4. 对抗训练(FGM/PGD) + R-Drop
5. 多折伪标签迭代
6. 多模型多层融合(取最后4层加权)
7. 后处理规则修正
8. TTA(文本增强测试时增强)
二、CV竞赛金牌Trick
2.1 图像分类
| Trick |
说明 |
提升幅度 |
适用场景 |
| 大模型+大输入 |
EfficientNetV2-L/ConvNeXt-L + 640x640输入 |
0.5~1.5% |
算力充足 |
| 强增强+CutMix |
RandAugment + CutMix + Mixup组合 |
0.3~0.8% |
小数据 |
| 多尺度训练推理 |
训练时随机尺度,推理时多尺度TTA |
0.2~0.5% |
所有分类 |
| Clean Label迭代 |
训练→找噪声标签→修正→重训 |
0.3~1% |
噪声标签 |
| ArcFace |
分类头加ArcFace间隔损失 |
0.2~0.5% |
细粒度分类 |
| 知识蒸馏 |
大模型(Teacher)蒸馏到中等模型(Student) |
0.1~0.3% |
推理受限时 |
| 伪标签+Mixup |
伪标签样本与训练样本Mixup混合 |
0.2~0.5% |
数据不足 |
2.2 目标检测
| Trick |
说明 |
提升幅度 |
适用场景 |
| SAHI切片推理 |
大图切片检测再合并 |
5~15% mAP |
小目标检测 |
| 多模型WBF融合 |
YOLOv5+EfficientDet+Detr,WBF合并 |
1~3% mAP |
所有检测 |
| 定制Anchor |
根据数据集目标尺寸分布K-means聚类Anchor |
0.5~2% mAP |
Anchor-based |
| 多尺度训练 |
输入尺度从640到1280随机 |
0.5~1% mAP |
多尺度目标 |
| 测试时增强 |
翻转+缩放+旋转TTA |
0.5~1.5% mAP |
所有检测 |
| 后处理优化 |
Soft-NMS + 置信度阈值搜索 + WBF |
0.3~1% mAP |
所有检测 |
| 伪标签迭代 |
用检测模型给无标注图像打伪标签 |
1~3% mAP |
标注数据少 |
| 大图推理 |
推理时用更大输入尺寸(如1536) |
0.5~2% mAP |
小目标 |
2.3 语义分割
| Trick |
说明 |
提升幅度 |
适用场景 |
| Lovasz Loss |
替代Dice Loss,直接优化IoU |
0.1~0.3% |
IoU评价指标 |
| 多尺度推理 |
0.75x/1.0x/1.25x/1.5x多尺度推理取平均 |
0.3~0.8% |
所有分割 |
| CRF后处理 |
用DenseCRF优化分割边界 |
0.1~0.5% |
边界模糊 |
| 大图切片训练推理 |
医学大图切片训练,切片推理后拼接 |
- |
医学分割 |
| 多模型融合 |
UNet++ + DeepLabV3+ + SegFormer |
0.5~1.5% |
所有分割 |
| TTA |
翻转+旋转+缩放TTA |
0.3~0.8% |
所有分割 |
| 测试时增强+CRF |
TTA后用CRF精修边界 |
0.5~1% |
追求极致 |
2.4 CV金牌方案通用模式
1. EDA + 数据分布分析
2. 大模型backbone(EfficientNetV2/ConvNeXt/Swin)
3. 强增强(RandAugment/CutMix/Mixup)
4. 多折训练(5折)
5. 多模型训练(跨架构)
6. 多尺度训练+推理
7. TTA(翻转/缩放/旋转)
8. WBF/NMS融合
9. 后处理(CRF/阈值搜索/规则修正)
三、时序竞赛金牌Trick
3.1 时序预测
| Trick |
说明 |
提升幅度 |
适用场景 |
| 多模型融合 |
LightGBM + XGBoost + CatBoost + LSTM |
0.5~2% |
所有时序 |
| 滚动特征 |
滚动均值/标准差/最大最小,多窗口(7/14/30/60) |
0.5~3% |
所有时序 |
| 滞后特征 |
lag_1/lag_7/lag_14/lag_28等 |
0.3~1% |
所有时序 |
| 时间编码 |
周期性编码(sin/cos) + one-hot |
0.1~0.5% |
有周期性 |
| 对抗验证 |
确保验证集与测试集分布一致 |
防shake-up |
所有时序 |
| Expanding Window |
扩展窗口验证,更接近真实场景 |
防过拟合 |
所有时序 |
| 去趋势+残差预测 |
先拟合趋势,再预测残差 |
0.2~0.5% |
趋势明显 |
| 多步递推vs直接 |
递推(误差累积) vs 直接(训练复杂) |
看场景 |
多步预测 |
3.2 量化金融
| Trick |
说明 |
提升幅度 |
适用场景 |
| 因子中性化 |
截面回归去除行业/市值风险 |
稳定IC |
多因子选股 |
| 动态因子权重 |
指数加权IC调整因子权重 |
0.5~2% |
因子衰减 |
| 时序CV |
Purged K-Fold + Embargo |
防泄露 |
金融时序 |
| 多频率融合 |
日频+周频+月频因子融合 |
0.3~1% |
多频率数据 |
| 风险约束 |
组合优化时加入风险约束 |
控制回撤 |
组合优化 |
| 去极值+标准化 |
MAD去极值 + Z-score标准化 |
稳定因子 |
因子预处理 |
3.3 时序金牌方案通用模式
1. 时间线分析 + 分布变化检测
2. 对抗验证构建验证集
3. 滞后特征 + 滚动统计 + 时间编码
4. 去趋势 + 残差预测(如需要)
5. 多模型训练(GBDT + 深度学习)
6. 时序CV验证(Purged/Embargo)
7. 多模型加权融合
8. 后处理(截断/平滑/规则修正)
四、推荐系统竞赛金牌Trick
4.1 召回阶段
| Trick |
说明 |
提升幅度 |
适用场景 |
| 多路召回 |
ItemCF + UserCF + 向量召回 + 热门召回 |
5~15% Recall |
所有推荐 |
| 热门物品负采样 |
负采样时增加热门物品比例 |
1~3% |
向量召回训练 |
| 序列召回 |
SASRec/NextItNet建模用户行为序列 |
2~5% |
有行为序列 |
| 图召回 |
LightGCN学习用户-物品图结构 |
2~5% |
交互数据丰富 |
| 冷启动召回 |
内容特征召回 + 热门兜底 |
3~10% |
新用户/物品 |
4.2 排序阶段
| Trick |
说明 |
提升幅度 |
适用场景 |
| 特征交叉 |
DeepFM/DCN V2自动交叉 + 手动交叉 |
0.5~2% |
所有排序 |
| 序列特征 |
DIN/BST建模用户最近行为 |
0.5~2% |
有行为序列 |
| 多目标学习 |
MMOE/PLE同时优化CTR+CVR |
0.3~1% |
多目标场景 |
| 特征重要性筛选 |
LightGBM筛选Top特征,去噪 |
0.1~0.5% |
特征过多 |
| 负采样策略 |
混合负采样(随机+热门+难负例) |
0.3~1% |
训练数据构造 |
4.3 推荐金牌方案通用模式
1. 数据分析(用户/物品分布/冷启动比例)
2. 多路召回(5路以上)
3. 召回合并+去重(1000~3000候选)
4. 特征工程(交叉+序列+统计)
5. 排序模型训练(DeepFM/DIN/多目标)
6. 多模型排序融合
7. 重排规则(多样性/新鲜度/业务约束)
五、跨领域通用金牌Trick
| Trick |
说明 |
通用性 |
| 多模型融合 |
5~8个多样性模型加权平均/Stacking |
所有领域 |
| 对抗验证 |
确保验证集与测试集分布一致 |
所有领域 |
| 伪标签迭代 |
高置信度测试样本加入训练 |
所有领域 |
| 后处理规则 |
根据业务规则/数据特点修正预测 |
所有领域 |
| 多折训练 |
5折/10折训练,取平均或融合 |
所有领域 |
| TTA |
测试时增强,多预测取平均 |
CV/NLP |
| 大模型 |
更大的backbone/预训练模型 |
所有领域 |
| 外部数据 |
合规利用外部数据扩充训练集 |
看规则 |
| Clean Label |
迭代清洗噪声标签 |
噪声标签场景 |
| 阈值搜索 |
网格搜索最优分类阈值 |
分类/检测 |
六、金牌方案的核心思维
| 思维 |
说明 |
| 增量思维 |
每次只改一个变量,确认有效后再叠加 |
| 验证思维 |
所有改动必须在验证集上确认,不凭直觉 |
| 多样性思维 |
融合的模型必须有多样性(不同架构/不同数据/不同超参) |
| 稳定性思维 |
CV稳定比单次高分更重要 |
| 效率思维 |
先做收益最大的事,不纠结0.01%的提升 |
| 全局思维 |
从数据→特征→模型→融合→后处理全链路优化 |