第15章 ML项目策略
目标
学会系统性地改进机器学习系统。
---
必学内容
正交化
每个控制只调一个维度:
- 拟合训练集 → bigger network / Adam
- 拟合验证集 → 正则化 / 更多数据
- 拟合测试集 → bigger validation set
- 实际表现好 → 换数据分布 / 换代价函数单一评估指标
# 不要同时优化 precision 和 recall
# 用 F1 Score 或 AUC 统一人类水平性能与贝叶斯最优
可避免偏差 = 人类水平误差 - 训练误差
方差 = 训练误差 - 验证误差误差分析
# 手动检查 100 个验证集错误样本
# 分类错误原因,优先解决占比最高的数据不匹配
训练集和验证集分布不同时:
- 人工合成更多验证集类似的数据
- 或收集更多真实场景数据---
真正目标
做 AI 项目时:
有方法论,而不是靠运气碰参数。
---