第二步:为什么深度学习成为主线
深度学习让模型从原始数据中学习表示,推动了视觉、语音、语言和多模态模型的发展。
深度学习是机器学习里最重要的一条路线。它的核心变化是:模型不再那么依赖人手工设计特征,而是用多层神经网络从数据里学习表示。
这句话听起来抽象,换个例子会清楚很多。
传统图像识别可能需要人工设计边缘、纹理、颜色等特征。深度学习模型可以从大量图片里自己学出低层边缘、中层形状、高层物体结构。人不再需要把所有视觉规则提前写出来。
它为什么突然变强
深度学习不是 2020 年后才出现。它成为主线,主要是几个条件凑齐了:
- 数据变多:互联网积累了大量文本、图片、语音和视频;
- 算力变强:GPU/TPU 让大规模矩阵计算可行;
- 架构进步:CNN、RNN、Transformer 等结构不断改进;
- 工程成熟:分布式训练、框架、推理服务逐渐完善。
没有这些条件,深度学习很难从实验室方法变成今天的通用技术底座。
深度学习和大模型的关系
大模型基本站在深度学习这条线上。语言模型、多模态模型、扩散模型都不是凭空来的,它们是神经网络、表示学习、海量数据和大规模训练长期叠出来的结果。
但不要反过来理解:深度学习不等于大模型。很多视觉检测、语音识别、推荐排序模型也属于深度学习,但它们不是你平时聊天用的 LLM。
它带来的真实变化
深度学习最大的价值是处理复杂非结构化数据:
- 图片:识别物体、分割区域、生成图像;
- 语音:转文字、识别人声、合成语音;
- 文本:翻译、摘要、问答、代码生成;
- 多模态:把文字、图像、音频放到同一个任务里处理。
这些任务很难用人工规则穷举。深度学习把“写规则”转成了“准备数据、训练模型、评估泛化”。
它没有解决什么
深度学习强,不代表它天然可靠。它仍然依赖数据分布,可能过拟合,可能学到偏见,也可能在真实世界变化后失效。
所以读深度学习时,不要只记“模型更强”。更该记住:它把很多问题从规则工程变成了数据、训练、评估和部署工程。
下一步读:三种学习方式。