你已经会写代码、懂数据库、玩得转 Linux 和容器、在学 Rust。AI 对你不是一座要从地基盖起的高楼,而是一片需要先看清边界、再选好切入点的领域。这份教程帮你把 AI / ML / DL / RL 这些概念彻底理顺,然后给你一条结合自身优势的路线。
很多人混淆 AI、ML、DL,是因为把它们当成并列的三样东西。其实它们是层层嵌套的:外圈是目标,内圈是实现手段。先记住这张图,后面所有概念都能挂到它上面。
用你熟悉的方式类比:
AI 像"让程序解决问题"这个大目标;传统编程是你写 if/else 规则;ML 是你不写规则,喂数据让程序自己拟合出规则;DL 是用神经网络这种特别能拟合复杂模式的"函数"来做 ML。
关键点:DL ⊂ ML ⊂ AI。当有人说"我们用了 AI",几乎都指 ML;说"用了大模型",那就是 DL 里的某种 Transformer。
这是初学者最大的误区。DL(深度学习)回答的是"用什么模型",RL(强化学习)回答的是"用什么方式喂信号"。它们是两个不同维度,可以叠加,所以才有"深度强化学习 Deep RL"。
线性回归、决策树、神经网络(=DL)……这一轴决定"用什么数学结构去拟合"。神经网络只是其中表达能力很强的一种。
下面这三种范式决定"模型从什么样的反馈里学习"。RL 属于这一轴,跟 DL 不冲突。
给定"输入 → 正确答案"成对数据,让模型学映射。例:给猫狗照片+标签,学分类。最常见、最好上手。
只有数据没有标签,让模型自己找结构:聚类、降维、异常检测。"自监督 Self-supervised"是它的现代变体——LLM 预训练就是自监督(拿文本自己当标签,预测下一个词)。
没有现成答案,模型(agent)在环境里试错,靠奖励信号调整策略。像训练一只狗,做对给零食。AlphaGo、机器人控制、以及 LLM 对齐里的 RLHF 都用它。
「Deep RL」= 用神经网络(DL)当那个 agent 的大脑 + 用强化学习(RL)的方式训练它。所以 DL 和 RL 经常一起出现,但它们不是同一类东西。
"深度学习"内部也有家族史。了解这条线,你看任何论文标题都能立刻定位它在哪一代。可以把它想成网络协议栈的演进——每一代都为解决上一代的瓶颈而生。
| 感知机 / MLPMulti-Layer Perceptron | 最基础的全连接神经网络。理解"前向传播 + 反向传播 + 梯度下降"就从这里开始。所有后续架构都是它的特化。 |
| CNNConvolutional NN | 为图像而生。用"卷积核"在局部滑动提取特征,参数共享、对平移不敏感。人脸识别、医学影像的主力。 |
| RNN / LSTMRecurrent NN | 为序列(文本、语音、时间序列)而生,带"记忆"按顺序处理。瓶颈是难以并行、长距离依赖会遗忘。已基本被 Transformer 取代。 |
| TransformerAttention Is All You Need, 2017 | 现代主力架构。靠注意力机制(Attention)让序列里每个位置直接"看到"所有其他位置,可大规模并行。GPT、Claude、几乎所有 LLM 都基于它。 |
| Diffusion / GAN生成模型 | 图像/视频生成的两条路线。Diffusion(如 Stable Diffusion)从噪声逐步"去噪"出图,现在是主流;GAN 是更早的对抗生成思路。 |
你不需要把每种架构都学透。把 Transformer 学到能手写一遍,其余的有个概念即可——因为今天 90% 的有趣工作都在 Transformer / LLM 上。后面路线里会告诉你怎么"手写一遍"。
你最关心的本地模型、微调、Agent,全都建立在这条流水线上。注意 RL 在第三段又回来了——这就是前面那根"轴 B"的实际应用。
拿海量文本,让模型反复做"预测下一个 token"。烧掉绝大部分算力,得到一个"什么都懂一点、但只会续写"的基座模型 (base model)。这一步个人几乎不做(成本以百万美元计)。
用"指令 → 理想回答"的高质量成对数据,教基座模型听话、按格式回答。这一步个人完全做得到——这正是你用 M3 Max + LoRA 能玩的环节。
让模型在"哪个回答更好"的人类偏好上对齐。RLHF 用强化学习做(奖励模型 + PPO);DPO 是更简单的替代方案,直接用偏好数据优化,不显式跑 RL。这一步让模型变得"有用、无害、诚实"。
三件事难度天差地别,别混为一谈:用(调 API / 本地跑现成模型)——今天就能开始;微调(在已有模型上用 LoRA 改造)——你的笔记本就能做;从头训练(预训练基座)——需要集群,先不碰。绝大多数有价值的工作发生在前两者。
收藏这张表。遇到新词回来对一下,省得每次被术语劝退。
| 基础概念 | |
| 梯度下降 / 反向传播Gradient Descent / Backprop | 训练的核心机制:算出"误差对每个参数的偏导",再沿梯度反方向微调参数。反向传播本质就是链式法则。 |
| 过拟合Overfitting | 模型把训练数据背下来了,但换新数据就失灵。对应你工程里的"hardcode 了测试用例"。 |
| 张量Tensor | 多维数组,是所有数据和参数的载体。一切运算都是张量运算——这就是为什么需要线性代数。 |
| LLM 运行时 | |
| Token词元 | 模型处理文本的最小单位,约等于"半个词/几个字符"。计费、上下文长度都按 token 算。 |
| 上下文窗口Context Window | 模型一次能"看到"的 token 总量。超出就会遗忘开头。决定了能塞多长的文档/对话。 |
| Embedding向量嵌入 | 把文本/图片转成一串浮点向量,语义相近的向量距离也近。这是你 SQL 背景能秒懂的部分——见第 7 节。 |
| 温度 / Top-pTemperature / Sampling | 控制输出随机性的旋钮。低=确定保守,高=发散有创意。 |
| 幻觉Hallucination | 模型一本正经编造不存在的事实。理解它为什么发生,是用好 LLM 的前提(它在"预测下一个最像的词",不是查数据库)。 |
| 改造与部署 | |
| Fine-tuning微调 | 在已有模型上用你的数据继续训练,使其更适配特定任务/风格。 |
| LoRA / QLoRA低秩适配 | 只训练一小部分"插件"参数而非整个模型,让微调能在消费级硬件上跑。你 M3 Max 上微调的关键技术。 |
| 量化Quantization | 把参数从 16/32 位压到 4/8 位,模型变小、跑得动,精度略降。Q4_K_M、GGUF、MLX 4-bit 都是你会反复看到的量化格式/容器。 |
| RAG检索增强生成 | 先从你的知识库检索相关片段,再塞进 prompt 让模型基于事实回答。对治幻觉的主力方案,本质是"检索 + 数据库 + LLM"。 |
| MoEMixture of Experts | 模型有很多"专家"子网络,每个 token 只激活其中几个。这就是为什么 Qwen 3.6-35B-A3B 这种模型虽大但跑得快(A3B = 每 token 只激活 3B 参数)。 |
| Agent / 工具调用Agent / Tool Use / MCP | 让模型能调用外部工具/API、分步完成任务。你已经接触过的 MCP 协议就是这一层的标准化接口——你在这条战线上其实领先很多人。 |
| 推理引擎Inference Engine | 高效跑模型的运行时:llama.cpp(C++)、vLLM(生产级 GPU)、MLX(Apple 原生)、Ollama(易用封装)。这是你系统编程背景的天然主场。 |
"先啃完一本数学书再开始"是劝退陷阱。真相是:边做边补就够了。下面是真正用得上的三块,以及它们对应你已有的直觉。
| 线性代数Linear Algebra | 矩阵、向量、点积。因为所有数据和运算都是张量。需要程度:★★★ 最重要,但只要懂"矩阵乘法在干什么"。 |
| 微积分Calculus | 求导、链式法则。因为训练 = 沿梯度下降。需要程度:★★ 懂偏导和链式法则即可,不用会解复杂积分。 |
| 概率统计Probability | 概率分布、期望、采样。因为模型输出是概率分布。需要程度:★★ 基础够用。 |
你写过 ARM 汇编、优化过 Pac-Man 到 1206 周期——你对"底层在算什么"有直觉,这比记公式值钱。看 3Blue1Brown 建立可视化直觉,然后直接进 Karpathy 的课用代码理解,碰到不懂的数学再回头补。一边算梯度一边学链式法则,比干啃课本快十倍。
大多数 AI 入门者是从纯应用层进来的,对系统、部署、数据一窍不通。你恰恰相反——这意味着你应该从工程侧切入,那是你能立刻产生差异化价值的地方。
candle(HuggingFace) 和 burn 两个原生 ML 框架。量化、KV-cache、算子优化是真正缺人的硬骨头。pgvector 让你在熟悉的 Postgres 里直接做。你比纯算法背景的人更懂怎么把它工程化。MLX 是 Apple 原生框架,比 llama.cpp 快 10–30%。不要按"先学完所有理论再动手"的顺序。先用、再懂、再改、再做工程——这条路对你这种动手型学习者最高效。
Ollama(0.19 起已用 MLX 后端,提速近 2 倍),ollama run qwen3.6 一条命令跑起来。想要 GUI 就用 LM Studio。candle 把 micrograd 重写一遍,既练 Rust 又吃透原理。MLX-LM 或 Unsloth(已支持 MLX 构建)在 M3 Max 上做一次 LoRA 微调。pgvector 或 Qdrant 建向量库,做一个基于你自己文档的问答系统。这些是工程师入门时最容易忽略、但回报很高的点。
怎么判断模型"变好了"?没有靠谱的评估(eval),微调就是凭感觉。学会建评估集、用 LLM-as-judge,比多调几次参数重要得多。这是业界真正的痛点。
几百条精心构造的高质量数据,常胜过几万条噪声数据。微调成败八成在数据,不在算法。你的工程严谨性在这里值钱。
想让模型"知道"新知识,第一反应别是微调——通常 RAG 更便宜、更易更新、更可控。微调更适合改"风格/格式/能力",而非灌"事实"。
别轻视它。结构化输出、few-shot 示例、思维链,能把同一个模型的效果拉开好几个档次。是性价比最高的"调优"。
M3 Max 的统一内存让你能本地跑/调别人要租云的模型。很多人不知道 Mac 在本地 AI 上其实很强——你已经握着这张牌。
"我要训练自己的模型"是常见的起点误区。预训练是集群级工程。先把"用 + 微调 + 工程化"吃透,价值和乐趣都在这里。
别把 AI 当成要重新学一遍的全新领域。它是你已有工程能力的一个新应用层——从"在 M3 Max 上跑起一个模型"开始,本周就能动手。理论边做边补,工程侧是你的护城河。