为系统 / 安全背景的工程师定制

不用从零学起，
你只是缺一张地图。

你已经会写代码、懂数据库、玩得转 Linux 和容器、在学 Rust。AI 对你不是一座要从地基盖起的高楼，而是一片需要先看清边界、再选好切入点的领域。这份教程帮你把 AI / ML / DL / RL 这些概念彻底理顺，然后给你一条结合自身优势的路线。

背景：MIT @ UoA 系统编程 · Rust SQL / 数据库 Android / Kotlin Arch Linux · Docker M3 Max · 64-bit

01 / 概念地图

AI 是个"总称"，不是某种具体技术

很多人混淆 AI、ML、DL，是因为把它们当成并列的三样东西。其实它们是层层嵌套的：外圈是目标，内圈是实现手段。先记住这张图，后面所有概念都能挂到它上面。

最外圈 · 目标

AI 人工智能

让机器表现出"智能"的整个领域目标。包含很多路径——早期还包括人手写规则的"专家系统"，跟"学习"无关。

子集 · 主流路径

ML 机器学习

不靠人写死规则，而是让机器从数据里自己找规律。这是今天 AI 的主流实现方式。

子集 · 当下主力

DL 深度学习

ML 里用多层神经网络做的那一支。让模型自己学"特征"，而不是人去设计特征。今天的 LLM、图像生成都属于这里。

用你熟悉的方式类比：

// 类比

AI 像"让程序解决问题"这个大目标；传统编程是你写 if/else 规则；ML 是你不写规则，喂数据让程序自己拟合出规则；DL 是用神经网络这种特别能拟合复杂模式的"函数"来做 ML。

关键点：DL ⊂ ML ⊂ AI。当有人说"我们用了 AI"，几乎都指 ML；说"用了大模型"，那就是 DL 里的某种 Transformer。

02 / 最关键的澄清

RL 不在那个嵌套圈里——它是"另一根轴"

这是初学者最大的误区。DL（深度学习）回答的是"用什么模型"，RL（强化学习）回答的是"用什么方式喂信号"。它们是两个不同维度，可以叠加，所以才有"深度强化学习 Deep RL"。

轴 A · 模型用什么（方法）

线性回归、决策树、神经网络（=DL）……这一轴决定"用什么数学结构去拟合"。神经网络只是其中表达能力很强的一种。

轴 B · 怎么学（学习范式 / 监督信号）

下面这三种范式决定"模型从什么样的反馈里学习"。RL 属于这一轴，跟 DL 不冲突。

B 轴展开三大学习范式

监督学习 Supervised Learning

给定"输入 → 正确答案"成对数据，让模型学映射。例：给猫狗照片+标签，学分类。最常见、最好上手。

无监督学习 Unsupervised Learning

只有数据没有标签，让模型自己找结构：聚类、降维、异常检测。"自监督 Self-supervised"是它的现代变体——LLM 预训练就是自监督（拿文本自己当标签，预测下一个词）。

强化学习 Reinforcement Learning · RL

没有现成答案，模型(agent)在环境里试错，靠奖励信号调整策略。像训练一只狗，做对给零食。AlphaGo、机器人控制、以及 LLM 对齐里的 RLHF 都用它。

// 一句话记牢

「Deep RL」= 用神经网络（DL）当那个 agent 的大脑 + 用强化学习（RL）的方式训练它。所以 DL 和 RL 经常一起出现，但它们不是同一类东西。

03 / 架构谱系

神经网络的演化：从 MLP 到 Transformer

"深度学习"内部也有家族史。了解这条线，你看任何论文标题都能立刻定位它在哪一代。可以把它想成网络协议栈的演进——每一代都为解决上一代的瓶颈而生。

感知机 / MLPMulti-Layer Perceptron	最基础的全连接神经网络。理解"前向传播 + 反向传播 + 梯度下降"就从这里开始。所有后续架构都是它的特化。
CNNConvolutional NN	为图像而生。用"卷积核"在局部滑动提取特征，参数共享、对平移不敏感。人脸识别、医学影像的主力。
RNN / LSTMRecurrent NN	为序列（文本、语音、时间序列）而生，带"记忆"按顺序处理。瓶颈是难以并行、长距离依赖会遗忘。已基本被 Transformer 取代。
TransformerAttention Is All You Need, 2017	现代主力架构。靠注意力机制(Attention)让序列里每个位置直接"看到"所有其他位置，可大规模并行。GPT、Claude、几乎所有 LLM 都基于它。
Diffusion / GAN生成模型	图像/视频生成的两条路线。Diffusion（如 Stable Diffusion）从噪声逐步"去噪"出图，现在是主流；GAN 是更早的对抗生成思路。

// 给你的建议

你不需要把每种架构都学透。把 Transformer 学到能手写一遍，其余的有个概念即可——因为今天 90% 的有趣工作都在 Transformer / LLM 上。后面路线里会告诉你怎么"手写一遍"。

04 / LLM 三段式

一个大模型是怎么从"会接话"变成"能帮你干活"的

你最关心的本地模型、微调、Agent，全都建立在这条流水线上。注意 RL 在第三段又回来了——这就是前面那根"轴 B"的实际应用。

预训练 Pretraining · 自监督

拿海量文本，让模型反复做"预测下一个 token"。烧掉绝大部分算力，得到一个"什么都懂一点、但只会续写"的基座模型 (base model)。这一步个人几乎不做（成本以百万美元计）。

监督微调 SFT · 监督学习

用"指令 → 理想回答"的高质量成对数据，教基座模型听话、按格式回答。这一步个人完全做得到——这正是你用 M3 Max + LoRA 能玩的环节。

偏好对齐 RLHF / DPO · 强化学习

让模型在"哪个回答更好"的人类偏好上对齐。RLHF 用强化学习做（奖励模型 + PPO）；DPO 是更简单的替代方案，直接用偏好数据优化，不显式跑 RL。这一步让模型变得"有用、无害、诚实"。

// 用 vs 微调 vs 训练

三件事难度天差地别，别混为一谈：用（调 API / 本地跑现成模型）——今天就能开始；微调（在已有模型上用 LoRA 改造）——你的笔记本就能做；从头训练（预训练基座）——需要集群，先不碰。绝大多数有价值的工作发生在前两者。

05 / 术语速查

把高频黑话一次性查清

收藏这张表。遇到新词回来对一下，省得每次被术语劝退。

基础概念
梯度下降 / 反向传播Gradient Descent / Backprop	训练的核心机制：算出"误差对每个参数的偏导"，再沿梯度反方向微调参数。反向传播本质就是链式法则。
过拟合Overfitting	模型把训练数据背下来了，但换新数据就失灵。对应你工程里的"hardcode 了测试用例"。
张量Tensor	多维数组，是所有数据和参数的载体。一切运算都是张量运算——这就是为什么需要线性代数。
LLM 运行时
Token词元	模型处理文本的最小单位，约等于"半个词/几个字符"。计费、上下文长度都按 token 算。
上下文窗口Context Window	模型一次能"看到"的 token 总量。超出就会遗忘开头。决定了能塞多长的文档/对话。
Embedding向量嵌入	把文本/图片转成一串浮点向量，语义相近的向量距离也近。这是你 SQL 背景能秒懂的部分——见第 7 节。
温度 / Top-pTemperature / Sampling	控制输出随机性的旋钮。低=确定保守，高=发散有创意。
幻觉Hallucination	模型一本正经编造不存在的事实。理解它为什么发生，是用好 LLM 的前提（它在"预测下一个最像的词"，不是查数据库）。
改造与部署
Fine-tuning微调	在已有模型上用你的数据继续训练，使其更适配特定任务/风格。
LoRA / QLoRA低秩适配	只训练一小部分"插件"参数而非整个模型，让微调能在消费级硬件上跑。你 M3 Max 上微调的关键技术。
量化Quantization	把参数从 16/32 位压到 4/8 位，模型变小、跑得动，精度略降。`Q4_K_M`、`GGUF`、`MLX 4-bit` 都是你会反复看到的量化格式/容器。
RAG检索增强生成	先从你的知识库检索相关片段，再塞进 prompt 让模型基于事实回答。对治幻觉的主力方案，本质是"检索 + 数据库 + LLM"。
MoEMixture of Experts	模型有很多"专家"子网络，每个 token 只激活其中几个。这就是为什么 `Qwen 3.6-35B-A3B` 这种模型虽大但跑得快（A3B = 每 token 只激活 3B 参数）。
Agent / 工具调用Agent / Tool Use / MCP	让模型能调用外部工具/API、分步完成任务。你已经接触过的 MCP 协议就是这一层的标准化接口——你在这条战线上其实领先很多人。
推理引擎Inference Engine	高效跑模型的运行时：`llama.cpp`(C++)、`vLLM`(生产级 GPU)、`MLX`(Apple 原生)、`Ollama`(易用封装)。这是你系统编程背景的天然主场。

06 / 数学现实

你需要多少数学？比你担心的少

"先啃完一本数学书再开始"是劝退陷阱。真相是：边做边补就够了。下面是真正用得上的三块，以及它们对应你已有的直觉。

线性代数Linear Algebra	矩阵、向量、点积。因为所有数据和运算都是张量。需要程度：★★★ 最重要，但只要懂"矩阵乘法在干什么"。
微积分Calculus	求导、链式法则。因为训练 = 沿梯度下降。需要程度：★★ 懂偏导和链式法则即可，不用会解复杂积分。
概率统计Probability	概率分布、期望、采样。因为模型输出是概率分布。需要程度：★★ 基础够用。

// 给工程师的捷径

你写过 ARM 汇编、优化过 Pac-Man 到 1206 周期——你对"底层在算什么"有直觉，这比记公式值钱。看 3Blue1Brown 建立可视化直觉，然后直接进 Karpathy 的课用代码理解，碰到不懂的数学再回头补。一边算梯度一边学链式法则，比干啃课本快十倍。

07 / 你的捷径

你已有的技能，直接映射成 AI 优势

大多数 AI 入门者是从纯应用层进来的，对系统、部署、数据一窍不通。你恰恰相反——这意味着你应该从工程侧切入，那是你能立刻产生差异化价值的地方。

系统编程 / Rust / C 底层You have

→

推理引擎与性能优化。llama.cpp 是 C++，Rust 有 candle(HuggingFace) 和 burn 两个原生 ML 框架。量化、KV-cache、算子优化是真正缺人的硬骨头。

SQL / 关系数据库You have

→

向量检索 + RAG。Embedding 就是把语义变成向量，"找相似"就是向量距离查询。pgvector 让你在熟悉的 Postgres 里直接做。你比纯算法背景的人更懂怎么把它工程化。

Docker / Linux / ArchYou have

→

MLOps 与部署。把模型容器化、做推理服务、CI/CD（你 TreasureDex 已经在用 Cloudflare + GitHub Actions）。这套能力直接迁移。

MCP 协议经验You have

→

Agent 工程。你已经懂工具调用的标准接口，这是 2026 年最前沿的方向之一。多数初学者还没听说过 MCP。

M3 Max（统一内存）You have

→

本地推理 + LoRA 微调。统一内存让大模型能整个塞进显存，是 Apple Silicon 跑 AI 的真实优势。MLX 是 Apple 原生框架，比 llama.cpp 快 10–30%。

RTX 5090（你研究过自托管）You have

→

训练 / 重度微调侧。CUDA 生态、vLLM 高吞吐服务、更大规模的 LoRA/全参微调都在 NVIDIA 这边。

08 / 实操路线

四个阶段，从"用起来"到"你的主场"

不要按"先学完所有理论再动手"的顺序。先用、再懂、再改、再做工程——这条路对你这种动手型学习者最高效。

用起来本周

目标：建立手感，理解 token / 上下文 / 温度 / 量化是什么

在 M3 Max 上装 Ollama（0.19 起已用 MLX 后端，提速近 2 倍），ollama run qwen3.6 一条命令跑起来。想要 GUI 就用 LM Studio。
同一个 prompt 调一次温度、换个量化版本，亲眼看差别。
用 OpenAI 兼容 API（Ollama 本地就提供）写个最小脚本，把 LLM 接进你已有的工具流。

理解原理 1–2 个月

目标：能从零手写一个 GPT，彻底搞懂 Transformer

Karpathy《Neural Networks: Zero to Hero》——从手写反向传播一路搭到 GPT，公认最佳入门。跟着敲代码，别只看。
遇到数学卡壳就去 3Blue1Brown 看对应可视化。
结合你的兴趣：用 Rust 的 candle 把 micrograd 重写一遍，既练 Rust 又吃透原理。

动手微调按需

目标：在自己机器上把一个小模型调成你想要的样子

用 MLX-LM 或 Unsloth（已支持 MLX 构建）在 M3 Max 上做一次 LoRA 微调。
重点不是跑通命令，而是体会数据集质量 > 模型大小，以及怎么评估微调效果（见下一节）。
挑个真实小目标：比如微调一个懂你笔记风格、或专做某类代码补全的模型。

工程化你的主场

目标：把 AI 变成可部署、可维护的系统——这是你最有竞争力的方向

RAG：用 pgvector 或 Qdrant 建向量库，做一个基于你自己文档的问答系统。
Agent：基于你的 MCP 经验，做一个能调用工具/查数据库的 agent。
部署：Docker 化推理服务，量化优化，接入你已有的 CI/CD。

09 / 盲点提醒

你大概没想到的几件事

这些是工程师入门时最容易忽略、但回报很高的点。

// 01

评估比训练更难

怎么判断模型"变好了"？没有靠谱的评估(eval)，微调就是凭感觉。学会建评估集、用 LLM-as-judge，比多调几次参数重要得多。这是业界真正的痛点。

// 02

数据质量 > 模型大小

几百条精心构造的高质量数据，常胜过几万条噪声数据。微调成败八成在数据，不在算法。你的工程严谨性在这里值钱。

// 03

RAG 往往优于微调

想让模型"知道"新知识，第一反应别是微调——通常 RAG 更便宜、更易更新、更可控。微调更适合改"风格/格式/能力"，而非灌"事实"。

// 04

Prompt 工程是真本事

别轻视它。结构化输出、few-shot 示例、思维链，能把同一个模型的效果拉开好几个档次。是性价比最高的"调优"。

// 05

统一内存是你的隐形资产

M3 Max 的统一内存让你能本地跑/调别人要租云的模型。很多人不知道 Mac 在本地 AI 上其实很强——你已经握着这张牌。

// 06

别从"训练大模型"幻想起步

"我要训练自己的模型"是常见的起点误区。预训练是集群级工程。先把"用 + 微调 + 工程化"吃透，价值和乐趣都在这里。

10 / 资源清单

精选起步资源（已按 2026 现状核对）

理论 / 直觉

3Blue1Brown · Neural Networks用动画建立对神经网络和注意力机制的可视化直觉。
Karpathy · Neural Networks: Zero to Hero从零手写到 GPT，最受推崇的实战课。先决条件只需 Python + 入门数学。
fast.ai · Practical Deep Learning自顶向下、先跑出结果再讲原理，适合工程师口味。
论文《Attention Is All You Need》Transformer 的源头，看完上面的课再读会很顺。

工具 / 生态

Hugging Face · Learn整个开源生态的中枢：模型库、数据集、教程一站式。
Ollama本地跑模型最省心的入口（已用 MLX 后端）。
MLX / MLX-LMApple 原生 ML 框架，专为统一内存优化，微调首选。
llama.cpp所有本地工具的底层，想理解推理原理就读它。

结合你的栈

candle (Rust)HuggingFace 出的 Rust ML 框架，用你正在学的语言玩 AI。
burn (Rust)另一个纯 Rust 深度学习框架。
pgvector在 Postgres 里直接做向量检索，无缝衔接你的 SQL 经验。
Unsloth高效 LoRA 微调，已支持 MLX 构建。

// 一句话总结

别把 AI 当成要重新学一遍的全新领域。它是你已有工程能力的一个新应用层——从"在 M3 Max 上跑起一个模型"开始，本周就能动手。理论边做边补，工程侧是你的护城河。

不用从零学起，你只是缺一张地图。