AI // 入门地图
为系统 / 安全背景的工程师定制

不用从零学起,
你只是缺一张地图

你已经会写代码、懂数据库、玩得转 Linux 和容器、在学 Rust。AI 对你不是一座要从地基盖起的高楼,而是一片需要先看清边界、再选好切入点的领域。这份教程帮你把 AI / ML / DL / RL 这些概念彻底理顺,然后给你一条结合自身优势的路线。

背景:MIT @ UoA 系统编程 · Rust SQL / 数据库 Android / Kotlin Arch Linux · Docker M3 Max · 64-bit
01 / 概念地图

AI 是个"总称",不是某种具体技术

很多人混淆 AI、ML、DL,是因为把它们当成并列的三样东西。其实它们是层层嵌套的:外圈是目标,内圈是实现手段。先记住这张图,后面所有概念都能挂到它上面。

最外圈 · 目标
AI 人工智能
让机器表现出"智能"的整个领域目标。包含很多路径——早期还包括人手写规则的"专家系统",跟"学习"无关。
子集 · 主流路径
ML 机器学习
不靠人写死规则,而是让机器从数据里自己找规律。这是今天 AI 的主流实现方式。
子集 · 当下主力
DL 深度学习
ML 里用多层神经网络做的那一支。让模型自己学"特征",而不是人去设计特征。今天的 LLM、图像生成都属于这里。

用你熟悉的方式类比:

// 类比

AI 像"让程序解决问题"这个大目标;传统编程是你写 if/else 规则;ML 是你不写规则,喂数据让程序自己拟合出规则;DL 是用神经网络这种特别能拟合复杂模式的"函数"来做 ML。

关键点:DL ⊂ ML ⊂ AI。当有人说"我们用了 AI",几乎都指 ML;说"用了大模型",那就是 DL 里的某种 Transformer。

02 / 最关键的澄清

RL 不在那个嵌套圈里——它是"另一根轴"

这是初学者最大的误区。DL(深度学习)回答的是"用什么模型",RL(强化学习)回答的是"用什么方式喂信号"。它们是两个不同维度,可以叠加,所以才有"深度强化学习 Deep RL"。

轴 A · 模型用什么(方法)

线性回归、决策树、神经网络(=DL)……这一轴决定"用什么数学结构去拟合"。神经网络只是其中表达能力很强的一种。

轴 B · 怎么学(学习范式 / 监督信号)

下面这三种范式决定"模型从什么样的反馈里学习"。RL 属于这一轴,跟 DL 不冲突。

B 轴展开三大学习范式

监督学习 Supervised Learning

给定"输入 → 正确答案"成对数据,让模型学映射。例:给猫狗照片+标签,学分类。最常见、最好上手。

无监督学习 Unsupervised Learning

只有数据没有标签,让模型自己找结构:聚类、降维、异常检测。"自监督 Self-supervised"是它的现代变体——LLM 预训练就是自监督(拿文本自己当标签,预测下一个词)。

强化学习 Reinforcement Learning · RL

没有现成答案,模型(agent)在环境里试错,靠奖励信号调整策略。像训练一只狗,做对给零食。AlphaGo、机器人控制、以及 LLM 对齐里的 RLHF 都用它。

// 一句话记牢

Deep RL」= 用神经网络(DL)当那个 agent 的大脑 + 用强化学习(RL)的方式训练它。所以 DL 和 RL 经常一起出现,但它们不是同一类东西。

03 / 架构谱系

神经网络的演化:从 MLP 到 Transformer

"深度学习"内部也有家族史。了解这条线,你看任何论文标题都能立刻定位它在哪一代。可以把它想成网络协议栈的演进——每一代都为解决上一代的瓶颈而生。

感知机 / MLPMulti-Layer Perceptron最基础的全连接神经网络。理解"前向传播 + 反向传播 + 梯度下降"就从这里开始。所有后续架构都是它的特化。
CNNConvolutional NN图像而生。用"卷积核"在局部滑动提取特征,参数共享、对平移不敏感。人脸识别、医学影像的主力。
RNN / LSTMRecurrent NN序列(文本、语音、时间序列)而生,带"记忆"按顺序处理。瓶颈是难以并行、长距离依赖会遗忘。已基本被 Transformer 取代。
TransformerAttention Is All You Need, 2017现代主力架构。靠注意力机制(Attention)让序列里每个位置直接"看到"所有其他位置,可大规模并行。GPT、Claude、几乎所有 LLM 都基于它。
Diffusion / GAN生成模型图像/视频生成的两条路线。Diffusion(如 Stable Diffusion)从噪声逐步"去噪"出图,现在是主流;GAN 是更早的对抗生成思路。
// 给你的建议

你不需要把每种架构都学透。把 Transformer 学到能手写一遍,其余的有个概念即可——因为今天 90% 的有趣工作都在 Transformer / LLM 上。后面路线里会告诉你怎么"手写一遍"。

04 / LLM 三段式

一个大模型是怎么从"会接话"变成"能帮你干活"的

你最关心的本地模型、微调、Agent,全都建立在这条流水线上。注意 RL 在第三段又回来了——这就是前面那根"轴 B"的实际应用。

01

预训练 Pretraining · 自监督

拿海量文本,让模型反复做"预测下一个 token"。烧掉绝大部分算力,得到一个"什么都懂一点、但只会续写"的基座模型 (base model)。这一步个人几乎不做(成本以百万美元计)。

02

监督微调 SFT · 监督学习

用"指令 → 理想回答"的高质量成对数据,教基座模型听话、按格式回答。这一步个人完全做得到——这正是你用 M3 Max + LoRA 能玩的环节

03

偏好对齐 RLHF / DPO · 强化学习

让模型在"哪个回答更好"的人类偏好上对齐。RLHF 用强化学习做(奖励模型 + PPO);DPO 是更简单的替代方案,直接用偏好数据优化,不显式跑 RL。这一步让模型变得"有用、无害、诚实"。

// 用 vs 微调 vs 训练

三件事难度天差地别,别混为一谈:(调 API / 本地跑现成模型)——今天就能开始;微调(在已有模型上用 LoRA 改造)——你的笔记本就能做;从头训练(预训练基座)——需要集群,先不碰。绝大多数有价值的工作发生在前两者。

05 / 术语速查

把高频黑话一次性查清

收藏这张表。遇到新词回来对一下,省得每次被术语劝退。

基础概念
梯度下降 / 反向传播Gradient Descent / Backprop训练的核心机制:算出"误差对每个参数的偏导",再沿梯度反方向微调参数。反向传播本质就是链式法则。
过拟合Overfitting模型把训练数据背下来了,但换新数据就失灵。对应你工程里的"hardcode 了测试用例"。
张量Tensor多维数组,是所有数据和参数的载体。一切运算都是张量运算——这就是为什么需要线性代数。
LLM 运行时
Token词元模型处理文本的最小单位,约等于"半个词/几个字符"。计费、上下文长度都按 token 算。
上下文窗口Context Window模型一次能"看到"的 token 总量。超出就会遗忘开头。决定了能塞多长的文档/对话。
Embedding向量嵌入把文本/图片转成一串浮点向量,语义相近的向量距离也近。这是你 SQL 背景能秒懂的部分——见第 7 节。
温度 / Top-pTemperature / Sampling控制输出随机性的旋钮。低=确定保守,高=发散有创意。
幻觉Hallucination模型一本正经编造不存在的事实。理解它为什么发生,是用好 LLM 的前提(它在"预测下一个最像的词",不是查数据库)。
改造与部署
Fine-tuning微调在已有模型上用你的数据继续训练,使其更适配特定任务/风格。
LoRA / QLoRA低秩适配只训练一小部分"插件"参数而非整个模型,让微调能在消费级硬件上跑。你 M3 Max 上微调的关键技术。
量化Quantization把参数从 16/32 位压到 4/8 位,模型变小、跑得动,精度略降。Q4_K_MGGUFMLX 4-bit 都是你会反复看到的量化格式/容器。
RAG检索增强生成先从你的知识库检索相关片段,再塞进 prompt 让模型基于事实回答。对治幻觉的主力方案,本质是"检索 + 数据库 + LLM"。
MoEMixture of Experts模型有很多"专家"子网络,每个 token 只激活其中几个。这就是为什么 Qwen 3.6-35B-A3B 这种模型虽大但跑得快(A3B = 每 token 只激活 3B 参数)。
Agent / 工具调用Agent / Tool Use / MCP让模型能调用外部工具/API、分步完成任务。你已经接触过的 MCP 协议就是这一层的标准化接口——你在这条战线上其实领先很多人。
推理引擎Inference Engine高效跑模型的运行时:llama.cpp(C++)、vLLM(生产级 GPU)、MLX(Apple 原生)、Ollama(易用封装)。这是你系统编程背景的天然主场。
06 / 数学现实

你需要多少数学?比你担心的少

"先啃完一本数学书再开始"是劝退陷阱。真相是:边做边补就够了。下面是真正用得上的三块,以及它们对应你已有的直觉。

线性代数Linear Algebra矩阵、向量、点积。因为所有数据和运算都是张量。需要程度:★★★ 最重要,但只要懂"矩阵乘法在干什么"。
微积分Calculus求导、链式法则。因为训练 = 沿梯度下降。需要程度:★★ 懂偏导和链式法则即可,不用会解复杂积分。
概率统计Probability概率分布、期望、采样。因为模型输出是概率分布。需要程度:★★ 基础够用。
// 给工程师的捷径

你写过 ARM 汇编、优化过 Pac-Man 到 1206 周期——你对"底层在算什么"有直觉,这比记公式值钱。看 3Blue1Brown 建立可视化直觉,然后直接进 Karpathy 的课用代码理解,碰到不懂的数学再回头补。一边算梯度一边学链式法则,比干啃课本快十倍。

07 / 你的捷径

你已有的技能,直接映射成 AI 优势

大多数 AI 入门者是从纯应用层进来的,对系统、部署、数据一窍不通。你恰恰相反——这意味着你应该从工程侧切入,那是你能立刻产生差异化价值的地方。

系统编程 / Rust / C 底层You have
推理引擎与性能优化。llama.cpp 是 C++,Rust 有 candle(HuggingFace) 和 burn 两个原生 ML 框架。量化、KV-cache、算子优化是真正缺人的硬骨头。
SQL / 关系数据库You have
向量检索 + RAG。Embedding 就是把语义变成向量,"找相似"就是向量距离查询。pgvector 让你在熟悉的 Postgres 里直接做。你比纯算法背景的人更懂怎么把它工程化。
Docker / Linux / ArchYou have
MLOps 与部署。把模型容器化、做推理服务、CI/CD(你 TreasureDex 已经在用 Cloudflare + GitHub Actions)。这套能力直接迁移。
MCP 协议经验You have
Agent 工程。你已经懂工具调用的标准接口,这是 2026 年最前沿的方向之一。多数初学者还没听说过 MCP。
M3 Max(统一内存)You have
本地推理 + LoRA 微调。统一内存让大模型能整个塞进显存,是 Apple Silicon 跑 AI 的真实优势。MLX 是 Apple 原生框架,比 llama.cpp 快 10–30%。
RTX 5090(你研究过自托管)You have
训练 / 重度微调侧。CUDA 生态、vLLM 高吞吐服务、更大规模的 LoRA/全参微调都在 NVIDIA 这边。
08 / 实操路线

四个阶段,从"用起来"到"你的主场"

不要按"先学完所有理论再动手"的顺序。先用、再懂、再改、再做工程——这条路对你这种动手型学习者最高效。

0

用起来 本周

目标:建立手感,理解 token / 上下文 / 温度 / 量化是什么
  • 在 M3 Max 上装 Ollama(0.19 起已用 MLX 后端,提速近 2 倍),ollama run qwen3.6 一条命令跑起来。想要 GUI 就用 LM Studio
  • 同一个 prompt 调一次温度、换个量化版本,亲眼看差别。
  • 用 OpenAI 兼容 API(Ollama 本地就提供)写个最小脚本,把 LLM 接进你已有的工具流。
1

理解原理 1–2 个月

目标:能从零手写一个 GPT,彻底搞懂 Transformer
  • Karpathy《Neural Networks: Zero to Hero》——从手写反向传播一路搭到 GPT,公认最佳入门。跟着敲代码,别只看。
  • 遇到数学卡壳就去 3Blue1Brown 看对应可视化。
  • 结合你的兴趣:用 Rust 的 candle 把 micrograd 重写一遍,既练 Rust 又吃透原理。
2

动手微调 按需

目标:在自己机器上把一个小模型调成你想要的样子
  • MLX-LMUnsloth(已支持 MLX 构建)在 M3 Max 上做一次 LoRA 微调。
  • 重点不是跑通命令,而是体会数据集质量 > 模型大小,以及怎么评估微调效果(见下一节)。
  • 挑个真实小目标:比如微调一个懂你笔记风格、或专做某类代码补全的模型。
3

工程化 你的主场

目标:把 AI 变成可部署、可维护的系统——这是你最有竞争力的方向
  • RAG:用 pgvectorQdrant 建向量库,做一个基于你自己文档的问答系统。
  • Agent:基于你的 MCP 经验,做一个能调用工具/查数据库的 agent。
  • 部署:Docker 化推理服务,量化优化,接入你已有的 CI/CD。
09 / 盲点提醒

你大概没想到的几件事

这些是工程师入门时最容易忽略、但回报很高的点。

// 01

评估比训练更难

怎么判断模型"变好了"?没有靠谱的评估(eval),微调就是凭感觉。学会建评估集、用 LLM-as-judge,比多调几次参数重要得多。这是业界真正的痛点。

// 02

数据质量 > 模型大小

几百条精心构造的高质量数据,常胜过几万条噪声数据。微调成败八成在数据,不在算法。你的工程严谨性在这里值钱。

// 03

RAG 往往优于微调

想让模型"知道"新知识,第一反应别是微调——通常 RAG 更便宜、更易更新、更可控。微调更适合改"风格/格式/能力",而非灌"事实"。

// 04

Prompt 工程是真本事

别轻视它。结构化输出、few-shot 示例、思维链,能把同一个模型的效果拉开好几个档次。是性价比最高的"调优"。

// 05

统一内存是你的隐形资产

M3 Max 的统一内存让你能本地跑/调别人要租云的模型。很多人不知道 Mac 在本地 AI 上其实很强——你已经握着这张牌。

// 06

别从"训练大模型"幻想起步

"我要训练自己的模型"是常见的起点误区。预训练是集群级工程。先把"用 + 微调 + 工程化"吃透,价值和乐趣都在这里。

10 / 资源清单

精选起步资源(已按 2026 现状核对)

理论 / 直觉

工具 / 生态

  • Hugging Face · Learn整个开源生态的中枢:模型库、数据集、教程一站式。
  • Ollama本地跑模型最省心的入口(已用 MLX 后端)。
  • MLX / MLX-LMApple 原生 ML 框架,专为统一内存优化,微调首选。
  • llama.cpp所有本地工具的底层,想理解推理原理就读它。

结合你的栈

  • candle (Rust)HuggingFace 出的 Rust ML 框架,用你正在学的语言玩 AI。
  • burn (Rust)另一个纯 Rust 深度学习框架。
  • pgvector在 Postgres 里直接做向量检索,无缝衔接你的 SQL 经验。
  • Unsloth高效 LoRA 微调,已支持 MLX 构建。
// 一句话总结

别把 AI 当成要重新学一遍的全新领域。它是你已有工程能力的一个新应用层——从"在 M3 Max 上跑起一个模型"开始,本周就能动手。理论边做边补,工程侧是你的护城河。