AI基础通识学习

一、关键词

多模态（语言+视觉+音频）、机器学习、神经网络（输入层、隐藏层、输出层）、深度学习、transformer（自注意力机制）、LLM（无监督预训练+人类反馈强化学习【RLHF】）

二、一句话总结AGI的发展路径

在实现 AGI 的探索中，早期方法主要依赖人工规则和知识库。比如自然语言处理使用正则表达式、词典和符号逻辑，图像识别靠手工设计的特征（如 SIFT、HOG）加模板匹配，语音识别则用动态时间规整或隐马尔可夫模型。但这些方法泛化能力差，改一个任务就要重写规则。

后来，机器学习逐渐成为主流，它让模型从数据中自动学习规律。我们通过神经网络将文本、图像、音频等模态的数据用向量表示（比如词向量、图像块向量），多层堆叠形成深度学习。

Google 提出的 Transformer 架构，凭借自注意力机制，不仅能高效处理自然语言，也被成功扩展到视觉、语音等多模态任务。基于 Transformer 对海量多模态数据进行无监督预训练，当模型规模达到量级后，涌现出跨模态的理解与生成能力，这就是多模态大模型，也是当前通往 AGI 的最核心路径之一。

三、神经网络原理：

AI的核心是Transformer，这是一种神经网络架构，本质是模拟人类大脑神经元。将大量神经元连接起来，就形成了深度神经网络。
神经网络由多个层（Layer）组成，是神经网络的基本计算单元，分为：
- 输入层(Input Layer)：入口，接收数据；
- 隐藏层(Hidden Layer)：信息处理和学习，可以有很多层；
- 输出层(Output Layer)：出口，产生结果；
用公式表达为：$y = g\left(\sum_{i=1}^n w_i x_i - b\right)$
其中，g—激活函数；w_i—加权系数；x_i—输入；b—阈值。

四、学习路径：

基础：Python、线性代数、概率论、微积分（1-2 个月）
机器学习基础：监督/无监督学习、损失函数、优化器（SGD、Adam）（1-2 周）
深度学习基础：多层感知机（MLP）、反向传播、CNN、RNN/LSTM（为了理解演进）（2-3 周）
注意力机制与Transformer：自注意力、多头注意力、位置编码、残差连接、层归一化、编码器-解码器结构（1-2 周）
大语言模型核心：GPT 系列、LLaMA 等架构；预训练（数据清洗、分词器、训练目标）；分布式训练基础（2-3 周）
LLM 应用与进阶：微调（LoRA、QLoRA）、RLHF、推理优化（vLLM、TensorRT）、RAG、Agent（LangChain）（3-4 周）

五、总结

快速版：

机器学习+深度学习+Transformer+大语言模型+Agent应用

打准基础版：

按照完整的学习路径，打好基础，理解每个概念，掌握每个技术。

六、未来计划：

深入学习Transformer架构的详细原理，重点理解自注意力机制的实现。
掌握LangChain框架，理解其工作原理和应用场景。
学习MCP、RAG、Agent等LLM应用技术，构建端到端应用。
本地部署Ollama，探索不同的Agent实现框架（如OpenClaw、Hermes）。