AI基础通识学习
一、关键词
- 多模态(语言+视觉+音频)、机器学习、神经网络(输入层、隐藏层、输出层)、深度学习、transformer(自注意力机制)、LLM(无监督预训练+人类反馈强化学习【RLHF】)
二、一句话总结AGI的发展路径
在实现 AGI 的探索中,早期方法主要依赖人工规则和知识库。比如自然语言处理使用正则表达式、词典和符号逻辑,图像识别靠手工设计的特征(如 SIFT、HOG)加模板匹配,语音识别则用动态时间规整或隐马尔可夫模型。但这些方法泛化能力差,改一个任务就要重写规则。
后来,机器学习逐渐成为主流,它让模型从数据中自动学习规律。我们通过神经网络将文本、图像、音频等模态的数据用向量表示(比如词向量、图像块向量),多层堆叠形成深度学习。
Google 提出的 Transformer 架构,凭借自注意力机制,不仅能高效处理自然语言,也被成功扩展到视觉、语音等多模态任务。基于 Transformer 对海量多模态数据进行无监督预训练,当模型规模达到量级后,涌现出跨模态的理解与生成能力,这就是多模态大模型,也是当前通往 AGI 的最核心路径之一。
三、神经网络原理:
-
AI的核心是Transformer,这是一种神经网络架构,本质是模拟人类大脑神经元。将大量神经元连接起来,就形成了深度神经网络。
-
神经网络由多个层(Layer)组成,是神经网络的基本计算单元,分为:
- 输入层(Input Layer):入口,接收数据;
- 隐藏层(Hidden Layer):信息处理和学习,可以有很多层;
- 输出层(Output Layer):出口,产生结果;
用公式表达为:$y = g\left(\sum_{i=1}^n w_i x_i - b\right)$
其中,g—激活函数;w_i—加权系数;x_i—输入;b—阈值。
四、学习路径:
- 基础:Python、线性代数、概率论、微积分(1-2 个月)
- 机器学习基础:监督/无监督学习、损失函数、优化器(SGD、Adam)(1-2 周)
- 深度学习基础:多层感知机(MLP)、反向传播、CNN、RNN/LSTM(为了理解演进)(2-3 周)
- 注意力机制与Transformer:自注意力、多头注意力、位置编码、残差连接、层归一化、编码器-解码器结构(1-2 周)
- 大语言模型核心:GPT 系列、LLaMA 等架构;预训练(数据清洗、分词器、训练目标);分布式训练基础(2-3 周)
- LLM 应用与进阶:微调(LoRA、QLoRA)、RLHF、推理优化(vLLM、TensorRT)、RAG、Agent(LangChain)(3-4 周)
五、总结
快速版:
- 机器学习+深度学习+Transformer+大语言模型+Agent应用
打准基础版:
- 按照完整的学习路径,打好基础,理解每个概念,掌握每个技术。
六、未来计划:
- 深入学习Transformer架构的详细原理,重点理解自注意力机制的实现。
- 掌握LangChain框架,理解其工作原理和应用场景。
- 学习MCP、RAG、Agent等LLM应用技术,构建端到端应用。
- 本地部署Ollama,探索不同的Agent实现框架(如OpenClaw、Hermes)。