Skip to content

AI基础通识学习

Published: 5 min read

AI基础通识学习

一、关键词

  • 多模态(语言+视觉+音频)、机器学习、神经网络(输入层、隐藏层、输出层)、深度学习、transformer(自注意力机制)、LLM(无监督预训练+人类反馈强化学习【RLHF】)

二、一句话总结AGI的发展路径

在实现 AGI 的探索中,早期方法主要依赖人工规则和知识库。比如自然语言处理使用正则表达式、词典和符号逻辑,图像识别靠手工设计的特征(如 SIFT、HOG)加模板匹配,语音识别则用动态时间规整或隐马尔可夫模型。但这些方法泛化能力差,改一个任务就要重写规则。

后来,机器学习逐渐成为主流,它让模型从数据中自动学习规律。我们通过神经网络将文本、图像、音频等模态的数据用向量表示(比如词向量、图像块向量),多层堆叠形成深度学习。

Google 提出的 Transformer 架构,凭借自注意力机制,不仅能高效处理自然语言,也被成功扩展到视觉、语音等多模态任务。基于 Transformer 对海量多模态数据进行无监督预训练,当模型规模达到量级后,涌现出跨模态的理解与生成能力,这就是多模态大模型,也是当前通往 AGI 的最核心路径之一。


三、神经网络原理:

  1. AI的核心是Transformer,这是一种神经网络架构,本质是模拟人类大脑神经元。将大量神经元连接起来,就形成了深度神经网络

  2. 神经网络由多个(Layer)组成,是神经网络的基本计算单元,分为:

    • 输入层(Input Layer):入口,接收数据;
    • 隐藏层(Hidden Layer):信息处理和学习,可以有很多层;
    • 输出层(Output Layer):出口,产生结果;

    用公式表达为:$y = g\left(\sum_{i=1}^n w_i x_i - b\right)$
    其中,g—激活函数;w_i—加权系数;x_i—输入;b—阈值。


四、学习路径:

  1. 基础:Python、线性代数、概率论、微积分(1-2 个月)
  2. 机器学习基础:监督/无监督学习、损失函数、优化器(SGD、Adam)(1-2 周)
  3. 深度学习基础:多层感知机(MLP)、反向传播、CNN、RNN/LSTM(为了理解演进)(2-3 周)
  4. 注意力机制与Transformer:自注意力、多头注意力、位置编码、残差连接、层归一化、编码器-解码器结构(1-2 周)
  5. 大语言模型核心:GPT 系列、LLaMA 等架构;预训练(数据清洗、分词器、训练目标);分布式训练基础(2-3 周)
  6. LLM 应用与进阶:微调(LoRA、QLoRA)、RLHF、推理优化(vLLM、TensorRT)、RAG、Agent(LangChain)(3-4 周)

五、总结

快速版:

  • 机器学习+深度学习+Transformer+大语言模型+Agent应用

打准基础版:

  • 按照完整的学习路径,打好基础,理解每个概念,掌握每个技术。

六、未来计划: