lzx知识库

发表于2025-04-14|PyTorch•深度学习•Python

PyTorch核心使用指南PyTorch是一个开源的Python机器学习库，广泛应用于深度学习研究和生产环境。本文将详细介绍PyTorch的核心使用方法。 1. 张量基础张量(Tensor)是PyTorch中最基本的数据结构，类似于NumPy的ndarray，但支持GPU加速。 123456789import torch# 创建张量x = torch.tensor([1, 2, 3])y = torch.rand(2, 3) # 2x3随机矩阵# 张量运算z = x + y # 广播机制m = torch.matmul(y.T, y) # 矩阵乘法 2. 自动微分PyTorch的自动微分系统(autograd)是其核心特性之一。 1234x = torch.tensor(2.0, requires_grad=True)y = x ** 2 + 3 * x + 1y.backward() # 自动计算梯度print(x.grad) # dy/dx = 2x + 3 = 7 3. 神经网络构建使用torch.nn模块构建神经网络： 12345678910111213im...

深入理解Transformer架构

发表于2025-04-14|NLP•Deep Learning•Transformer

1. 引言Transformer架构是由Google在2017年的论文《Attention is All You Need》中首次提出，它彻底改变了自然语言处理(NLP)领域。与传统的RNN/LSTM模型相比，Transformer通过完全基于注意力机制的架构，实现了并行计算，显著提高了训练效率和模型性能。 2. 传统序列模型的局限性在Transformer出现之前，RNN及其变体（如LSTM、GRU）是处理序列数据的主要方法。然而，这些模型存在以下局限性：顺序性限制：RNN需要按顺序处理数据，无法并行计算长距离依赖问题：随着序列长度增加，梯度消失/爆炸问题更加严重计算效率低下：长序列的处理时间呈线性增长 3. Transformer核心组件3.1 Self-Attention机制Self-Attention（自注意力）是Transformer的核心创新。它允许模型在处理序列中的每个位置时，都能关注到序列中的其他位置。具体来说，Self-Attention通过以下三个向量来实现： Query (查询向量)：当前token的表示 Key (键向量)：...

深入理解BP神经网络

发表于2025-04-11|人工智能|深度学习•机器学习•神经网络

BP神经网络概述BP(Back Propagation)神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络。其核心思想是通过梯度下降法调整网络中的权重和阈值，使网络输出与期望值的误差最小化（这里面有个很重要的概念，叫损失函数，作用是利用梯度去更新权重和偏置）。BP网络由输入层、隐藏层（可单层或多层）和输出层构成，层间通过带权值的连接传递信号，并采用非线性激活函数实现复杂映射。基本结构BP神经网络通常包含：输入层：接收外部输入隐藏层：一层或多层，用于提取特征输出层：产生最终结果算法原理BP算法的运作分为两个关键阶段，前向传播和反向传播。假设一个简单的三层BP神经网络（输入层2节点，隐藏层3节点，输出层2节点），初始参数如下：初始参数如下：输入样本：$x = [5,10]$ 真实输出：$y = [0.01,0.99]$ 权重与偏置（随机初始化）：输入层到隐藏层权重：$W_1 = \begin{bmatrix} 0.1 & 0.15 & 0.2 \ 0.25 & 0.3 & 0.35 \end{bm...