【torch.nn.init】初始化参数方法解读
admin
2024-03-16 14:58:25
0

文章目录

  • torch.nn.init
    • 均匀分布
    • 正态分布
    • 常数分布
    • 全1分布
    • 全0分布
    • 对角分布
    • dirac 分布
    • xavier_uniform 分布
    • xavier_normal 分布
    • kaiming_uniform 分布
    • kaiming_normal 分布
    • 正交矩阵
    • 稀疏矩阵
  • 参考

torch.nn.init

均匀分布

  • 格式

    torch.nn.init.uniform_(tensor, a=0.0, b=1.0)

  • 作用

    从均匀分布U(a,b)U(a,b)U(a,b)中生成值,填充输入的张量或变量。

  • 参数

    • tensor n 维的torch.Tensor
    • a 均匀分布的下界
    • b均匀分布的上界
  • 例子

w = torch.empty(3, 5)
nn.init.uniform_(w)

正态分布

  • 格式

    **torch.nn.init.normal_(tensor, mean=0.0, std=1.0)**

  • 作用

    从给定均值和标准差的正态分布N(mean,std)N(mean,std)N(mean,std)中生成值,填充输入的张量或变量。

  • 参数

    • tensorn维的torch.Tensor
    • mean 正态分布的均值
    • std 正态分布的标准差
w = torch.empty(3, 5)
nn.init.normal_(w)

常数分布

  • 格式

    torch.nn.init.constant_(tensor, val)

  • 作用

    val的值填充输入的张量或变量

  • 参数

    • tensor n维的torch.Tensor 或 autograd.Variable
    • val 用来填充张量的值
w = torch.empty(3, 5)
nn.init.constant_(w, 0.3)

全1分布

  • 格式

    torch.nn.init.ones_(tensor)

  • 作用

    用全0填充张量

  • 参数

    • tensor n维的torch.Tensor
  • 例子

w = torch.empty(3, 5)
nn.init.ones_(w)

全0分布

  • 格式

    torch.nn.init.zeros_(tensor)

  • 作用

    用全1填充张量

  • 参数

    • tensor n维的torch.Tensor
  • 例子

w = torch.empty(3, 5)
nn.init.zeros_(w)

对角分布

  • 格式

    torch.nn.init.eye_(tensor)

  • 作用

    用单位矩阵来填充2维输入张量或变量

  • 参数

    • tensor 2维的torch.Tensor 或 autograd.Variable
w = torch.empty(3, 5)
nn.init.eye_(w)

dirac 分布

  • 格式

    torch.nn.init.dirac_(tensor, groups=1)

  • 作用

    用Dirac δ函数来填充{3, 4, 5}维输入张量或变量。在卷积层尽可能多的保存输入通道特性

  • 参数

    • tensor {3, 4, 5}维的torch.Tensor 或 autograd.Variable
  • 例子

    w = torch.empty(3, 16, 5, 5)
    nn.init.dirac_(w)
    w = torch.empty(3, 24, 5, 5)
    nn.init.dirac_(w, 3)
    

xavier_uniform 分布

  • 格式

    torch.nn.init.xavier_uniform_(tensor, gain=1.0)

  • 作用

    用一个均匀分布生成值,填充输入的张量或变量。

  • 参数

    • tensor n维的torch.Tensor
    • gain 可选的缩放因子
w = torch.empty(3, 5)
nn.init.xavier_uniform_(w, gain=nn.init.calculate_gain('relu'))

xavier_normal 分布

  • 格式

    torch.nn.init.xavier_normal_(tensor, gain=1.0)

  • 作用

    用一个正态分布生成值,填充输入的张量或变量。

  • 参数

    • tensor n维的torch.Tensor
    • gain 可选的缩放因子
w = torch.empty(3, 5)
nn.init.xavier_normal_(w)

kaiming_uniform 分布

  • 格式

    torch.nn.init.kaiming_uniform_(tensor, a=0, mode='fan_in', nonlinearity='leaky_relu')

  • 作用

    用一个均匀分布生成值,填充输入的张量或变量。

  • 参数

    • tensor n维的torch.Tensor或autograd.Variable
    • a 这层之后使用的rectifier的斜率系数(ReLU的默认值为0)
    • mode 可以为“fan_in”(默认)或 “fan_out
      fan_in”保留前向传播时权值方差的量级
      fan_out”保留反向传播时的量级
    • nonlinearity=‘leaky_relu’非线性函数 建议“relu”或“leaky_relu”(默认值)使用。

    w = torch.empty(3, 5)
    nn.init.xavier_normal_(w)

w = torch.empty(3, 5)
nn.init.kaiming_uniform_(w, mode='fan_in', nonlinearity='relu')

kaiming_normal 分布

  • 格式

    torch.nn.init.kaiming_normal_(tensor, a=0, mode='fan_in', nonlinearity='leaky_relu')

  • 作用

    用一个正态分布生成值,填充输入的张量或变量。

  • 参数

    • tensor n维的torch.Tensor或 autograd.Variable
    • a 这层之后使用的rectifier的斜率系数(ReLU的默认值为0)
    • mode 可以为“fan_in”(默认)或 “fan_outfan_in保留前向传播时权值方差的量级fan_out保留反向传播时的量级
w = torch.empty(3, 5)
nn.init.kaiming_normal_(w, mode='fan_out', nonlinearity='relu')

正交矩阵

  • 格式

    torch.nn.init.orthogonal_(tensor, gain=1)

  • 作用

    用一个(半)正交矩阵填充输入张量。

  • 参数

    • tensor 一个n维的tensor,其中 n≥2
    • gain 可选比例系数
w = torch.empty(3, 5)
nn.init.orthogonal_(w)

稀疏矩阵

  • 格式

    torch.nn.init.sparse_(tensor, sparsity, std=0.01)

  • 作用

    将2D输入张量填充为稀疏矩阵,其中非零元素将从正态分布N(0,0.01)N(0,0.01)N(0,0.01)中提取。

  • 参数

    • **tensor** 一个n维的torch.tensor张量
    • sparsity 每一列中元素的比例设置为零
    • std 用于产生非零值的正态分布的标准差
w = torch.empty(3, 5)
nn.init.sparse_(w, sparsity=0.1)

参考

torch.nn.init - PyTorch 1.13 documentation

【细聊】torch.nn.init 初始化_ViatorSun的博客-CSDN博客_nn.init.constant

相关内容

热门资讯

【MySQL】锁 锁 文章目录锁全局锁表级锁表锁元数据锁(MDL)意向锁AUTO-INC锁...
【内网安全】 隧道搭建穿透上线... 文章目录内网穿透-Ngrok-入门-上线1、服务端配置:2、客户端连接服务端ÿ...
GCN的几种模型复现笔记 引言 本篇笔记紧接上文,主要是上一篇看写了快2w字,再去接入代码感觉有点...
数据分页展示逻辑 import java.util.Arrays;import java.util.List;impo...
Redis为什么选择单线程?R... 目录专栏导读一、Redis版本迭代二、Redis4.0之前为什么一直采用单线程?三、R...
【已解决】ERROR: Cou... 正确指令: pip install pyyaml
关于测试,我发现了哪些新大陆 关于测试 平常也只是听说过一些关于测试的术语,但并没有使用过测试工具。偶然看到编程老师...
Lock 接口解读 前置知识点Synchronized synchronized 是 Java 中的关键字,...
Win7 专业版安装中文包、汉... 参考资料:http://www.metsky.com/archives/350.htm...
3 ROS1通讯编程提高(1) 3 ROS1通讯编程提高3.1 使用VS Code编译ROS13.1.1 VS Code的安装和配置...
大模型未来趋势 大模型是人工智能领域的重要发展趋势之一,未来有着广阔的应用前景和发展空间。以下是大模型未来的趋势和展...
python实战应用讲解-【n... 目录 如何在Python中计算残余的平方和 方法1:使用其Base公式 方法2:使用statsmod...
学习u-boot 需要了解的m... 一、常用函数 1. origin 函数 origin 函数的返回值就是变量来源。使用格式如下...
常用python爬虫库介绍与简... 通用 urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库&...
药品批准文号查询|药融云-中国... 药品批文是国家食品药品监督管理局(NMPA)对药品的审评和批准的证明文件...
【2023-03-22】SRS... 【2023-03-22】SRS推流搭配FFmpeg实现目标检测 说明: 外侧测试使用SRS播放器测...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
初级算法-哈希表 主要记录算法和数据结构学习笔记,新的一年更上一层楼! 初级算法-哈希表...
进程间通信【Linux】 1. 进程间通信 1.1 什么是进程间通信 在 Linux 系统中,进程间通信...
【Docker】P3 Dock... Docker数据卷、宿主机与挂载数据卷的概念及作用挂载宿主机配置数据卷挂载操作示例一个容器挂载多个目...