RNN/LSTM (二) 实践案例
admin
2024-03-06 10:01:10
0

文章目录

  • 介绍
  • 主要步骤
  • 踩坑
    • module ‘torchtext.data‘ has no attribute ‘Field
    • 缺少spacy语言模型en_core_web_sm
    • 相关教程
  • 其它RNN案例

介绍

本文参考swarnabha/pytorch-text-classification-torchtext-lstm,讲解一个用LSTM训练kaggle数据集的案例。该项目使用torchtext的API构建数据集,而torchtext又使用了spacy库为句子分词。本文会先讲解项目架构,并附上运行代码时可能遇到的踩坑讲解。

主要步骤

粗略通读项目架构如下:

第一步,使用scikit-learn的工具方法切分pandas dataframe形式的数据集

# split data into train and validation
train_df, valid_df = train_test_split(train)
print(train_df.head())
print(valid_df.head())

第二步,设置tokenize策略

TEXT = data.Field(tokenize = 'spacy', include_lengths = True)
LABEL = data.LabelField(dtype = torch.float)

利用Field,将Pandas dataframe包装成torchtext dataset

fields = [('text',TEXT), ('label',LABEL)]
train_ds, val_ds = DataFrameDataset.splits(fields, train_df=train_df, val_df=valid_df)

第三步,构建词库,对单词作one-hot编码。

TEXT.build_vocab(train_ds,max_size = MAX_VOCAB_SIZE,vectors = 'glove.6B.200d',unk_init = torch.Tensor.zero_)LABEL.build_vocab(train_ds)

第四步,切分数据集

train_iterator, valid_iterator = data.BucketIterator.splits((train_ds, val_ds),batch_size = BATCH_SIZE,sort_within_batch = True,device = device)

最后,循环读取批次,将embedding送入lstm网络。

for epoch in range(num_epochs):train_loss, train_acc = train(model, train_iterator)

踩坑

module ‘torchtext.data‘ has no attribute ‘Field

由于版本兼容性问题,运行代码可能遇到错误AttributeError: module ‘torchtext.data‘ has no attribute ‘Field‘,也可以参考attributeerror-module-torchtext-data-has-no-attribute-field。使用torchtext 0.10(可能会安装旧版的pytorch,所以用conda开个新环境,凑合着用吧),然后from torchtext import data改成from torchtext.legacy import data

阅读torchtext的版本更新与api变迁可以得知APi变迁。

  • 在0.8版本以前,是from torchtext import data
  • 在0.9到0.12版本之间,是from torchtext.legacy import data
  • 在0.12版本之后,该data库已经删除,如果坚持要用,需要参考新版API教程。

总之,要复用教程的API,最好用torchtext 0.9或0.10。pytorch-sentiment-analysis列出了一些基于该版本API的教程,可以参考它的第一个教程运行下。

缺少spacy语言模型en_core_web_sm

如果运行遇到以下问题,说明需要下载spacy语言模型en_core_web_sm并安装。

Can’t find model ‘en_core_web_sm’. It doesn’t seem to be a Python package or a valid path to a data directory.

这是因为自然语言处理类库spacy需要加载语言模型en_core_web_sm。尽管官方教程 Quickstart会建议你运行以下命令:

python -m spacy download en_core_web_sm

但是因为无法连接外网的缘故,这条命令大概率会连接失败(你可以开启代理再尝试,但笔者并没成功)。

所以我参考NLP Spacy中en_core_web_sm安装问题,及最新版下载地址,做法如下:

  1. 到github的release界面搜索"en_core_web_sm",找最新版的压缩包下载
  2. pip install 安装这个压缩包。

笔者下载的是3.4.1版本。如果下载2.5.2,可能会出现cannot read config之类的错误。笔者不知道怎么解决。

相关教程

  • 为了更好理解torchtext0.9~0.12版本下的torchtext.legacy.data包,可以学习bentrevett/pytorch-sentiment-analysis的教程1,其中有提到了Field是如何帮助构建vocab的,并在这期间对句子的单词作清洗工作(为了减少要训练的embedding的数,保留最高频率的单词)。
  • 文章使用的是自定义的torchtext Dataset,如果想了解自定义pytorch Dataset的用法,可学习pytorch dataset

其它RNN案例

在网络上可以看到不少用RNN搭建的模型:

  • pytorch官方的教程,SEQUENCE MODELS AND LONG SHORT-TERM MEMORY NETWORKS 的模型代码很清晰,架构完整,但是缺乏训练数据集training_data变量的数据很匮乏),所以只能个人理解。
  • towardsdatascience的教程,lstm-text-classification-using-pytorch,其训练集存在kaggle链接

相关内容

热门资讯

【MySQL】锁 锁 文章目录锁全局锁表级锁表锁元数据锁(MDL)意向锁AUTO-INC锁...
【内网安全】 隧道搭建穿透上线... 文章目录内网穿透-Ngrok-入门-上线1、服务端配置:2、客户端连接服务端ÿ...
GCN的几种模型复现笔记 引言 本篇笔记紧接上文,主要是上一篇看写了快2w字,再去接入代码感觉有点...
数据分页展示逻辑 import java.util.Arrays;import java.util.List;impo...
Redis为什么选择单线程?R... 目录专栏导读一、Redis版本迭代二、Redis4.0之前为什么一直采用单线程?三、R...
【已解决】ERROR: Cou... 正确指令: pip install pyyaml
关于测试,我发现了哪些新大陆 关于测试 平常也只是听说过一些关于测试的术语,但并没有使用过测试工具。偶然看到编程老师...
Lock 接口解读 前置知识点Synchronized synchronized 是 Java 中的关键字,...
Win7 专业版安装中文包、汉... 参考资料:http://www.metsky.com/archives/350.htm...
3 ROS1通讯编程提高(1) 3 ROS1通讯编程提高3.1 使用VS Code编译ROS13.1.1 VS Code的安装和配置...
大模型未来趋势 大模型是人工智能领域的重要发展趋势之一,未来有着广阔的应用前景和发展空间。以下是大模型未来的趋势和展...
python实战应用讲解-【n... 目录 如何在Python中计算残余的平方和 方法1:使用其Base公式 方法2:使用statsmod...
学习u-boot 需要了解的m... 一、常用函数 1. origin 函数 origin 函数的返回值就是变量来源。使用格式如下...
常用python爬虫库介绍与简... 通用 urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库&...
药品批准文号查询|药融云-中国... 药品批文是国家食品药品监督管理局(NMPA)对药品的审评和批准的证明文件...
【2023-03-22】SRS... 【2023-03-22】SRS推流搭配FFmpeg实现目标检测 说明: 外侧测试使用SRS播放器测...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
初级算法-哈希表 主要记录算法和数据结构学习笔记,新的一年更上一层楼! 初级算法-哈希表...
进程间通信【Linux】 1. 进程间通信 1.1 什么是进程间通信 在 Linux 系统中,进程间通信...
【Docker】P3 Dock... Docker数据卷、宿主机与挂载数据卷的概念及作用挂载宿主机配置数据卷挂载操作示例一个容器挂载多个目...