当前位置: 首页 > news >正文

深圳勘察设计协会新乡优化

深圳勘察设计协会,新乡优化,游戏制作软件免费下载,网站 禁止ping把原始语料中的每个句子通过截断和填充,转换成一个固定长度的句子,并将所有数据整理成mini-batch,用于训练模型,下面代码参照paddle官方 # 库文件导入 # encodingutf8 import re import random import requests import numpy as n…

把原始语料中的每个句子通过截断和填充,转换成一个固定长度的句子,并将所有数据整理成mini-batch,用于训练模型,下面代码参照paddle官方


# 库文件导入
# encoding=utf8
import re
import random
import requests
import numpy as np
import paddle
from paddle.nn import Embedding
import paddle.nn.functional as F
from paddle.nn import LSTM, Embedding, Dropout, Linear
import os
import jieba
import paddle.fluidimport build_dict
import convert_corpus_to_id
import data_preprocess
import load_comment# 编写一个迭代器,每次调用这个迭代器都会返回一个新的batch,用于训练或者预测
def build_batch(word2id_dict, corpus, batch_size, epoch_num, max_seq_len, shuffle = True, drop_last = True):# 模型将会接受的两个输入:# 1. 一个形状为[batch_size, max_seq_len]的张量,sentence_batch,代表了一个mini-batch的句子。# 2. 一个形状为[batch_size, 1]的张量,sentence_label_batch,每个元素都是非0即1,代表了每个句子的情感类别(正向或者负向)sentence_batch = []sentence_label_batch = []for _ in range(epoch_num): #每个epoch前都shuffle一下数据,有助于提高模型训练的效果#但是对于预测任务,不要做数据shuffleif shuffle:random.shuffle(corpus)for sentence, sentence_label in corpus:sentence_sample = sentence[:min(max_seq_len, len(sentence))]if len(sentence_sample) < max_seq_len:for _ in range(max_seq_len - len(sentence_sample)):sentence_sample.append(word2id_dict['[pad]'])sentence_sample = [[word_id] for word_id in sentence_sample]sentence_batch.append(sentence_sample)sentence_label_batch.append([sentence_label])if len(sentence_batch) == batch_size:yield np.array(sentence_batch).astype("int64"), np.array(sentence_label_batch).astype("int64")sentence_batch = []sentence_label_batch = []if not drop_last and len(sentence_batch) > 0: # 控制样本数量不能被批次整除时的行为,若为真则丢弃最后一批样本yield np.array(sentence_batch).astype("int64"), np.array(sentence_label_batch).astype("int64")train_corpus =  load_comment.load_comment(True)
train_corpus = data_preprocess.data_preprocess(train_corpus)
word2id_freq, word2id_dict = build_dict.build_dict(train_corpus)
train_corpus = convert_corpus_to_id.convert_corpus_to_id(train_corpus, word2id_dict)for batch_id, batch in enumerate(build_batch(word2id_dict, train_corpus, batch_size=3, epoch_num=3, max_seq_len=40)): # 此处train_corpus输入的是covert_corpus_to_id之后的内容print(batch)break```
http://www.15wanjia.com/news/163455.html

相关文章:

  • 成都网站系统开发电商设计包括什么
  • 门户网站开发难点wordpress 下载按钮插件
  • 深圳建网站的公司朗润装饰成都装修公司官网
  • 模板建站和定制建站室内设计师联盟app
  • 多作者wordpress插件专业网站优化公司排名
  • 重庆seo整站优化系统深圳展览设计网站建设
  • 制作一个网站难吗彩票网站做一级代理犯法吗
  • js写的网站怎么做seo沈阳淘宝网站建设
  • 企业网站建设栏目结构图做网页的软件w
  • 网站刷单账务处理怎么做php网站后台怎么进
  • 网站建设主机配置百度seo关键词报价
  • 福建省建设工程职业注册网站网站建设服装项目设计书
  • 获取网站访客qq信息徐汇网站制作设计
  • 如何批量做网站接网站建设外包的工作
  • 网站制作及维护合同大连营销策划公司排名
  • 网站详情页用哪个软件做如何分析一个网站建设策划案
  • 学做网站初入门教程中国建设网官网网站
  • 做旅行同业的网站设计logo理念
  • 营销网站是什么意思湖南网络推广机构
  • seo快照推广seo技术培训江门
  • 城乡住房建设部网站造价师网株洲网站制作公司在哪里
  • 网站建设模板制作是什么意思广东网站建设案例
  • 做二手手机交易网站互联网的意思
  • 网站地图链接怎么做找代码的网站
  • 1m带宽做网站速度怎么样广州网站制作实力乐云seo
  • 网站建设教论坛网站设计模板含数据库
  • 做网站申请什么商标南通做网络网站
  • 西安建网站的公司云南网络营销公司哪家好
  • 网友wordpress河南网站排名优化哪家好
  • 免费制作网站和网页移动商城信息费