当前位置: 首页 > news >正文

创网站 灵感网址在线生成短链接

创网站 灵感,网址在线生成短链接,做电商网站都需要学什么,作文网下载一、任务目标 (1)用合适的格式读取文本数据 (2)使用jieba分词对文本数据进行分词,并可视化分词效果 (3)设计停止词表,对文本数据的多余部分进行删除 (4)对文本…

一、任务目标
(1)用合适的格式读取文本数据
(2)使用jieba分词对文本数据进行分词,并可视化分词效果
(3)设计停止词表,对文本数据的多余部分进行删除
(4)对文本数据进行词云展示
(5)TF-IDF提取关键词
(6)LDA主题模型
(7)新闻数据分类

二、代码及效果
(1)导入包

#导入必须的包
import pandas as pd
import jieba
import numpy

(2)读取文本数据

df_news = pd.read_table('./data/val.txt',name=['category','theme','url','content'],encoding = 'utf-8')
df_news = df_news.dropna(axis=0)#删除掉一行数据中有缺失项的
df_news.head()#读取前几条信息
df_news.shape #查看数据规模

(3)使用jieba进行分词

content = df_news.content.values.tolist() #将数据df_news里面的content转换成list数据,方便jieba进行分词
print(content[1000]) #展示分词前的数据内容
content_S=[] #预设定,存入分词后的数据
for line in content:current_segment = jieba.lcut(line) #进行分词处理if(len(current_segment)>1 and current_segment !='\r\n'): #加入换行符content_S.append(current_segment) #将分词结果存入content_S[1000] #展示分词效果df_content = pd.DataFrame({'content_S':content_S}) #可视化每一条文本数据的分词结果
df_content.head()

在这里插入图片描述

(4)设计停止词表,对文本数据的多余部分进行删除,可视化所有词,并统计次数

stopwords = pd.read_csv("stopwords.txt",index_col = False, sep="\t",quoting=3,names=['stopwords'])
stopwords.head(20)

在这里插入图片描述

def drop_stopwords(contents,stopwords):contents_clean=[]all_words=[]for line in contents:line_clean=[]for word in line:if word in stopwords:continueline_clean.append(word)all_words.append(str(word))contents_clean.append(line_clean)return contents_clean,all_wordscontents = df_content.content_S.values.tolist()
stopwords = stopwords.stopword.values.tolist()
contents_clean,all_words =drop_stopwords(contents,stopwords)df_content = pd.DataFrame({'contents_cleadn':contents_clean})
df_content.head
df_all_words = pd.DataFrame({'all_words':all_words})
words_count = df_all_words.groupby(by=['all_words'])['all_words'].agg({'count':numpy.size})
words_count = words_count.reset_index().sort_values(by=['count'],ascending = False)
words_count.head()

(5)词云展示

import matplotlib.pyplot as plt
from wordcloud import WordCloud
import matplotlibmatplotlib.rcParams['figure.figsize'] = (10.0,5.0)
wordcloud = WordCloud(font_path = "./data/simhei.ttf",background_color="white",max_front_size=80)
word_frequence = {x[0]: x[1] for x in words_count.head(100).values}
wordcloud = wordcloud.fit_words(word_frequence)
plt.imshow(wordcloud)

在这里插入图片描述
(6)TF-IDF提取关键词

import jieba.analyse
index = 2000
print(df_news['content'][index])
content_S_str="".join(content_S[index])
print("".join(jieba.analyse.extract_tags(content_S_str,topK=10,withWeight=False)))

在这里插入图片描述
(7)LDA主题模型

from gensim import corpora,models,similarities
import gensimdictionary = corpora.Dictionary(contents_clean)
corpus = [dictionary.doc2bow(sentence) for sentence in contents_clean]
lda = gensim.models.ldamodel.LdaModel(corpus=corpus,id2word=dictionary,num_topics=20)
print(lda.print_topic(1,topn=5))

在这里插入图片描述

在这里插入图片描述
(8)基于贝叶斯算法的新闻数据分析

df_train = pd.DataFrame({'contents_clean':contents_clean,'label':df_news['category']})
df_train.tail()df_train.label.unique()
label_mapping = {"汽车":1,"财经":2,"科技":3,"健康":4,"体育":5,"教育":6,"文化":7,"军事":8,"娱乐":9,"时尚":0}
df_train['label']=df_train['label'].map(label_mapping)from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(df_train['contents_clean'].values, df_train['label'].values,random_state=1)words = []
for line_index in range(len(x_train)):try:words.append(' '.join(x_train[line_index]))except:print(line_index)print(words[0])
print(len(words))from sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer(analyzer = 'word', max_features=4000, lowercase=False)
vec.fit(words)from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(vec.transform(words), y_train)test_words = []
for line_index in range(len(x_test)):try:test_words.append(" ".join(x_test[line_index]))except:print(line_index)
test_words[0]print(classifier.score(vec.transform(test_words),y_test))

在这里插入图片描述

http://www.15wanjia.com/news/193162.html

相关文章:

  • 推广型网站建设网址app我的页面设计
  • 医院网站建设规划书网页代码在线生成
  • 网站设计制作费用建英文网站
  • 长沙3合1网站建设青海西宁网站开发公司
  • 如何利用视频网站做推广wordpress主题wpgo
  • 网站中英文版怎么做网站网络拓扑图
  • 网站建设怎么报价清博大数据舆情监测平台
  • 广州 网站建设 行价聚名网备案
  • 网站运营分析常州网红餐厅有哪些
  • 网站建设预付费入什么科目深圳网站建站费用
  • a站怎么进手表之家
  • 德阳响应式网站建设上海单位建设报建网站
  • 电影网站怎么做要多少钱建设银行东莞招聘网站
  • 王色网站展示型企业网站制作费用
  • 新手建网站视频教程深圳龙岗做网站公司哪家好
  • 谷歌推广运营seo外链资源
  • 美食网站建设的内容分析专业做小程序开发的公司
  • 北京网站设计制作免费舆情网站下载
  • 自主做网站徐州网站建设 网站推广
  • 前程无忧网最新招聘信息手机网站图片优化
  • 山东省住房建设厅网站首页python做的知名网站
  • 微商城网站建设方案最好的微网站建设价格
  • 上软件下载app电影网站如何做seo排名
  • 网站的风格设计什么网站可以做自媒体
  • 雅安城乡住房建设厅网站网站上图片的链接怎么做
  • 网站什么英文字体厦门市建设局思明建设分局官方网站
  • 视觉传达设计就业前景优化防疫措施+科学精准防控
  • 益阳公司官网韶关seo
  • 如何编辑网站内容为什么做网站能赚钱
  • 佛山网站推广优化网络规划设计师2023估分