怎么用Python做中文词云?一文带你看懂云词的实现方法
Admin 2021-09-04 群英技术资讯 849 次浏览
怎么用Python做中文词云?一些朋友比较好奇中文词云的实现,因此这篇文章就主要给大家介绍Python实现中文词云的方法,下文的示例代码对大家了解Python实现词云的方法有一定的帮助,感兴趣的朋友接下来一起跟随小编来学习一下吧。
jieba:中文分词
wordcloud :Python词云库
imageio:读取图形数据
安装:
pip install jieba pip install wordcloud pip install imageio
类 | 功能 |
---|---|
WordCloud([font_path, width, height, …]) | 生成和绘制词云对象 |
ImageColorGenerator(image[, default_color]) | 基于图片的色彩 |
random_color_func([word, font_size, …]) | 随机生成颜色 |
get_single_color_func(color) | 创建一个颜色函数,它返回一个色调和饱和度 |
1、WordCloud类
class wordcloud.WordCloud( font_path=None, width=400, height=200, margin=2, ranks_only=None, prefer_horizontal=0.9, mask=None, scale=1, color_func=None, max_words=200, min_font_size=4, stopwords=None, random_state=None, background_color='black', max_font_size=None, font_step=1, mode='RGB', relative_scaling='auto', regexp=None, collocations=True, colormap=None, normalize_plurals=True, contour_width=0, contour_color='black', repeat=False, include_numbers=False, min_word_length=0, collocation_threshold=30)
2、WordCloud参数详解
参数 | 详解 |
---|---|
font_path | 词云图的字体路径(OTF或TTF格式) |
width | 画布的宽度、默认为400,如果mask不为空时,设置为mask获取图片的大小 |
height | 画布的高度,默认为200,如果mask不为空时,设置为mask获取图片的大小 |
prefer_horizontal | 默认值0.9;当值<1时,遇到不合适的地方时,算法将词体自动旋转 |
mask | 默认为None;如果不为空,指定了画布的图形,则width和height值不生效,使用提供的图形的大小 |
contour_width | 如果mask不为空,并且contour_width>0,将描绘出mask获取图片的轮廓,值越大,轮廓的线越粗 |
contour_color | 使用Mask时,描绘图片轮廓的颜色 |
scale | 图片生成后放大缩小时的分辨率 |
min_font_size | 词云图显示的最小字体,默认为4 |
max_font_size | 词云图显示的最大字体 |
max_words | 词云显示的最大词数 |
font_step | 字体步长 |
stopwords | 不显示的词,如果没有设置,则使用默认的内置的STOPWORdS列表;如果使用generate_from_frequencies参数,则忽略 |
background_color | 背景颜色 |
mode | 默认为"RGB",当mode="RGBA"并且background_color为None时,将会显示透明背景 |
relative_scaling | 字体大小与词频的关系,默认值为auto |
color_func | 默认为None,color_func=lambda *args, **kwargs:(255,0,0)词云的字体颜色将这设置为红色 |
regexp | 使用正则切分,默认为r"\w[\w']+",如果使用generate_from_frequencies则此参数不生效 |
collocations | 是否包含两个词的搭配,默认为True,如果使用generate_from_frequencies则此参数不生效 |
colormap | 设置颜色的参数,默认为"viridis",如果使用color_func参数,则此参数不生效 |
normalize_plurals | 是否删除尾随的词,比如's,如果使用generate_from_frequencies参数,则此参数不生效 |
repeat | 是否重复词组直到设置的最大的词组数 |
include_numbers | 是否包含数字,默认我False |
min_word_length | 最小数量的词,默认为0 |
collocation_threshold | 默认为30,整体搭配的评分等级 |
3、WordCloud类方法详解
方法 | 功能 |
---|---|
fit_words() | 根据词频生成词云 |
generate_from_frequencies() | 根据词频生成词云 |
generate() | 根据文本生成词云 |
generate_from_text() | 根据文本生成词云 |
process_text() | 将长文本分词,并去除屏蔽词 |
recolor() | 对输出颜色重新着色 |
to_array() | 转换为numpy数组 |
to_file() | 保存为图片文件 |
to_svg() | 保存为SVG(可缩放矢量图形) |
1、简单图案
代码:
import wordcloud # 词云使用的文字 text = "lemon" # 使用wordcloud.WordCloud类,并传入相关的参数 wc = wordcloud.WordCloud(background_color="white", repeat=True) wc.generate(text) # 保存图片 wc.to_file('test1.png')
2、自定义图片
代码:
import wordcloud # 导入imageio库中的imread函数,并用这个函数读取本地图片,作为词云形状图片 import imageio mk = imageio.imread("333.jpg") # 词云使用的文字 text = "lemon" # 使用wordcloud.WordCloud类,并传入相关的参数 wc = wordcloud.WordCloud(background_color="white", repeat=True,mask=mk) wc.generate(text) # 保存图片 wc.to_file('test1.png')
3、从文本读取
代码:
import wordcloud
import jieba
# 导入imageio库中的imread函数,并用这个函数读取本地图片,作为词云形状图片
import imageio
mk = imageio.imread("chen.jpg")
# 使用wordcloud.WordCloud类,并传入相关的参数
wc = wordcloud.WordCloud(background_color="white",
prefer_horizontal=0.5,
repeat=True,
mask=mk,
font_path='/System/Library/Fonts/STHeiti Light.ttc',
contour_width=2,
contour_color='pink',
collocation_threshold=100,
)
# 对来自外部文件的文本进行中文分词,得到string
f = open('gong.txt', encoding='utf-8')
txt = f.read()
txtlist = jieba.lcut(txt)
string = " ".join(txtlist)
# 将string变量传入w的generate()方法,给词云输入文字
wc.generate(string)
# 保存图片
wc.to_file('test.png')
现在大家对于怎么用Python做中文词云应该都有所了解了,上文分享了更多实例,有需要的朋友可以参考,希望对大家学习Python有帮助,想要了解更多Python实现云词的内容,大家可以关注群英网络其它相关文章。
文本转载自脚本之家
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。
Ptyhon内置函数-iter()函数。iter() 函数用来生成迭代器。
一、字符串转换成列表1.list()方法mystr='abcdefg'mylist=list(mystr)print(mylist)结果:['a','b','c','d','e','f','g']2.split()方法mystr='abcdefg'mylist=mystr.split()print(mylist)结果:['abcdefg']
本文主要介绍了Python datacompy 找出两个DataFrames不同的地方,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧<BR>
yield 简单说来就是一个生成器,生成器是这样一个函数,它记住上一次返回时在函数体中的位置。对生成器函数的第二次(或第 n 次)调用跳
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008