Python中如何对数据分组,代码是什么
Admin 2022-10-18 群英技术资讯 324 次浏览
假设我们有这样一种数据:
data=[ ("apple",30),("apple",35), ("apple",32),("pear",60), ("pear",32),("pear",60), ("banana",102),("banana",104) ] #我们希望变成如下格式 """ [('apple',[30,35,32]), ('pear',[60,32,60]), ('banana',[102,104])] """
如果是你的话,你会怎么做呢?很容易想到的一种解决方案是构造一个字典:
data=[ ("apple",30),("apple",35), ("apple",32),("pear",60), ("pear",32),("pear",60), ("banana",102),("banana",104) ] data_dict={} forname,countindata: ifnamenotindata_dict: data_dict[name]=[] data_dict[name].append(count) print(data_dict) """ {'apple':[30,35,32], 'pear':[60,32,60], 'banana':[102,104]} """ print(list(data_dict.items())) """ [('apple',[30,35,32]), ('pear',[60,32,60]), ('banana',[102,104])] """
这种方案完全没有问题,不过我们还可以写的更优雅一些,也就是使用字典的 setdefault 方法:
data=[ ("apple",30),("apple",35), ("apple",32),("pear",60), ("pear",32),("pear",60), ("banana",102),("banana",104) ] data_dict={} forname,countindata: #setdefault(k,v)含义如下 #当k不存在时,将k:v设置在字典中,并返回v #当k存在时,直接返回k对应值 data_dict.setdefault(name,[]).append(count) print(list(data_dict.items())) """ [('apple',[30,35,32]), ('pear',[60,32,60]), ('banana',[102,104])] """
setdefault 是一个非常方便的方法,但是使用频率却不怎么高,或者说该方法不太让人喜欢。主要是每次调用都要给一个初始值,比如代码中的空列表 []。另外这里的初始值可以任意,如果你希望添加的时候还能实现去重效果,那么就将空列表换成空集合即可。
或者我们还可以使用 defaultdict,它位于 collections 模块中。
fromcollectionsimportdefaultdict data=[ ("apple",30),("apple",35), ("apple",32),("pear",60), ("pear",32),("pear",60), ("banana",102),("banana",104) ] #里面接收一个callable #当访问的k不存在时,返回callable调用之后的值 data_dict1=defaultdict(list) forname,countindata: data_dict1[name].append(count) print(list(data_dict1.items())) """ [('apple',[30,35,32]), ('pear',[60,32,60]), ('banana',[102,104])] """ #也可以指定为set data_dict2=defaultdict(set) forname,countindata: data_dict2[name].add(count) print(list(data_dict2.items())) """ [('apple',{32,35,30}), ('pear',{32,60}), ('banana',{104,102})] """
总的来说,defaultdict 和字典的 setdefault 方法非常类似,我们使用 setdefault 即可。
当然啦,关于分组,还有一种特殊情况,就是词频统计。假设我们想统计可迭代对象中,每个元素出现的次数该怎么做呢?
data=["apple","apple","apple", "pear","pear","pear", "banana","banana"] data_dict={} foritemindata: #此处不能使用setdefault,因为它是函数 #.setdefault(item,0)+=1是不符合语法规则的 ifitemnotindata_dict: data_dict[item]=0 data_dict[item]+=1 print(data_dict) """ {'apple':3,'pear':3,'banana':2} """ #或者使用defaultdict fromcollectionsimportdefaultdict data_dict=defaultdict(int) foritemindata: data_dict[item]+=1 print(data_dict) """ defaultdict(<class'int'>, {'apple':3,'pear':3,'banana':2}) """
然而说到词频统计,我们还可以使用 collections 下的 Counter 类。
fromcollectionsimportCounter data=["apple","apple","apple", "pear","pear","pear", "banana","banana"] data_dict=Counter(data) #直接搞定,Counter已经包含了我们之前的逻辑 print(data_dict) """ Counter({'apple':3,'pear':3,'banana':2}) """ #Counter继承dict,除了支持字典操作之外 #还提供了很多其它操作,其中一个就是most_common #用于选择出现频率最高的几个元素 print(data_dict.most_common(2)) """ [('apple',3),('pear',3)] """
还是很简单的
到此,关于“Python中如何对数据分组,代码是什么”的学习就结束了,希望能够解决大家的疑惑,另外大家动手实践也很重要,对大家加深理解和学习很有帮助。如果想要学习更多的相关知识,欢迎关注群英网络,小编每天都会给大家分享实用的文章!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
Python实现添加搜索路径的代码是什么,一些朋友可能会遇到这方面的问题,对此在下文小编向大家来讲解一下,内容详细,易于理解,希望大家阅读完这篇能有收获哦,有需要的朋友就往下看吧!
本文详细讲解了Python制作基础学生信息管理系统的实现,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
Django部署到Cenos需要安装大量的依赖包, 有很多坑需要踩,这篇文章主要给大家介绍了关于将django项目部署到centos踩坑的相关资料,需要的朋友可以参考下
继承的概念,在程序中,继承描述的是多个类之间的所属关系。如果一个类A里面的属性和方法可以复用,则可以通过继承的方式,传递到类B里。那么类A就是基类,也叫做父类;类B就是派生类,也叫做子类。
这篇文章主要为大家介绍了Python实现两种多分类混淆矩阵,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008