pandas怎么样生成、读取csv文件,具体方法和代码是什么
Admin 2022-07-06 群英技术资讯 321 次浏览
csv是我接触的比较早的一种文件,比较好的是这种文件既能够以电子表格的形式查看又能够以文本的形式查看。
先引入pandas库
import pandas as pd
1、我构造了一个cont_list,结构为列表嵌套字典,字典是每一个样本,类似于我们爬虫爬下来的数据的结构
2、利用pd.DataFrame方法先将数据转换成一个二维结构数据,如下方打印的内容所示,cloumns指定列表,列表必须是列表
3、to_csv方法可以直接保存csv文件,index=False表示csv文件不加行序号
保存csv结果
应用到我们的爬虫代码,传入的con_list就是[{},{},{}****]这样的额数据结构,encoding="utf_8_sig",encoding="gb18030”,我这边解决中文编码问题
是不是很方便就,2行代码即可搞定保存,是不是比上次讲的方法简单好多,其实很多方法,还有python的优秀库,都使python这门语言在数据分析领域有极大的优势
流程:模拟登录→获取Html页面→正则解析所有符合条件的行→逐一将符合条件的行的所有列存入到CSVData[]临时变量中→写入到CSV文件中
核心代码:
####写入csv文件中 with open(self.CsvFileName, 'wb') as csvfile: spamwriter = csv.writer(csvfile, dialect='excel') #设置标题 spamwriter.writerow(["游戏账号","用户类型","游戏名称","渠道","充值类型","充值金额","返利金额","单号","日期"]) #将CsvData中的数据循环写入到CsvFileName文件中 for item in self.CsvData: spamwriter.writerow(item)
完整代码:
# coding=utf-8 import urllib import urllib2 import cookielib import re import csv import sys class Pyw(): #初始化数据 def __init__(self): #登录的Url地址 self.LoginUrl="http://v.pyw.cn/login/check" #所要获取的Url地址 self.PageUrl="http://v.pyw.cn/Data/accountdetail/%s" # 传输的数据:用户名、密码、是否记住用户名 self.PostData = urllib.urlencode({ "username": "15880xxxxxx", "password": "a123456", "remember": "1" }) #第几笔记录 self.PageIndex=0; #循环获取共4页内容 self.PageTotal=1 #正则解析出tr self.TrExp=re.compile("(?isu)<tr[^>]*>(.*?)</tr>") #正则解析出td self.TdExp = re.compile("(?isu)<td[^>]*>(.*?)</td>") #创建cookie self.cookie = cookielib.CookieJar() #构建opener self.opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookie)) #解析页面总页数 self.Total=4 #####设置csv文件 self.CsvFileName="Pyw.csv" #####存储Csv数据 self.CsvData=[] #解析网页中的内容 def GetPageItem(self,PageHtml): #循环取出Table中的所有行 for row in self.TrExp.findall(PageHtml): #取出当前行的所有列 coloumn=self.TdExp.findall(row) #判断符合的记录 if len(coloumn) == 9: # print "游戏账号:%s" % coloumn[0].strip() # print "用户类型:%s" % coloumn[1].strip() # print "游戏名称:%s" % coloumn[2].strip() # print "渠道:%s" % coloumn[3].strip() # print "充值类型:%s" % coloumn[4].strip() # print "充值金额:%s" % coloumn[5].strip().replace("¥", "") # print "返利金额:%s" % coloumn[6].strip().replace("¥", "") # print "单号:%s" % coloumn[7].strip() # print "日期:%s" % coloumn[8].strip() #拼凑行数据 d=[coloumn[0].strip(), coloumn[1].strip(), coloumn[2].strip(), coloumn[3].strip(), coloumn[4].strip(), coloumn[5].strip().replace("¥", ""), coloumn[6].strip().replace("¥", ""), coloumn[7].strip(), coloumn[8].strip()] self.CsvData.append(d) #模拟登录并获取页面数据 def GetPageHtml(self): try: #模拟登录 request=urllib2.Request(url=self.LoginUrl,data=self.PostData) ResultHtml=self.opener.open(request) #开始执行获取页面数据 while self.PageTotal<=self.Total: #动态拼凑所要解析的Url m_PageUrl = self.PageUrl % self.PageTotal #计算当期第几页 self.PageTotal = self.PageTotal + 1 #获取当前解析页面的所有内容 ResultHtml=self.opener.open(m_PageUrl) #解析网页中的内容 self.GetPageItem(ResultHtml.read()) ####写入Csv文件中 with open(self.CsvFileName, 'wb') as csvfile: spamwriter = csv.writer(csvfile, dialect='excel') #设置标题 spamwriter.writerow(["游戏账号","用户类型","游戏名称","渠道","充值类型","充值金额","返利金额","单号","日期"]) #将CsvData中的数据循环写入到CsvFileName文件中 for item in self.CsvData: spamwriter.writerow(item) print "成功导出CSV文件!" except Exception,e: print "404 error!%s" % e #实例化类 p=Pyw() #执行方法 p.GetPageHtml()
导出结果
import pandas as pd data = pd.read_table('地址', sep=",")['网址'].values print(data[1])
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
这篇文章介绍了python自动化测试之破解图文验证码的解决方案,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
python开发中时长到货币格式化的问题,一般情况下可以使用locale模块。但是这个模块使用起来不是那么顺手,今天我为大家介绍一个很好用的方
这篇文章主要为大家详细介绍了如何利用Python语言绘制好看的数据动态图,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起动手尝试一下
大家好,本篇文章主要讲的是python实现新年倒计时实例代码,昂星期的同学赶快来看一看吧,对你有帮助的话记得收藏一下,方便下次浏览
这篇文章主要介绍了Python绘制折线图可视化神器pyecharts,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008