python下载文件有哪一些方式,你了解多少?
Admin 2021-05-20 群英技术资讯 701 次浏览
本文主要给大家介绍python下载文件的方式,有一般同步下载、使用流式请求,requests.get方法的stream、异步下载文件、异步拆分下载文件这四种方式,感兴趣的朋友可以参考学习。
示例代码:
import requests import os def downlaod(url, file_path): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0" } r = requests.get(url=url, headers=headers) with open(file_path, "wb") as f: f.write(r.content) f.flush()
默认情况下是stream的值为false,它会立即开始下载文件并存放到内存当中,倘若文件过大就会导致内存不足的情况,程序就会报错。
当把get函数的stream参数设置成True时,它不会立即开始下载,当你使用iter_content或iter_lines遍历内容或访问内容属性时才开始下载,需要注意一点:文件没有下载之前,它也需要保持连接。
iter_content:一块一块的遍历要下载的内容 iter_lines:一行一行的遍历要下载的内容
使用上面两个函数下载大文件可以防止占用过多的内存,因为每次只下载小部分数据。
示例代码:
由于request的请求是阻塞式的,所以要用aiohttp模块来发起请求。
示例代码:
import aiohttp import asyncio import os async def handler(url, file_path): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0" } async with aiohttp.ClientSession() as session: r = await session.get(url=url, headers=headers) with open(file_path, "wb") as f: f.write(await r.read()) f.flush() os.fsync(f.fileno()) loop = asyncio.get_event_loop() loop.run_until_complete(handler(url, file_path))
上面用的是一个协程下载一个文件,下面的方法是将文件分成几部分,每个部分用一个协程下载,最后再写入文件。
下面这个例子用的是流式写入,即把内容写入到磁盘里面。
import aiohttp import asyncio import time import os async def consumer(queue): option = await queue.get() start = option["start"] end = option["end"] url = option["url"] filename = option["filename"] i = option["i"] print(f"第{i}个任务开始运行") async with aiohttp.ClientSession() as session: headers = {"Range": f"bytes={start}-{end}"} r = await session.get(url=url, headers=headers) with open(filename, "rb+") as f: f.seek(start) while True: chunk = await r.content.read(end - start) if not chunk: break f.write(chunk) f.flush() os.fsync(f.fileno()) print(f"第{i}个任务正在写入中ing") queue.task_done() print(f"第{i}个任务写入成功") async def producer(url, headers, filename, queue, coro_num): async with aiohttp.ClientSession() as session: resp = await session.head(url=url, headers=headers) file_size = int(resp.headers["content-length"]) # 创建一个文件 with open(filename, "wb") as f: pass part = file_size // coro_num for i in range(coro_num): start = part * i if i == coro_num - 1: end = file_size else: end = start + part info = { "start": start, "end": end, "url": url, "filename": filename, "i": i, } queue.put_nowait(info) async def main(): # 需要填的有url,filename,coro_num url = "" filename = "" coro_num = 0 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0" } queue = asyncio.Queue(coro_num) await producer(url, headers, filename, queue, coro_num) task_list = [] for i in range(coro_num): task = asyncio.create_task(consumer(queue)) task_list.append(task) await queue.join() for i in task_list: i.cancel() await asyncio.gather(*task_list) startt = time.time() loop = asyncio.get_event_loop() loop.run_until_complete(main()) end = time.time() - startt print(f"用了{end}秒")
以上的示例都是介绍思路,程序并不健壮,健壮的程序需要加入错误捕获和错误处理。
关于python下载文件的四种方式就介绍到这,上述方法仅供大家参考,希望能对大家有帮助,想要了解更多python下载文件的内容,可以关注其他相关文章。
文本转载自脚本之家
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
python的is和in有啥不同?很多新手学习python,对于is和in的区别不是很清楚,对此,下面小编就给大家简单的介绍一下python的is和in的区别以及用法,感兴趣的朋友就继续往下看吧。
这篇文章主要为大家介绍了python循环神经网络RNN的tf.nn.dynamic_rnn使用示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
这篇文章主要介绍了Python实战之实现康威生命游戏,文中有非常详细的代码示例,对正在学习python的小伙伴们有非常好的帮助,需要的朋友可以参考下
这篇文章给大家分享的是有关python分数的用法的内容。小编觉得挺实用的,因此分享给大家,下文有具体的实例供大家参考,接下来一起跟随小编看看吧。
不少朋友应该都有玩过2048游戏吧,就是合并和消除数字的一款游戏。那么我们如果使用python,怎么写一个2048游戏呢?下面就给大家分享使用Python实现2048游戏代码,感兴趣的朋友可以参考学习。
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008