PHP中实现大文件去重的方法是什么
Admin 2022-07-07 群英技术资讯 305 次浏览
1.对一个大文件比如我的文件为
-rw-r--r-- 1 ubuntu ubuntu 9.1G Mar 1 17:53 2018-12-awk-uniq.txt
2.使用split命令切割成10个小文件
split -b 1000m 2018-12-awk-uniq.txt -b 按照字节切割 , 支持单位m和k
3.使用10个php进程读取文件 , 插入redis的有序集合结构中 , 重复的是插不进去的 ,因此可以起到去重的作用
<?php $file=$argv[1]; //守护进程 umask(0); //把文件掩码清0 if (pcntl_fork() != 0){ //是父进程,父进程退出 exit(); } posix_setsid();//设置新会话组长,脱离终端 if (pcntl_fork() != 0){ //是第一子进程,结束第一子进程 exit(); } $start=memory_get_usage(); $redis=new Redis(); $redis->connect('127.0.0.1', 6379); $handle = fopen("./{$file}", 'rb'); while (feof($handle)===false) { $line=fgets($handle); $email=str_replace("\n","",$line); $redis->zAdd('emails', 1, $email); }
4. redis中查看获取的数据
zcard emails 获取元素个数
取一定范围的元素 , 比如从100000开始 到 100100结束
zrange emails 100000 100100 WITHSCORES
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
这篇文章主要为大家详细介绍了php反序列化之字符串逃逸,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
PHP对象接口有什么作用?如何实现?很多PHP新手对于对象接口实现不是很了解,对此这篇文章就给大家介绍一下对象接口以及简单对象接口实现代码,感兴趣的朋友就继续往下看吧。
php的date函数格式怎么显示时间?很多新手对于date() 函数格式化的使用不是很了解。对此吗,这篇文章就给大家介绍一下date() 函数的语法以及时间格式化的方式,本文有两个示例,有这方学习需求的朋友可以看一下。
Libevent 是一个用C语言编写的、轻量级的开源高性能I/O框架,支持多种 I/O 多路复用技术: epoll、 poll、 dev/poll、 select 和 kqueue 等;支持 I/O,定时器和信号等事件;注册事件优先级。
PHP自定义加密函数有哪些?在做项目的时候,我们可能会需要使用到加密函数,接下来小编就给大家分享一些PHP自定义加密函数,都是比较实用的,希望大家阅读完这篇文章能有收获,感兴趣的朋友就继续往下看吧。
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008