Linux指令之利用uniq, sort，对大文件做排序去重

最近在对一些数据做筛洗，涉及到对大文件的排序和去重。刚开始接触到这个这个任务，我也是各种, 想用redis, 想用bitmap。发现各种这些实现的方法都极其繁琐，而且可能极其吃内存，所以都不是很可行。在百抓挠腮之际，知乎上发现了回答，就是利用sort进行排序，然后利用uniq进行去重。本来刚开始看到这个回答，我是持有怀疑态度的。但是进过实践发现，利用uniq 和 sort 的指令，其中间数据不.

zyhmz

4624人浏览 · 2019-06-30 18:01:55

zyhmz · 2019-06-30 18:01:55 发布

最近在对一些数据做筛洗，涉及到对大文件的排序和去重。刚开始接触到这个这个任务，我也是想尽各种方法, 想用redis, 想用bitmap。最后发现这些实现的方法都极其繁琐，而且极其吃内存，所以都不是很可行。在百抓挠腮之际，知乎上发现了一个回答，就是利用sort进行排序，然后利用uniq进行去重。

本来刚开始看到这个回答，我是持有怀疑态度的。但是经过实践发现，利用uniq 和 sort的指令，其中间数据不会全部存在内存，而是大部分存在磁盘里，是非常安全的做法。处理了几个4G左右的文件，速度也是非常快的。下面就来描述一下怎么去使用这两个指令：

$ cat testfile #原有内容  
test 30  
test 30  
test 30  
Hello 95  
Hello 95  
Hello 95  
Hello 95  
Linux 85  
Linux 85

使用uniq 命令删除重复的行后，有如下输出结果：

$ uniq testfile     #删除重复行后的内容  
test 30  
Hello 95  
Linux 85

但是我们现在又面临一个问题，就是如果重复的行是不相邻的，是没有办法去重的。不慌，可以利用另一个指令，sort + 管道 + uniq：

$ sort  testfile1 | uniq
Hello 95  
Linux 85 
test 30

其次，如果我们还想统计各行在文中出现的次数：

$ sort testfile1 | uniq -c
   3 Hello 95  
   3 Linux 85 
   3 test 30

最后，我们还想根据出现的次数进行排序，sort 的 -n 参数可以帮助我们实现这个功能，最后重定向到tem,csv的文件中：

 sort testfile1 | uniq -c | sort -n > tmp.csv

Linux

更多推荐

网卡速率和双工模式的配置

http://linux.chinaitlab.com/system/792187.html1、mii-tool 配置网络设备协商方式的工具； 1.1 mii-tool 介绍； mii-tool - view, manipulate media-independent interface status （mii-tool 是查看，管理介质的网络接口的状态）

Linux

Linux虚拟文件系统之文件系统卸载（sys_umount())

Linux中卸载文件系统由umount系统调用实现，入口函数为sys_umount()。较于文件系统的安装较为简单，下面是具体的实现。1. /*sys_umont系统调用*/2. SYSCALL_DEFINE2(umount, char __user *, name, int, flags)3. {4.struct path path;

Linux

Linux系统下超级终端Minicom的使用方法（例如：连接交换机，路由器等）转http://baike.baidu.com/view/2911642.htm?fr=ala0_1

Linux系统下超级终端Minicom的使用方法 　　Linux下的Minicom的功能与下的超级终端功能相似，适于在通过超级终端对设备的管理以及对嵌入操作系统的升级，现写出Minicom的使用手册： 　　1．启动minicom 　　以root权限登录系统 　　使用命令 　　minicom –s 则minicom启动，屏

Linux

所有评论(0)

查看更多评论

zyhmz

@zyhmz

已为社区贡献1条内容