Linux下面整理数据的awk

工作中常用的awk命令和含义

天色微凉

4135人浏览 · 2022-10-26 14:47:50

天色微凉 · 2022-10-26 14:47:50 发布

Linux三剑客：grep，awk 和 sed，从功能上来说分别对应了查找，分段，修改。

我们这里聚焦在分类、整理、统计上。

命令含义

awk = “Aho Weiberger and Kernighan” 三个作者的姓的第一个字母，它是一种语言解析引擎。主要是过滤、分类、统计日志。

工作中常用的awk命令和含义

awk ‘BBEGIN{}END{}’ 程序开始和结束
awk ‘/Running/’ 正则匹配
awk ‘/aa/,/bb/’ 区间选择
awk ‘$2~/xxx/’ 字段匹配，这里指从第2个字段开始匹配包含xxx内容的行
awk ’NR==2’ 取第二行
awk ’NR>1’ 去掉第一行

awk的操作基于行，对于每一行又默认以空格分为多个列，行和列的分隔符可以修改。

awk的基本语法是 `awk 'pattern{action}' `，可以只有pattern或者action，只有pattern=打印pattern匹配的行们，只有action=对于每一行都执行这个action。

pattern可以有以下几种

BEGIN  执行匹配之前可以采取的action
END    执行匹配之后可以采取的action
BEGINFILE     读文件之前可以采取的action
ENDFILE       读文件之后可以采取的action
/regular expression/    匹配每行正则表达式之后可以采取的action
pattern && pattern    且
pattern || pattern    或
pattern ? pattern : pattern 三目表达式
(pattern)    
! pattern    非
pattern1, pattern2    范围表达式，对于第一个匹配pattern1到第一个匹配pattern2之间的行采取action

行操作pattern

模式	说明
NR==1	取出某一行
NR>=1 && NR>=5	取出1到5行
/oldboy/	取出有 oldboy 的行
/101/,/105/	取出 101-105 行
符号	> < >= <= == !=

awk ‘$2~/xxx/’ 字段匹配，这里指从第2个字段开始匹配包含xxx内容的行
awk ’NR==2’ 取第二行
awk ’NR>1’ 去掉第一行

列操作pattern

-F	指定分隔符，指定每一列结束标记(默认是空格，连续的空格，tab键)
$数字	取出某一列，注意：在 awk 中 $ 内容一个意思，表示取出某一列
$0	整行的内容
{ptint xxx}	取列的时候使用的选项
$NF	表示最后一列

例子1

对于所有nginx进程发送信号12

样本数据

$ ps -ef|grep /opt/nginx/ |grep -v grep
root     109775      1  0 Oct21 ?        00:16:57 ./nginx
root     109776      1  0 Oct21 ?        00:15:04 ./nginx
root     196548      1 15 Oct19 ?        1-02:08:48 ./nginx
root     196567      1 12 Oct19 ?        21:12:28 ./nginx

我们需要拿到进程号，这里对于每一行，以空格作为分隔符，进程号处于第二列，我们先输出它，然后向他发送信号-12。

$ ps -ef|grep /opt/nginx/ |grep -v grep|awk '{print $2}'|xargs kill -12

例子2

对于上面的Nginx进程，找到以19开头的进程，发送信号50

我们要对第二列匹配以19开头的进程号，需要用到 $2 取第二列，然后用 pattern进行匹配

$ ps -ef|grep /opt/nginx/ |grep -v grep|awk '$2~/19[^ ]*/{print $2}'|xargs kill -50

附加题：对于19开头的进程进行排序->去重->按数字的倒序显示

$ ps -ef|grep /opt/nginx/ |grep -v grep|awk '$2~/19[^ ]*/{print $2}'| sort | uniq -c | sort -nr

命令含义：

sort: 按从小到大进行排序
uniq -c :去重（相邻），还输出重复个数
-nr: 按数字进行倒叙排序
-n:按数字进行排序

例子3

利用awk给文本中每一行加上行号

样例文本自己生成

思路：awk运行前先定义序号索引0，用来递增保存用户,将用户提取出来，按索引分别保存, 切片结束后再按行数进行循环，将数字序号与第一步保存的信息拼接打印

使用命令

cat config.h_json |awk 'BEGIN{idx=0}{m[idx]=$0;idx++;}END{for(i=0;i<NR;i++) print i+1, m[i]}

可圈可点的是这里的变量和数组都不用声明，就可以直接使用。

含义解释：

awk执行之前先idx=0

对于每一行都存入数组中，并且把idx+1

awk执行之后输出每一行和对应行号

例子4

统计域名中一级域名的出现次数

[root@shell ~]# cat url.txt 
 2 http: // www. etiantian. org/index.html
 3 http: // www. etiantian. org/1.html
 4 http: //post.etiantian. org/index.html
 5 http: //mp3.etiantian. org/index.html
 6 http: // www. etiantian.org/3.html

观察数据特征：

这里的一级域名是`www`和`post`等，他们出现的规律是`//`之后和`.`之前，按照`grep`正则表达式的方式也是可以抓出来的，但是会带着这俩特殊符号，还需要做正则表达式的提取，比较麻烦。我们这里要用awk，就需要分割列，这里的分隔符可以取`/`和`.`，然后一行就被分成了三个以上的部分：前面 | 感兴趣的区域 | 后面balabala，然后就可以只打印出来感兴趣的区域，比较干净，然后 `sort + uniq -c` 即可

使用命令

awk -F [/.]+ '{print $2}' url.txt | sort | uniq -c

操作结果

$ awk -F [/.]+ '{print $2}' a|sort|uniq -c
      3  www
      1 mp3
      1 post

使用命令2 （纯 awk ）

awk -F [/.]+ '{arr[$2]++}END{for(i in arr) print  i,arr[i]}' a

操作结果

$ awk -F [/.]+ '{arr[$2]++}END{for(i in arr) print  i,arr[i]}' a
mp3 1
post 1
 www 3

附加：排序 `sort -rnk2`

`-n` 字典序

`-k2` 以第二个字段作为key排序

`-r` 反向输出

例子5 删除本地所有docker镜像

已知docker images的输出如下，对于每个image id要调用 docker rmi的命令

$ docker images
REPOSITORY                 TAG       IMAGE ID       CREATED         SIZE
apache                     test      3f4b9771aca2   22 hours ago    148MB
ubuntu                     sshd      c978c0c87cfd   23 hours ago    246MB
alpine                     gcc2      5294a9e943db   24 hours ago    223MB
alpine                     gcc       b4b874601d1e   24 hours ago    223MB
tian/test                  1.0       7bf7be2e7c57   27 hours ago    9.66MB
apache                     test      3f4b9771aca2   22 hours ago    148MB
ubuntu                     sshd      c978c0c87cfd   23 hours ago    246MB
alpine                     gcc2      5294a9e943db   24 hours ago    223MB
alpine                     gcc       b4b874601d1e   24 hours ago    223MB
tian/test                  1.0       7bf7be2e7c57   27 hours ago    9.66MB
apache                     test      3f4b9771aca2   22 hours ago    148MB
ubuntu                     sshd      c978c0c87cfd   23 hours ago    246MB
alpine                     gcc2      5294a9e943db   24 hours ago    223MB
alpine                     gcc       b4b874601d1e   24 hours ago    223MB
tian/test                  1.0       7bf7be2e7c57   27 hours ago    9.66MB
127.0.0.1:5000/echo        2.0       ea41ab66499a   47 hours ago    63.2MB

这里需要获取第三列的数据，而且第一行的标题头不能要，写法如下：

docker images|awk 'NR > 1 {print $3}'|awk '{print "docker rmi -f "$0}'|awk '{system($0)}'

Linux

更多推荐

网卡速率和双工模式的配置

http://linux.chinaitlab.com/system/792187.html1、mii-tool 配置网络设备协商方式的工具； 1.1 mii-tool 介绍； mii-tool - view, manipulate media-independent interface status （mii-tool 是查看，管理介质的网络接口的状态）

Linux

Linux虚拟文件系统之文件系统卸载（sys_umount())

Linux中卸载文件系统由umount系统调用实现，入口函数为sys_umount()。较于文件系统的安装较为简单，下面是具体的实现。1. /*sys_umont系统调用*/2. SYSCALL_DEFINE2(umount, char __user *, name, int, flags)3. {4.struct path path;

Linux

Linux系统下超级终端Minicom的使用方法（例如：连接交换机，路由器等）转http://baike.baidu.com/view/2911642.htm?fr=ala0_1

Linux系统下超级终端Minicom的使用方法 　　Linux下的Minicom的功能与下的超级终端功能相似，适于在通过超级终端对设备的管理以及对嵌入操作系统的升级，现写出Minicom的使用手册： 　　1．启动minicom 　　以root权限登录系统 　　使用命令 　　minicom –s 则minicom启动，屏

Linux

所有评论(0)

查看更多评论

天色微凉

@qq_33882435

已为社区贡献1条内容