当前位置：移动技术网 > 科技>操作系统>Linux > 几个文本处理工具的简单使用（wc，cut，sort，uniq，diff和patch）

几个文本处理工具的简单使用（wc，cut，sort，uniq，diff和patch）

2019年02月22日 | 移动技术网科技 | 我要评论

pp狗,193333,伦理免费电影

wc

wc命令用于报告文本文件的一些统计计数，例如行数、单词数、字节数等。

语法如下。

wc [option]... [file]...
wc [option]... --files0-from=f

--files0-from=f：这个选项几乎没见过有人使用，我也看不懂，因此就忽略掉了。

默认情况下显示3个计数，从左往右分别是行数、单词数和字节数。

[root@c7 ~]# wc /etc/passwd
  51   94 2599 /etc/passwd

如果被统计的文件数大于1，那么还会显示一行总计。

[root@c7 ~]# wc /etc/passwd /etc/init.d/functions 
   51    94  2599 /etc/passwd
  707  2364 18104 /etc/init.d/functions
  758  2458 20703 total

可以通过选项控制，单独显示这3个计数。

-l, --lines：显示行数。

[root@c7 ~]# wc -l /etc/passwd
51 /etc/passwd

-w, --words：显示单词数。

[root@c7 ~]# wc -w /etc/passwd
94 /etc/passwd

-c, --bytes：显示字节数。

[root@c7 ~]# wc -c /etc/passwd
2599 /etc/passwd

还可以显示一些另外的计数。

-m, --chars：显示字符数。

[root@c7 ~]# wc -m /etc/passwd
2599 /etc/passwd

-l, --max-line-length：显示文件中最长的行的长度。

[root@c7 ~]# wc -l /etc/passwd
99 /etc/passwd

cut

从一个文本文件中，截取我们所需要的部分进行显示，一般是用于有固定的分隔符的文本文件，例如/etc/passwd这种以“:”作为分隔符的文件。

cut的默认分隔符是tab。

语法如下。

cut option... [file]...

我们创建一个测试文件cut.txt，第一行以tab分隔，第二行以一个空格分隔，第三行分别以一个空格、两个空格和三个空格分隔。

[root@c7 ~]# cat -a cut.txt
a^ilong^idi^idi$
a long di di$
a long  di   di$

在“cat -a”的输出中，“^i”表示tab，“$”表示换行符。

-f, --fields=list：指定要截取每一行中第几个字段的数据。

这里的list，可以是单独的某个字段，也可以是连续的字段范围，也可以是离散的字段，如下所示。

# cut -f 2 file
# cut -f 2,3,4 file
# cut -f 2-5 file
# cut -f 1,2-3,5 file
# cut -f 2- file：从第2个字段到行尾。
# cut -f -2 file：从行首到第2个字段。

list也可用于后面的-b和-c选项。

然后我们尝试对cut.txt取第二个字段。

[root@c7 ~]# cut -f 2 cut.txt 
long
a long di di
a long  di   di

我们发现，第一行以tab为分隔符的行取出的字段是正确的，另外2个字段是整行都取出来了。

这是因为默认情况下不包含分隔符的行会被整行打印，如果想避免这种情况可以使用-s选项。

-s, --only-delimited：只打印那些包含分隔符的行。

[root@c7 ~]# cut -sf 2 cut.txt 
long

这里有一点需要注意，使用短选项的时候，-f后面必须跟着数字，如果跟其他选项就会报错。

[root@c7 ~]# cut -fs 2 cut.txt 
cut: invalid byte, character or field list

-d, --delimiter=delim：指定分隔符，而不使用默认的tab，这个选项很有用，许多文件的默认分隔符都不是tab。

[root@c7 ~]# head -n 3 /etc/passwd | cut -d : -f 7
/bin/bash
/sbin/nologin
/sbin/nologin

-b, --bytes=list：只取多少个字节数的数据。

-c, --characters=list：只取多少个字符数的数据。

当取的数据是数字和字母的时候，这两个选项的结果一般是相同的。

[root@c7 ~]# echo "alongdidi" | cut -b 1-4
alon
[root@c7 ~]# echo "alongdidi" | cut -c 1-4
alon

--output-delimiter=string：设置输出时候的分隔符，默认是采用和输入文件相同的分隔符。

[root@c7 ~]# grep -e "^(root|zwl)" /etc/passwd | cut -d : -f 1,7
root:/bin/bash
zwl:/bin/bash
[root@c7 ~]# grep -e "^(root|zwl)" /etc/passwd | cut -d : -f 1,7 --output-delimiter "'s shell ="
root's shell =/bin/bash
zwl's shell =/bin/bash

sort

sort用于将文件排序后显示。

语法如下。

sort [option]... [file]...
sort [option]... --files0-from=f

sort的排序可以针对多个文件，一起排序后显示。

[root@c7 ~]# cat sort1.txt 
aaa
ccc
bbb
[root@c7 ~]# cat sort2.txt 
eee
fff
ddd
[root@c7 ~]# sort sort1.txt 
aaa
bbb
ccc
[root@c7 ~]# sort sort1.txt sort2.txt 
aaa
bbb
ccc
ddd
eee
fff

sort的默认排序方式，是先比较第一个字符在ascii码表中的值，如果一样，则再比较第二个字符。以此类推。

数字的ascii值小于小写字母的小于大写字母的。

[root@c7 ~]# cat sort.txt
aaa
ddd
fff
aaa
bbb
bbb
eee
ccc
999
876
333
[root@c7 ~]# sort sort.txt
333
876
999
aaa
aaa
bbb
bbb
ccc
ddd
eee
fff

-r, --reverse：sort默认是有小到大排序，该选项则用于反向排序。

[root@c7 ~]# sort sort.txt
111
222
555
888
[root@c7 ~]# sort -r sort.txt
888
555
222
111

-n, --numeric-sort：基于数值排序。由于sort默认的排序机制导致sort没办法将数字按照数值大小准确排序，需要加上该选项方可实现。

[root@c7 ~]# sort sort.txt
1790
180
19
[root@c7 ~]# sort -n sort.txt
19
180
1790

-t, --field-separator=sep：指定字段分隔符。

-k, --key=keydef：指定排序依据的字段。

二者结合可以使得sort在排序某个文件的时候根据每行固定的字段来排序。例如根据uid排序/etc/passwd。

[root@c7 ~]# head -n 5 /etc/passwd | sort -t : -k 3 -n
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin

-f, --ignore-case：忽略大小写排序，原理是sort内部会将小写字母转换成大写字母来排序。

-u, --unique：使得重复的行只出现一次，结合-f选项的话，只会保留一种大写/小写的情况。

[root@c7 ~]# sort sort.txt
aaa
aaa
aaa
bbb
bbb
bbb
ddd
jjj
ooo
[root@c7 ~]# sort -uf sort.txt
aaa
bbb
ddd
jjj
ooo

uniq

uniq用于报告或者忽略掉重复的行。默认行为是将相邻的重复行移除掉。

[root@c7 ~]# cut -d : -f 7 /etc/passwd
/bin/bash
/sbin/nologin
-- 多个重复 --
/sbin/nologin
/bin/sync
/sbin/shutdown
/sbin/halt
/sbin/nologin
-- 多个重复 --
/sbin/nologin
/bin/bash
-- 多个重复 --
/bin/bash
/sbin/nologin
[root@c7 ~]# cut -d : -f 7 /etc/passwd | uniq
/bin/bash
/sbin/nologin
/bin/sync
/sbin/shutdown
/sbin/halt
/sbin/nologin
/bin/bash
/sbin/nologin

这可能不是我们所要的结果，一般我们会先排序一下，再使用uniq移除相邻的重复行。

[root@c7 ~]# cut -d : -f 7 /etc/passwd | sort | uniq
/bin/bash
/bin/sync
/sbin/halt
/sbin/nologin
/sbin/shutdown

-c, --count：uniq还可以统计重复的行所出现的次数。

[root@c7 ~]# cut -d : -f 7 /etc/passwd | sort | uniq -c
      9 /bin/bash
      1 /bin/sync
      1 /sbin/halt
     39 /sbin/nologin
      1 /sbin/shutdown

-d, --repeated：只显示有重复的行。

[root@c7 ~]# cut -d : -f 7 /etc/passwd | sort | uniq -cd
      9 /bin/bash
     39 /sbin/nologin

-u, --unique：也可以只打印不重复的行。

[root@c7 ~]# cut -d : -f 7 /etc/passwd | sort | uniq -u
/bin/sync
/sbin/halt
/sbin/shutdown

diff和patch

diff用于对比两个文本文件的区别，对比的结果本质上是一个补丁文件，可以让patch用来对文件打补丁。

首先我们先看两个文本文件的内容。

[root@c7 ~]# cat -n old_file.txt 
     1    today
     2    is
     3    thursday
     4    !!!
[root@c7 ~]# cat -n new_file.txt 
     1    today
     2    is
     3    not
     4    thursday
     5    !?!?

接下来看diff的默认比对结果。

[root@c7 ~]# diff old_file.txt new_file.txt 
2a3
> not
4c5
< !!!
---
> !?!?

这个结果其实就是描述了被对比的两个文件之间的区别，只不过这个描述我们人类比较难以理解，将这个描述重定向至文本文件，那么该文件就成为一个补丁文件了。

[root@c7 ~]# diff old_file.txt new_file.txt > patch.txt

当我们拥有old_file.txt和补丁文件patch.txt的时候，我们就可以通过patch命令打补丁将old_file.txt变成（“升级”）new_file.txt。

[root@c7 ~]# patch -i patch.txt old_file.txt 
patching file old_file.txt
[root@c7 ~]# cat old_file.txt 
today
is
not
thursday
!?!?

如果想使得old_file.txt变回打补丁前的样子，可以在使用patch命令的时候，加上-r选项，打反向补丁。

[root@c7 ~]# patch -ri patch.txt old_file.txt 
patching file old_file.txt
[root@c7 ~]# cat old_file.txt 
today
is
thursday
!!!

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

关于Nginx处理HTTP请求的11个阶段流程

nginx实际把http请求处理流程划分为了11个阶段，这样划分的原因是将请求的执行逻辑细分，以模块为单位进行处理，各个阶段可以包含任意多个http模块... [阅读全文]
应用系统分布式构建运维

应用系统分布式构建运维 1+x初级，项目四部署主从数据库基础环境安装准备两台主机修改主机名 # hostnamectl set-hos... [阅读全文]
自动化运维工具Ansible之Tests测验详解

Ansible Tests 详解与使用案例主机规划添加用户账号说明： 1、运维人员使用的登录账号； 2、所有的业务都放在 /app/ 下「yu... [阅读全文]
Linux环境变量

在bash shell中，环境变量分为两类：全局变量局部变量全局环境变量全局环境变量对于shell会话和所有生成的子shell都是可见的。例如 ... [阅读全文]
快速升级Zabbix 5.0 版本

Zabbix 5.0 增加了很多新功能，如：垂直菜单、隐藏菜单、用户界面中的测试项目、限制代理检查、查找并替换预处理步骤 ES7支持等等...快来部署体... [阅读全文]
企业级虚拟化实战之KVM——虚拟机迁移

迁移概述系统的迁移是指把源主机上的操作系统和应用程序移动到目的主机，并且能够在目的主机上正常运行在没有虚拟机的时代，物理机之间的迁移依靠的... [阅读全文]
初步进入Linux世界

初步进入Linux世界一、Linux目录介绍 1.树型目录结构 Linux文件系统采用了多级目录的树型层次结构管理文件。树型结构的最上层是根目录，用／... [阅读全文]
Linux常用命令（详细）

Linux常用命令一、控制台相关命令控制台命令就是指通过字符界面输入的可以操作系统的命令。我们现在要了解的是基于Linux操作系统的基本控制台命令。... [阅读全文]
更安全的rm命令，保护重要数据

更安全的rm命令，保护重要数据网上流传的安全的rm，几乎都是提供一个rm的"垃圾"回收站，在服务器环境上来说，这实非良方。我想，提供一个安全的rm去... [阅读全文]
Javaweb项目配置到阿里云服务器

前言：在网上找了很多的博客教程，最后终于成功，记录一下，方便日后的查找。 https://blog.csdn.net/M_Kerry/article/d... [阅读全文]