|
|
51CTO旗下网站
|
|
移动端

awk入门 —— 强大的文本分析工具

awk 是用于 Unix 和类 Unix 系统的强大文本解析工具,但是由于它有可编程函数,因此你可以用它来执行常规解析任务,因此它也被视为一种编程语言。你可能不会使用 awk 开发下一个 GUI 应用,并且它可能不会代替你的默认脚本语言,但是它是用于特定任务的强大程序。

作者:Seth Kenlon来源:Linux中国|2019-11-06 16:40

awk入门 —— 强大的文本分析工具

让我们开始使用它。

awk 是用于 Unix 和类 Unix 系统的强大文本解析工具,但是由于它有可编程函数,因此你可以用它来执行常规解析任务,因此它也被视为一种编程语言。你可能不会使用 awk 开发下一个 GUI 应用,并且它可能不会代替你的默认脚本语言,但是它是用于特定任务的强大程序。

这些任务或许是惊人的多样化。了解 awk 可以解决你的哪些问题的最好方法是学习 awk。你会惊讶于 awk 如何帮助你完成更多工作,却花费更少的精力。

awk 的基本语法是:

  1. awk [options] 'pattern {action}' file

首先,创建此示例文件并将其保存为 colours.txt

  1. name       color  amount
  2. apple      red    4
  3. banana     yellow 6
  4. strawberry red    3
  5. grape      purple 10
  6. apple      green  8
  7. plum       purple 2
  8. kiwi       brown  4
  9. potato     brown  9
  10. pineapple  yellow 5

数据被一个或多个空格分隔为列。以某种方式组织要分析的数据是很常见的。它不一定总是由空格分隔的列,甚至可以不是逗号或分号,但尤其是在日志文件或数据转储中,通常有一个可预测的格式。你可以使用数据格式来帮助 awk 提取和处理你关注的数据。

打印列

awk 中,print 函数显示你指定的内容。你可以使用许多预定义的变量,但是最常见的是文本文件中以整数命名的列。试试看:

  1. $ awk '{print $2;}' colours.txt
  2. color
  3. red
  4. yellow
  5. red
  6. purple
  7. green
  8. purple
  9. brown
  10. brown
  11. yellow

在这里,awk 显示第二列,用 $2 表示。这是相对直观的,因此你可能会猜测 print $1 显示第一列,而 print $3 显示第三列,依此类推。

要显示全部列,请使用 $0

美元符号($)后的数字是表达式,因此 $2$(1+1) 是同一意思。

有条件地选择列

你使用的示例文件非常结构化。它有一行充当标题,并且各列直接相互关联。通过定义条件,你可以限定 awk 在找到此数据时返回的内容。例如,要查看第二列中与 yellow 匹配的项并打印第一列的内容:

  1. awk '$2=="yellow"{print $1}' file1.txt
  2. banana
  3. pineapple

正则表达式也可以工作。此表达式近似匹配 $2 中以 p 开头跟上任意数量(一个或多个)字符后继续跟上 p 的值:

  1. $ awk '$2 ~ /p.+p/ {print $0}' colours.txt
  2. grape   purple  10
  3. plum    purple  2

数字能被 awk 自然解释。例如,要打印第三列包含大于 5 的整数的行:

  1. awk '$3>5 {print $1, $2}' colours.txt
  2. name    color
  3. banana  yellow
  4. grape   purple
  5. apple   green
  6. potato  brown

字段分隔符

默认情况下,awk 使用空格作为字段分隔符。但是,并非所有文本文件都使用空格来定义字段。例如,用以下内容创建一个名为 colours.csv 的文件:

  1. name,color,amount
  2. apple,red,4
  3. banana,yellow,6
  4. strawberry,red,3
  5. grape,purple,10
  6. apple,green,8
  7. plum,purple,2
  8. kiwi,brown,4
  9. potato,brown,9
  10. pineapple,yellow,5

只要你指定将哪个字符用作命令中的字段分隔符,awk 就能以完全相同的方式处理数据。使用 --field-separator(或简称为 -F)选项来定义分隔符:

  1. $ awk -F"," '$2=="yellow" {print $1}' file1.csv
  2. banana
  3. pineapple

保存输出

使用输出重定向,你可以将结果写入文件。例如:

  1. $ awk -F, '$3>5 {print $1, $2} colours.csv > output.txt

这将创建一个包含 awk 查询内容的文件。

你还可以将文件拆分为按列数据分组的多个文件。例如,如果要根据每行显示的颜色将 colours.txt 拆分为多个文件,你可以在 awk 中包含重定向语句来重定向每条查询

  1. $ awk '{print > $2".txt"}' colours.txt

这将生成名为 yellow.txtred.txt 等文件。

【编辑推荐】

  1. Linux 下软链接和硬链接的区别
  2. 5个Linux桌面上的密码管理器
  3. 微软官宣:基于Chromium的Edge即将登陆GNU/Linux平台
  4. 一些 Linux 系统故障修复和修复技巧
  5. 如何在Linux中找出内存消耗大的进程
【责任编辑:庞桂玉 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

骨干网与数据中心建设案例

骨干网与数据中心建设案例

高级网工必会
共20章 | 捷哥CCIE

340人订阅学习

中间件安全防护攻略

中间件安全防护攻略

4类安全防护
共4章 | hack_man

135人订阅学习

CentOS 8 全新学习术

CentOS 8 全新学习术

CentOS 8 正式发布
共16章 | UbuntuServer

280人订阅学习

读 书 +更多

软件工程:实践者的研究方法

20多年以来,《软件工程:实践者的研究方法》一书是最受学生和行业专业人员欢迎的软件工程指南。它在全面而系统、概括而清晰地介绍软件工程...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO官微