文本分析工具,简介和例子

本文分为两个部分:1 基本观点和概念;2 AWK 文本解析的例子。

文本分析工具-awk

一.AWK简介

awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。

awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。

awk其名称得自于它的创始人
Alfred Aho 、Peter Weinberger
和 Brian Kernighan 姓氏的首个字母。实际上 AWK 的确拥有自己的语言: AWK 程序设计语言 , 三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能。

二.使用方法

awk ‘{pattern +action}’
{filenames}

尽管操作可能会很复杂,但语法总是这样,其中
pattern 表示 AWK 在数据中查找的内容,而action 是在找到匹配内容时所执行的一系列命令。花括号({})不需要在程序中始终出现,但它们用于根据特定的模式对一系列指令进行分组。
pattern就是要表示的正则表达式,用斜杠括起来。 

awk语言的最基本功能是在文件或者字符串中基于指定规则浏览和抽取信息,awk抽取信息后,才能进行其他文本操作。完整的awk脚本通常用来格式化文本文件中的信息。 

通常,awk是以文件的一行为处理单位的。awk每接收文件的一行,然后执行相应的命令,来处理文本。 

基本观点和概念:

————————————–分割线

AWK简介及使用实例

AWK 简介和例子

Shell脚本之AWK文本编辑器语法

正则表达式中AWK的学习和使用

文本数据处理之AWK 图解

如何在Linux中使用awk命令

1 AWK 是一种用于处理文本的编程语言工具。

————————————–分割线

三.调用awk的方式

有三种方式调用awk 

1.命令行方式

1 awk [-F  field-separator]  'commands' input-file(s)

其中,commands 是真正awk命令,[-F域分隔符]是可选的。 input-file(s) 是待处理的文件。

在awk中,文件的每一行中,由域分隔符分开的每一项称为一个域。通常,在不指名-F域分隔符的情况下,默认的域分隔符是空格。 

2.shell脚本方式

将所有的awk命令插入一个文件,并使awk程序可执行,然后awk命令解释器作为脚本的首行,一遍通过键入脚本名称来调用。

相当于shell脚本首行的:#!/bin/sh

可以换成:#!/bin/awk 

3.将所有的awk命令插入一个单独文件,然后调用:

awk -fawk-script-file
input-file(s)

其中,-f选项加载awk-script-file中的awk脚本,input-file(s)跟上面的是一样的。 

四.awk基本命令介绍

选项:

-F[:]:指明输入字段分隔符

-v var=var :变量赋值,对内置变量或自定义变量赋值

 

实例1:以逗号为字段分隔符,打印文本内容的第一个字段和第三个字段(取到的结果就是用户的用户名和UID)

1 2 3 4 5 #gawk -F:  '{print $1,$3}' /etc/passwd  root 0 bin 1 daemon 2

 

无逗号就会连接两个字段,逗号是输出分隔符

1 2 3 4 5 # gawk -F:  '{print $1$3}' /etc/passwd root0 bin1 daemon2

 

这种是awk+action的示例,每行都会执行action{print
$1,$3}。 

五.awk的输出命令:print和printf

awk中同时提供了print和printf两种打印输出的函数。

5.1.print命令:

命令用法:

1 printitem1,item2……

 

使用要点:

1.各item间使用逗号分割,而输出时则使用输出分隔符

2.输出的各item可以是字符串或数值,当前记录的字段($n),变量或awk的表达式;数值会被隐式转换为字符进行输出

3.print后面的item如果省略,相当于print $0(输出整行);输出空白使用print””; 

5.2.printf命令:

命令格式:

1 printf  format,item1,item2……

使用要点:

1.format格式符必须使用

2.不会自动换行,需要手动添加行分隔符

3.format格式符中需要分别为后面的每个item指定一个格式符

格式符:都以%开头,后跟一个字符

        %c:显示字符的ASCII码;

        %i,%d:显示十进制整数;

        %e,%E:科学计数法显示数值;

        %f:显示浮点数;

        %g,%G:以科学计数法格式或浮点数格式显示数值;

        %s:字符串;

        %u:无符号整数;

        %%:显示%自身

图片 1

 

修饰符:

        #[.#]:第一个#显示宽度,例如%30s;第二个.#显示小数点后精度

        -:左对齐

        +:显示数值符号

图片 2

 

图片 3

 

图片 4

 

六.awk的变量

6.1.内置变量

records:行相关

fields:字段相关

FS: input field seperator,字段分隔符,默认为空白字符

#awk -v FS=”:” ‘{print $1,$3}’ /etc/passwd

图片 5

 

OFS:output fieldseparator,输出字段分隔符

语句与语句之间分隔符定义,默认是空格

# awk’BEGIN{FS=”:”; OFS=”=”} {print $1,$3}’ /etc/passwd

图片 6

RS:input record
seperator,输入记录的分隔符,默认为新行。

实例:以冒号为换行符,输出全文内容

# awk -v RS=”:” ‘{print $0}’ /etc/passwd

图片 7

ORS: Outpput Row Seperator, 输出时的行分隔符;

默认的行分隔符一般都是换行,我们可以自定义为#

下面就是将所有以:为分隔符的替换成以#的分隔符:

# awk ‘BEGIN{ RS=”:”;ORS=”#”} {print $0}’ /etc/passwd

图片 8

NF:Number of Field,当前记录的字段(field)个数

统计/etc/issue文件内每行字段的个数:

# awk ‘{print NF}’ /etc/issue

图片 9

注意:这里NF是变量引用,可以不用加$,$NF显示字段位置

 

NR: number of inputrecords
,当前文本的行数

图片 10

如果有多个文件,这个数目会把处理的多个文件中行统一计数 

图片 11

 

FNR: 与NR不同的是,FNR用于记录正处理的行是当前这一文件中被总共处理的行数

图片 12

 

ARGV:数组,保存命令本身这个字符,awk'{print
$0}’ file1 file2,意味着ARGV[0]保存awk,

图片 13

 

ARGC: 保存awk命令中参数的个数,不包含命令本身;

此命令中有3个参数,为awk  /etc/fstab 
/etc/issue

图片 14

 

FILENAME:当前文件名

图片 15

IGNORECASE:控制是否忽略字符大小写变量

 

6.2.自定义变量

直接使用

-v var=valname:变量名区分字符大小写

1.可以在program中定义变量

2.可以在选项中定义变量

例如:

图片 16

等同于:

# awk -v file=”passwd” ‘{printfile,$1}’ /etc/passwd

更多详情见请继续阅读下一页的精彩内容:

  • 1
  • 2
  • 下一页

一 .AWK 简介 awk
是一个强大的文本分析工具,相对于 grep 的查找, sed 的编辑, awk
在其对数据分析并生成报告时,显得尤…

2 AWK 命令格式:AWK ‘{pattern+action}’ 或者是AWK ‘pattern {action}’

3 action
参数总是被大括号包围,它由一系列awk语句组成,每个语句之间用;号分割.awk解释他们,并在pattern给定的样式匹配的记录上执行其操作。

4 注释#

5 awk
不修改输入文件,如果未指定输入文件,awk将接受标准输入,并将结果显示在标准输出上。awk支持输入输出重定向。

6
在awk中,缺省情况下总是将文本文件的一行视为一个记录,而将一行中的某一个部分视为一个字段。

7 awk用0表示整行,不同的字段之间用分割符分开,系统某人的分割符是空格。

8 awk提供两种变量:内置变量和自定义变量。

9 任何在BEGIN
之后列出的操作将在awk开始扫描输入之前执行,END之后列出的操作将在扫描完全部的输入之后执行。

10 awk比C语言更为灵活,它不执行参数的有效性检查。

11 awk有两种返回方式:隐士返回和显示返回(return)。

发表评论

电子邮件地址不会被公开。 必填项已用*标注