一、Linux文本处理三剑客:
grep: 文本过滤工具; sed:文本编辑器(行);stream editor awk:文本报告生成器;Linux上awk的实现为gawkgrep: Global search REgular expression and Print out the line.
作用:文本搜索工具,根据用户指定的“模式(pattern)”逐行去搜索目标文本,打印匹配到的行; 二、 模式:由正则表达式的元字符及文本字符所编写的过滤条件;元字符:字符不表示其字面意义,而用于表示通配或控制功能;
分两类:
基本正则表达式:BRE 扩展正则表达式:ERE正则表达式引擎;
三、grep [OPTIONS] PATTERN [FILE...]:
选项: --color=auto:对匹配到的串做高亮显示; -v:显示模式匹配不到行; -i: 忽略字符大小写; -o: 仅显示能够被模式匹配到的串本行; -q: 静默模式; -E:使用扩展的正则表达式;基本正则表达式的元字符:
字符匹配: .: 匹配任意单个字符; []:匹配指定范围内的任意单个字符; [^]:匹配指定范围内的任意单个字符;[:lower:] 匹配小写字母
[:upper:] 匹配大写字母
[:alpha] 匹配所有字母
[:digit:] 匹配所有数字
[:alnum:] 匹配所有数字字母 [:alpha:]和[:alpha:]和二为一
[:space] 代表空格字符 例如:tab,换行,空格之类
[:punct:] 代表标点符号 例如:'! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ ] ^ _ ' { | }
次数匹配:用于要指定其次数的字符的后面;
*: 任意次; abxy xay xxxxxxxygrep "x*y"
\?:0或1次;
grep "x\?y"\+:1或多次;
\{m\}:精确限制为m次; \{m,n\}: 至少m次,至多n次,[m,n] \{0,n\}:至多n次; \{m,\}:至少m次;.*: 匹配任意长度的任意字符;
位置锚定:
^: 行首锚定;用于模式的最左侧; $: 行尾锚定;用于模式的最右侧; \<, \b: 词首锚定;用于表示单词的模式的左侧; \>, \b:词尾锚定;用于表示单词的模式的右侧; ^$: 空白行;分组:\(\)
分组的小括号中的模式匹配到的内容,会在执行过程中被正则表达式引擎记录下来,并保存内置的变量中;这些变量分别是\1, \2, ...
\1: 从左侧起,第一个左括号,以及与之配对的右括号中间的模式所匹配到的内容; \2: ...后向引用:使用变量引用前面的分组括号中的模式所匹配到的字符;
四、扩展的正则表达式:
grep家庭有三个命令: grep:基本正则表达式 -E: 扩展正则表达式 -F:不支持正则表达式 egrep:扩展正则表达式 fgrep:不支持正则表达式扩展正则表达式的元字符:
字符匹配: .: 任意单个字符 []: [^]:次数匹配:
* ?: 0次或1次; +: 1次以上; {m}: 精确匹配m次; {m,n}: 至少m次,至多n次;锚定:
^: 锚定行首 $: 锚定行尾 \<, \b \>, \b分组:()
后向引用:\1, \2, ...或者:
a|b C|cat: 不表示Cat或cat,而表示C或cat; 要写成(C|c)at五 练习:
1)显示/etc/passwd文件中以bash结尾的行?
答: grep –i ‘bash$’/etc/passwd
2)显示/etc/passwd文件中的两位数或三位数?
grep '\b[[:digit:]]\{2,3\}\b' /etc/passwd
3)显示'netstat -tan'命令结果中以‘LISTEN’后跟0个、1个或多个空白字符结尾的行?
netstat –tan | grep ‘\(LISTEN\)[[:space:]]\{0,\}’
netstat –tan | grep ‘LISTEN[[:space:]]\{0,\}’
4)添加用户bash,testbash, basher以及nologin用户(nologin用户的shell为/sbin/nologin);而后找出/etc/passwd文件中用户名同shell名的行?
*1 添加用户
useradd bash
useradd basher
useradd testbash
useradd –s /sbin/nologin nologin
*2在/etc/passwd文件中用户名和shell同名的行
grep --color=auto -E '^([[:alnum:]]+):.*\1$' /etc/passwd
5)显示当前系统上root、centos或user1用户的默认的shell和UID?
useradd user1
useradd centos
egrep '^\<root|centos|user1\>' /etc/passwd | cut -d: -f3,7
6)找出/etc/rc.d/init.d/functions文件中某单词(单词中间可以存在下划线)后面跟着一组小括号的行?
egrep --color=auto '\<[0-9a-zA-Z_]+\>\(\)' /etc/rc.d/init.d/functions
7)使用echo输出一个路径,而后egrep找出其路径基名;进一步地:使用egrep取出其目录名?
解答:
路径基名命令:echo /etc/sysconfig/network-scripts/ifdown-eth | egrep -o '([^/]*)$'
路径目录名命令: echo /etc/sysconfig/network-scripts/ifdown-eth | egrep -o '(.*)/'
8)找出ifconfig命令执行结果中1-255之间的数字?
ifconfig | egrep '\<[2][0-4][0-9]\>|\<[2][0-5][0-5]\>|\<[1][0-9][0-9]\>|\<[1-9]\>|\<[1-9][0-9]\>'