Java正則表達式筆記總結 - 網安 - 專業的網絡安全產業、社區、知識平臺

簡介

最近做一個web探測的項目，在項目中多處用到java正則表達式，今天將回顧的正則表達式做一個梳理，本文屬于看完廖大佬筆記后的梳理，僅為平時參考，詳細大家可以查看下面相關網址。

學習資料

java正則表達式的學習參考以下學習資料即可：

（1）菜鳥教程：菜鳥教程的正則基礎基本講的很可以了

（https://www.runoob.com/java/java-regular-expressions.html）

（2）廖雪峰的官方網站——Java篇：廖大佬的Java教程還是講的非常清晰的（https://www.liaoxuefeng.com/wiki/1252599548343744/1306046731649057）

知識總結

1、匹配規則

（1）單個匹配規則

<1>匹配任意字符

我們使用.匹配一個任意字符。

例如：正則表達式a.c可以匹配"abc","a&c",a_c等，但是它并不能匹配"ac"、"a&&c"，因為.匹配一個字符且僅限一個字符。

<2>匹配數字

我們使用\d匹配0-9這樣的數字。

例如：正則表達式00\d可以匹配"007","008"，它不能匹配"00A","0077"，因為\d僅限單個數字字符。

<3>匹配常用符

我們使用\w匹配一個字母、數字或下劃線。

例如：正則表達式java\w可以匹配"javac","java9","java_"，它不能匹配"java#","java"，因為\w不能匹配#，空格等字符。

<4>匹配空格字符

我們使用\s來匹配一個空格字符，注意空格字符不但包括空格，還包括tab字符。

例如：正則表達式a\sc可以匹配a c，但是不能匹配"ac","abc"。

<5>匹配非數字

我們使用\D來匹配一個非數字。

例如：00\D可以匹配"00A","00#"。

同理我們使用\W來匹配非（字母、數字或下劃線）。

我們使用\S來匹配非空格的字符。

（2）多個字符匹配規則

<1>重復匹配

我們結合單字符匹配+多字符匹配規則就可以匹配更多的字符。

情況一：數字

(1)數字+字母混搭例如："AB380" 使用修飾符 * 匹配任意個數字符，正則表達式："AB\d*"。

(2)數字+字母混搭例如："AB380" 使用修飾符 + 匹配至少一個字符，正則表達式："AB\d+" ,無法匹配"A"，修飾符 + 可以匹配至少一個字符。

(3)數字+字符混搭例如："A" "A0" 使用修飾符 ? 可以匹配0個或一個字符，正則表達式："A\d?",這里表示只匹配一個數字，"A33"就無法匹配了。

(4)數字+字符混搭例如："A380" 使用修飾符 {n} 可以精確指定n個字符。

正則表達式：

"A\d{3}" : 可以匹配"A389"，

"A\d{3,}"：可以匹配至少3個數字，

"A\d{2,3}"：可以匹配2-3個數字，

"A\d{0,3}"：可以最多匹配3個數字。

情況二：電話號碼

字符串："010-12345678" "0755-7654321"

正則表達式："\d{3,4}-\d{7,8}"

2、復雜匹配規則

（1）匹配開頭和結尾

我們進行多行匹配時，用^表示開頭，$表示結束。

例如：正則表達式：^A\d{3}$可以匹配"A001"、"A380"

（2）匹配指定范圍

我們用[]可以匹配范圍內的字符，例如[123456789]或[1-9]可以匹配1-9。

情況一：電話號碼（規定一個7-8數字電話號碼不能從0開頭）

字符串："1234567"

正則表達式：[1-9]\d{6,7} 理解為：范圍限定+正則。

情況二：任意6位十六進制數

字符串："1A2b3c"

正則表達式：[0-9a-fA-F]{6}

我們在[]中使用^可以匹配不包含指定范圍的字符。

情況三：任意字符不包括數字

字符串："adhkADf"

正則表示式：[^0-9]{7}

情況四：非負的整數和浮點數或非負浮點數

[1-9]\d*\.?\d* 非負的整數和浮點數

0\.\d*[1-9] 非負浮點數

（3）或規則匹配

我們用|連接兩個正則是或規則。

例如我們可以使用AB|CD來匹配AB或CD。

（4）使用括號

我們用()將子規則括起來表示。

例如我們可以使用 learn\s(java|PHP|python)來匹配 learn java、learn PHP、learn python。

3、分組匹配

前面我們已經講了()的好處，假如我們需要取字符串中的特定位置值，就可以用到()了，這里我們先學習一下正則匹配式的流程。

//樣例代碼String str = "";String reg = "";//設置正則匹配式Pattern Pattern pattern = Pattern.compile = Pattern.compile(reg,Pattern.CASE_INSENSITIV); //Pattern.CASE_INSENSITIV不區分大小//開始匹配Matcher matcher = pattern.matcher(str)//判斷是否找到if(matcher.matches()){    String whole = matcher.group(0);    String area = matcher.group(1);    String tel = matcher.group(2);}

Matcher API:

索引方法：

查找方法：

替換方法：

我們經常使用indexOf()和substring方法來進行字符串的提取，但是這樣并沒有通用性，我們可以使用()解決。

（1）我們先使用()來將提取的規則分組。

（2）正則表達式從左到右進行匹配。

（3）我們將匹配的結果group提取出來即可。

原理解析：

（1）我們預設正則表達式為：(AB (CD) (E (F) ) 我們可以看出有四個組：

(AB (CD) (E (F) )

(CD)

(E(F))

(F)

這里注意一下最外面的括號可有可無。

（2）取值四個組匹配的結果分別存放在：m.group(0) m.group(1) m.group(2) m.group(3)。

注意：我們可以使用`groupCount()`查看group長度。

情況一：復雜字符串塊提取

public static String[] RegCheck(String str,String reg){       Pattern p = Pattern.compile(reg);       Matcher m = p.matcher(str);        String[] result=new String[m.groupCount()];       if (m.matches()) {           for(int i=0;i<=m.groupCount();i++){               result[i]=m.group(i);           }           return result;       }else {           return result;       }   }

例如：提取 Server: nginx/1.18.0 Server: **** Server: nginx 1.18.0

正則表達式："Server:\s(\D*)(\s|\/|\*)(.*)"

4、非貪婪匹配

我們使用正則表達式(\d+)(0*)去匹配"1230000"，匹配的結果是"123000" 和空，很顯然和我們想要的結果不一致，這是因為\d+就可以匹配0。

如何使得\d+盡量少匹配，讓0*盡量多匹配，我們必須讓\d+使用非貪婪模式，即\d+?，結果變為(\d+?)(0*)。

舉例：

字符串："9999"

正則表達式: (\d??)(9*)

結果："" "9999"

因為\d?表示匹配0個或1個數字，第二個?表示非貪婪匹配，因此對于\d?來說，可以匹配一個或0個，非貪婪模式下就選擇0個。

5、搜索和替換

（1）分割字符串

我們平時使用的String.split()就是使用的正則表達式。

public String[] split(String regex, int limit)regex -- 正則表達式分隔符limit -- 分割的份數

例如：Set-Cookie:1234

if(line.contains("Set-Cookie")){                    String[] arr=line.split(":",2);                    for(String str:arr){                       String arg1 = arr[1];                       String arg2 = arr[2];                    }                }

（2）搜索字符串

我們平時使用substring()來截取字符串。

public String substring(int beginIndex, int endIndex)beginIndex -- 起始索引（包括）, 索引從 0 開始endIndex -- 結束索引（不包括

我們結合正則匹配：

String s = "the quick brown fox jumps over the lazy dog.";        Pattern p = Pattern.compile("\\wo\\w");        Matcher m = p.matcher(s);        while (m.find()) {            String sub = s.substring(m.start(), m.end());//start第一次匹配到的位置 end匹配完成的索引值            System.out.println(sub);        }

（3）替換字符串

我們平時使用replaceAll()來替換字符串。

public String replaceAll(String regex, String replacement)regex -- 匹配此字符串的正則表達式replacement -- 用來替換每個匹配項的字符串
String s = "The     quick\t\t brown   fox  jumps   over the  lazy dog.";String r = s.replaceAll("\\s+", " ");String r = s.replaceAll("\\s([a-z]{4})\\s", " $1 "); //反向引用

總結

本文是回顧java正則匹配式后的筆記梳理，后續會將比較好用的正則匹配式不斷補充，僅為學習使用，也供大家參考，下面給大家分享一個好用的工具：精簡編程助手。