学习Java正则表达式-C++-编程技术-六狼论坛-IT论坛-计算机论坛

favey 发表于 2013-2-4 23:43:02

学习Java正则表达式

正则表达式用来指定字符串模式。当你需要定位匹配某种模式的字符串时就可以使用正则表达式。例如，我们下面的一个例程就是在一个HTML文件中通过查找字符串模式来定位所有的超链接。

    当然，为了指定一种模式，使用...这种记号是不够精确的。你需要精确地指定什么样的字符排列是一个合法的匹配。当描述某种模式时，你需要使用一种特殊的语法。

    这里有一个简单例子。正则表达式
ava.+
匹配下列形式的任何字符串：

[*]首字母是J或j

[*]后续的三个字母是ava

[*]字符串的剩余部分由一个或多个任意字符组成

    例如，字符串“javaness”匹配这个特殊的正则表达式，但是字符串“Core Java”却不匹配。

    如你所见，你需要了解一点语法来理解正则表达式的含意。幸运的是对于大多数的用途，使用少量的简单构造（straightforward constructs）就已足够。

[*]字符类是可选自符的集合，用‘[’封装，比如,,或[^0-9]。这里的-表示范围（Unicode落在两个边界之间的所有字符），^表示求补（指定字符外的所有字符）。

[*]有许多预定以的字符类，像\d（数字）或\p{Sc}（Unicode货币符号），见表12-8和12-9。

[*]大多数字符与它们自身匹配，像上例中的ava字符。

[*]符号.匹配任何字符（可能行终止符（line terminators）除外，这依赖于标识设置（flag settings））

[*]\用作转义符，比如\.匹配一个句点，\\匹配一个反斜杠。

[*] ^和$分别匹配行头和行尾

[*]如果X和Y都是正则表达式，则XY表示“X的匹配后面跟着Y的匹配”。X|Y表示“任何X或Y的匹配”

[*]可以将量词（quantifier）用到表达式中，X+ 表示X重复1次或多次，X* 表示X重复0次或多次，X? 表示X重复0次或1次

[*] 默认地，一个量词总是与使总体成功匹配的最长的可能重复匹配。可以加上后缀？（称为reluctant或stingy 匹配，用以匹配最小的重复数），和+（称为possessive或贪婪匹配，用以即使在总体匹配失败的情况下也匹配最大的重复数）来更改这种属性。

<div style="margin-left: 40px;">例如，字符串cab匹配*ab，但不匹配*+ab。第一种情况下，*只匹配字符c，因此字符ab正好与模式的剩余部分匹配。但是贪婪版本*+就与字符cab匹配，模式的剩余部分ab就匹配失败（，这样总体也就匹配失败）。

页: [1]

六狼论坛's Archiver

学习Java正则表达式