此空间已闲置,个人主页已转到http://www.hixk.net

发布新日志

  • VBScript中的正则表达式语法详解

    2007-08-21 10:11:38

    -------------------正则表达式的所有内容-----------------------------
    RegExp属性
    Global
    IgnoreCase
    Pattern
    RegExp方法
    Execute
    Replace
    Test
    RegExp对象
    Match
    Match属性
    FirstIndex
    Length
    Value
    RegExp集合
    Matches
    SubMatches
    我在学习正则表达式的时候根本不知何谓正则表达式、对他的理解也非常模糊,以至于接触了很长时间才懂得,虽然vbs手册中有很详细地解释。
    正则表达式我个人将其理解为用来搜索文本然后然后对搜索结果作处理的一些列动作。
    先来看一段大家所熟知的ubb代码
    function ubb(str)
    Dim rex,match,matches 建立变量。
    Set rex= New RegExp 建立规范表达式。
    rex.IgnoreCase = True 设置是否区分字母的大小写。
    rex.Global = True 设置全程性质。
    rex.Pattern = "\(.*)\[\/url]" 设置模式。官方是这样解释的,我认为我们应该换一种叫法:搜索方法,这样我们才便于理解。
    ubb = rex.replace(str,"<a href=$1>$2</a>") 将我们搜索到的内容替换
    我们在设定搜索的时候用到了两个括号,也就是说我们将只需要用到这两个括号中的内容,这两个括号中的内容在替换的时候将会用$1(第一个括号中的内容)和$2(第二个括号中的内容)来代替。
    end function
    用法
    dim text
    text="
    link"
    document.write ubb(text) 输出文本并调用正则表达式
    如果在asp中使用请将document替换为response
    上面是一个简单的正则演示,在这个演示中我们只用了一行内容,用方法replace在替换文字的时候只处理一行中的第一个ubb代码头和最后的一个ubb代码的尾,如下:
    link link
    将会被替换为<a href=http://www.aaa.com]link [url=http://www.aaa.com></a>,这个结果可不是我们要的,
    也就是说我们必须在大量替换搜索内容前将要搜索的全部的文本或者字符串作处理。处理的结果就是要保证每一行只能存在一个相应的代码。这点非常重要,在我学习的时候一直搞不明白为什么?后来才知道是这个原因。
    在上面的一个示例中我们用到了正则表达使得所有属性以及replace的方法,下来我们来看一下有关于方法Execute,对象Match及所有属性,集合Matches 的一个官方的示例
    Function RegExpTest(patrn, strng)
    Dim regEx, Match, Matches 建立变量。
    Set regEx = New RegExp 建立正则表达式。
    regEx.Pattern = patrn 设置模式。即:搜索方法
    regEx.IgnoreCase = True 设置是否区分大小写。
    regEx.Global = True 设置全程可用性。
    Set Matches = regEx.Execute(strng) 执行搜索。我们可以理解为被搜索的字符串
    For Each Match in Matches 遍历 Matches 集合。
    RetStr = RetStr & "匹配" & Match 注意,在官方提供的示例中这里是错误的,
    这里是被匹配的名称
    RetStr = RetStr & "位于" & Match.FirstIndex & "。"这里是匹配内容的第一个字符,该数字从0开始
    RetStr = RetStr & "匹配的长度为"& Match.Length & "个字符。" 这里不用解释了吧?
    RetStr = RetStr & vbCRLF 这里是换行
    Next
    RegExpTest = RetStr
    End Function
    document.write(RegExpTest("is.", "IS1 is2 IS3 is4"))
    如果在asp中使用请将document替换为response
    在这个示例中我们可以看到方法Execute和对象Match是使用在集合Matches中的,Match和Matches是作为变量来使用的,为了我们很容易得看懂它,我们没有必要将他们换名字。关于对象Match的属性,我在上面的示例中都做了注释了。
    最后我们来看集合SubMatches,代码如下:(由于官方的这段代码很含糊,所以我修改了一下)
    Function SubMatchTest(inpStr)
    Dim Re, Match, Matches
    Set Re = New RegExp
    Re.Pattern = "(\w+)@(\w+)\.(\w+)"
    Set Matches = Re.Execute(inpStr)
    Set Match = Matches(0) 由于这里没有使用循环,所以只能搜索一次。只匹配搜索到的第一个内容
    retStr = "电子邮件地址是: " & Match & vbNewline 这里是匹配的内容
    retStr = retStr & "电子邮件别名是: " & Match.SubMatches(0) 第一个括号中的内容
    retStr = retStr & vbNewline
    retStr = retStr & "组织是: " & Match. SubMatches(1)第二个括号中的内容
    SubMatchTest = retStr
    End Function
    document.write(SubMatchTest("请写信到 dragon@xyzzy.com 。谢谢!"))
    如果在asp中使用请将document替换为response
    在上面的这段代码中我们看到了对象Match和集合Matches的另外一种用法,由此可见所有的集合均可以用这种方法,就像实用数组一样。看完上面的代码有些朋友可能想到既然在属性Pattern中已经提供了$1$2.....$n这种方法,为什么还要存在集合SubMatches呢?实际上在我们使用证则表达式的时候可能搜索要匹配的内容或字符串很长,然而我们还要对搜索到匹配的字符串进行进一步的处理,而$又不能实现这个,于是便有了集合SubMatches。
    到这里有关于VBscrīpt的正则表达式的内容就全部说完了,上面的3个代码均可以放在<scrīpt Language="VBscrīpt"></scrīpt>标签中使用也可以放在ASP中执行。
  • JavaScript正则表达式

    2007-08-21 10:10:46

    正则表达式是一个描述字符模式的对象。
    Javascrīpt的RegExp对象和String对象定义了使用正则表达式来执行强大的模式匹配和文本检索与替换函数的方法.

    '***********************
    '             Javascrīpt
    '
    '***********************

    在Javascrīpt中,正则表达式是由一个RegExp对象表示的.当然,可以使用一个RegExp()构造函数来创建RegExp对象,
    也可以用Javascrīpt 1.2中的新添加的一个特殊语法来创建RegExp对象.就像字符串直接量被定义为包含在引号内的字符一样,
    正则表达式直接量也被定义为包含在一对斜杠(/)之间的字符.所以,Javascrīpt可能会包含如下的代码:

    var pattern = /s$/;

    这行代码创建一个新的RegExp对象,并将它赋给变量parttern.这个特殊的RegExp对象和所有以字母"s"结尾的字符串都匹配.用RegExp()也可以定义
    一个等价的正则表达式,代码如下:

    var pattern = new RegExp("s$");

    无论是用正则表达式直接量还是用构造函数RegExp(),创建一个RegExp对象都是比较容易的.较为困难的任务是用正则表达式语法来描述字符的模式.
    Javascrīpt采用的是Perl语言正则表达式语法的一个相当完整的子集.

    正则表达式的模式规范是由一系列字符构成的.大多数字符(包括所有字母数字字符)描述的都是按照字面意思进行匹配的字符.这样说来,正则表达式/Java/就和
    所有包含子串 "Java" 的字符串相匹配.虽然正则表达式中的其它字符不是按照字面意思进行匹配的,但它们都具有特殊的意义.正则表达式 /s$/ 包含两个字符.
    第一个特殊字符 "s" 是按照字面意思与自身相匹配.第二个字符 "$" 是一个特殊字符,它所匹配的是字符串的结尾.所以正则表达式 /s$/ 匹配的就是以字母 "s" 结尾
    的字符串.


    1.直接量字符

    我们已经发现了,在正则表达式中所有的字母字符和数字都是按照字面意思与自身相匹配的.Javascrīpt的正则表达式还通过以反斜杠(\)开头的转义序列支持某些非

    字母字符.例如,序列 "\n" 在字符串中匹配的是一个直接量换行符.在正则表达式中,许多标点符号都有特殊的含义.下面是这些字符和它们的含义:

    正则表达式的直接量字符

    字符                                  匹配
    ________________________________
    字母数字字符                       自身
    \ f                                       换页符
    \ n                                      换行符
    \ r                                       回车
    \ t                                       制表符
    \ v                                      垂直制表符
    \ /                                       一个 / 直接量
    \ \                                       一个 \ 直接量
    \ .                                       一个 . 直接量
    \ *                                      一个 * 直接量
    \ +                                      一个 + 直接量
    \ ?                                       一个 ? 直接量
    \ |                                        一个 | 直接量
    \ (                                        一个 ( 直接量
    \ )                                        一个 ) 直接量
    \ [                                        一个 [ 直接量
    \ ]                                        一个 ] 直接量
    \ {                                        一个 { 直接量
    \ }                                        一个 } 直接量
    \ XXX                                    由十进制数 XXX 指 定的ASCII码字符
    \ Xnn                                    由十六进制数 nn 指定的ASCII码字符
    \ cX                                       控制字符^X. 例如, \cI等价于 \t, \cJ等价于 \n

    ___________________________________________________

    如果想在正则表达式中使用特殊的标点符号,必须在它们之前加上一个 "\" .


    2.字符类

    将单独的直接符放进中括号内就可以组合成字符类.一个字符类和它所包含的任何一个字符都匹配,所以正则表达式 / [abc] / 和字母 "a" , "b" , "c" 中的任何一个
    都匹配.另外还可以定义否定字符类,这些类匹配的是除那些包含在中括号之内的字符外的所有字符.定义否定字符尖时,要将一个 ^ 符号作为从左中括号算起的第
    一个字符.正则表达式的集合是 / [a-zA-z0-9] / .

    由于某些字符类非常常用,所以Javascrīpt的正则表达式语法包含一些特殊字符和转义序列来表示这些常用的类.例如,  \s 匹配的是空格符,制表符和其它空白符, \s
    匹配的则是空白符之外的任何字符.

    正则表灰式的字符类

    字符                                          匹配
    ____________________________________________________
    [...]                                           位于括号之内的任意字符
    [^...]                                         不在括号之中的任意字符
    .                                                除了换行符之外的任意字符,等价于[^\n]
    \w                                             任何单字字符, 等价于[a-zA-Z0-9]
    \W                                            任何非单字字符,等价于[^a-zA-Z0-9]
    \s                                              任何空白符,等价于[\ t \ n \ r \ f \ v]
    \S                                              任何非空白符,等价于[^\ t \ n \ r \ f \ v]
    \d                                              任何数字,等价于[0-9]
    \D                                              除了数字之外的任何字符,等价于[^0-9]
    [\b]                                            一个退格直接量(特例)
    ________________________________________________________________

    3.复制

    用以上的正则表式的语法,可以把两位数描述成  / \ d \ d /,把四位数描述成 / \d \ d \ d \ d /.但我们还没有一种方法可以用来描述具有任意多数位的数字或者是一个

    字符串.这个串由三个字符以及跟随在字母之后的一位数字构成.这些复杂的模式使用的正则表达式语法指定了该表达式中每个元素要重复出现的次数.

    指定复制的字符总是出现在它们所作用的模式后面.由于某种复制类型相当常用.所以有一些特殊的字符专门用于表示它们.例如: +号匹配的就是复制前一模式一次

    或多次的模式.下面的表列出了复制语法.先看一个例子:

    /\d{2, 4}/                                  //匹配2到4间的数字.

    /\w{3} \d?/                               //匹配三个单字字符和一个任意的数字.

    /\s+Java\s+/                             //匹配字符串"Java" ,并且该串前后可以有一个或多个空格.

    /[^"] * /                                   //匹配零个或多个非引号字符.


    正则表达式的复制字符

    字符                                          含义
    __________________________________________________________________
    {n, m}                                       匹配前一项至少n次,但是不能超过m次
    {n, }                                          匹配前一项n次,或者多次
    {n}                                            匹配前一项恰好n次
    ?                                               匹配前一项0次或1次,也就是说前一项是可选的. 等价于 {0, 1}
    +                                              匹配前一项1次或多次,等价于{1,}
    *                                               匹配前一项0次或多次.等价于{0,}
    ___________________________________________________________________


    4.选择,分组和引用

    正则表达式的语法还包括指定选择项,对子表达式分组和引用前一子表达式的特殊字符.字符| 用于分隔供选择的字符.例如: /ab|cd|ef/ 匹配的是字符串 "ab",或者是

    字符串 "cd",又或者 "ef". /\d{3}|[a-z]{4}/ 匹配的是要么是一个三位数,要么是四个小写字母.在正则表达式中括号具有几种作用.它的主要作用是把单独的项目分组

    成子表达式,以便可以像处理一个独立的单元那种用 *、+或? 来处理那些项目.例如: /Java(scrīpt) ?/ 匹配的是字符串 "Java",其后既可以有 "scrīpt",也可以没有. /

    (ab|cd) + |ef) / 匹配的既可以是字符串 "ef",也可以是字符串"ab" 或者 "cd" 的一次或多次重复.

    在正则表达式中,括号的第二个用途是在完整的模式中定义子模式。当一个正则表达式成功地和目标字符串相匹配时,可以从目标串中抽出和括号中的子模式相匹配

    的部分.例如,假定我们正在检索的模式是一个或多个字母后面跟随一位或多位数字,那么我们可以使用模式 / [a-z] + \ d+/.但是由于假定我们真正关心的是每个匹配

    尾部的数字,那么如果我们将模式的数字部分放在括号中 (/ [a-z] + (\d+)/) ,我们就可以从所检索到的任何匹配中抽取数字了,之后我们会对此进行解析的.

    代括号的子表达式的另一个用途是,允许我们在同一正则表达式的后面引用前面的子表达式.这是通过在字符串 \ 后加一位或多位数字来实现的.数字指的是代括号的

    子表达式在正则表达式中的位置.例如: \1 引用的是第一个代括号的子表达式. \3 引用的是第三个代括号的子表达式.注意,由于子表达式可以嵌套在其它子表达式中,

    所以它的位置是被计数的左括号的位置.
    例如:在下面的正则表达式被指定为 \2:
                                                                     /([Jj]ava([Ss]cript)) \sis \s (fun\w*) /


    对正则表达式中前一子表达式的引用所指定的并不是那个子表达式的模式,而是与那个模式相匹配的文本.这样,引用就不只是帮助你输入正则表达式的重复部分的快

    捷方式了,它还实施了一条规约,那就是一个字符串各个分离的部分包含的是完全相同的字符.例如:下面的正则表达式匹配的就是位于单引号或双引号之内的所有字

    符.但是,它要求开始和结束的引号匹配(例如两个都是双引号或者都是单引号):
                                                                    /[' "] [^ ' "]*[' "]/


    如果要求开始和结束的引号匹配,我们可以使用如下的引用:
                                                                                                              /( [' "] ) [^ ' "] * \1/


    \1匹配的是第一个代括号的子表达式所匹配的模式.在这个例子中,它实施了一种规约,那就是开始的引号必须和结束的引号相匹配.注意,如果反斜杠后跟随的数字比

    代括号的子表达式数多,那么它就会被解析为一个十进制的转义序列,而不是一个引用.你可以坚持使用完整的三个字符来表示转义序列,这们就可以避免混淆了.例如,

    使用 \044,而不是\44.下面是正则表达式的选择、分组和引用字符:

    字符                                                     含义
    ____________________________________________________________________
    |                                                           选择.匹配的要么是该符号左边的子表达式,要么它右边的子表达式
    (...)                    分组.将几个项目分为一个单元.这个单元可由 *、+、?和|等符号使用,而且还可以记住和这个组匹配的字符以供此后引

    用使用
    \n                                                         和第n个分组所匹配的字符相匹配.分组是括号中的子表达式(可能是嵌套的).分组号是从左到右计数的左括号数
    ____________________________________________________________________

     

    5.指定匹配的位置

    我们已经看到了,一个正则表达式中的许多元素才能够匹配字符串的一个字符.例如: \s 匹配的只是一个空白符.还有一些正则表达式的元素匹配的是字符之间宽度为

    0的空间,而不是实际的字符例如: \b 匹配的是一个词语的边界,也就是处于一个/w字字符和一个\w非字字符之间的边界.像\b 这样的字符并不指定任何一个匹配了的

    字符串中的字符,它们指定的是匹配所发生的合法位置.有时我们称这些元素为正则表达式的锚.因为它们将模式定位在检索字符串中的一个特定位置.最常用的锚元

    素是 ^, 它使模式依赖于字符串的开头,而锚元素$则使模式定位在字符串的末尾.

    例如:要匹配词 "Javascrīpt" ,我们可以使用正则表达式 /^ Javascrīpt $/. 如果我们想检索 "Java" 这个词自身 (不像在 "Javascrīpt" 中那样作为前缀),那么我们可以使

    用模式 /\s Java \s /, 它要求在词语Java之前和之后都有空格.但是这样作有两个问题.第一: 如果 "Java" 出现在一个字符的开头或者是结尾.该模式就不会与之匹配,除

    非在开头和结尾处有一个空格. 第二: 当这个模式找到一个与之匹配的字符时,它返回的匹配的字符串前端和后端都有空格,这并不是我们想要的.因此,我们使用词语

    的边界 \b 来代替真正的空格符 \s 进行匹配. 结果表达式是 /\b Java \b/.
    下面是正则表达式的锚字符:


    字符                                                       含义
    ____________________________________________________________________
    ^                                                           匹配的是字符的开头,在多行检索中,匹配的是一行的开头
    $                     匹配的是字符的结尾,在多行检索中,匹配的是一行的结尾
    \b                                                          匹配的是一个词语的边界.简而言之就是位于字符\w 和 \w之间的位置(注意:[\b]匹配的是退格符)
    \B                                                          匹配的是非词语的边界的字符
    _____________________________________________________________________

     

    6.属性

    有关正则表达式的语法还有最后一个元素,那就是正则表达式的属性,它说明的是高级模式匹配的规则.和其它正则表达式语法不同,属性是在 / 符号之外说明的.即它

    们不出现在两个斜杠之间,而是位于第二个斜杠之后.Javascrīpt 1.2支持两个属性.属性 i 说明模式匹配应该是大小写不敏感的.属性 g 说明模式匹配应该是全局的.也

    就是说,应该找出被检索的字符串中所有的匹配.这两种属性联合起来就可以执行一个全局的,大小写不敏感的匹配.

    例如: 要执行一个大小不敏感的检索以找到词语 "Java" (或者是 "Java" 、"Java"等) 的第一个具体值,我们可以使用大小不敏感的正则表达式 /\b Java\b/i .如果要在

    一个字符串中找到 "Java" 所有的具体值,我们还可以添加属性 g, 即 /\b Java \b/gi .

    以下是正则表达式的属性:


    字符                                                      含义
    _________________________________________
    i                                                            执行大小写不敏感的匹配
    g                                  执行一个全局的匹配,简而言之,就是找到所有的匹配,而不是在找到第一个之后就停止了
    _________________________________________

    除属性 g 和 i 之外,正则表达式就没有其它像属性一样的特性了.如果将构造函数 RegExp 的静态属性 multiline 设置为 true ,那么模式匹配将以多行的模式进行.在这

    种模式下,锚字符 ^ 和 $ 匹配的不只是检索字符串的开头和结尾,还匹配检索字符串内部的一行的开头和结尾.例如: 模式 /Java$/ 匹配的是 "Java",但是并不匹配

    "Java\nis fun" .如果我们设置了 multiline 属性,那么后者也将被匹配:

                                 RegExp.multiline = true;


    该文章转载自网络大本营:http://www.xrss.cn/Info/11409.Html

  • JScript 和 VBScript 正则表达式特殊字符

    2007-08-21 10:02:50

    有不少元字符在试图对其进行匹配时需要进行特殊的处理。要匹配这些特殊字符,必须首先将这些字符转义,也就是在前面使用一个反斜杠 (\)。下表给出了这些特殊字符及其含义:

    特殊字符 说明
    $ 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 '\n' 或 '\r'。要匹配 $ 字符本身,请使用 \$。
    ( ) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \)。
    * 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 \*。
    + 匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 \+。
    . 匹配除换行符 \n之外的任何单字符。要匹配 .,请使用 \。
    [ 标记一个中括号表达式的开始。要匹配 [,请使用 \[。
    ? 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \?。
    \ 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\",而 '\(' 则匹配 "("。
    ^ 匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配 ^ 字符本身,请使用 \^。
    { 标记限定符表达式的开始。要匹配 {,请使用 \{。
    | 指明两项之间的一个选择。要匹配 |,请使用 \|。

  • 什么是正则表达式

    2007-08-21 09:59:32

    正则表达式是查找和替换文本模式的简洁和灵活的表示法。Visual Studio 中使用的正则表达式是 Visual C++ 6.0 中使用的、具有简化语法的表达式的超集。

       
    在“查找”、“在文件中查找”或“在文件中替换”对话框中,可使用下列正则表达式来改进和扩展搜索。

       
    注意在将下列任何表达式用作搜索条件的一部分之前,必须在“查找”、“在文件中查找”和“在文件中替换”对话框中选择“使用”复选框。
    可使用下列表达式匹配搜索字符串中的字符或数字:

    表达式 语法 说明
    任一字符 . 匹配除换行符外的任何一个字符。
    最多 0 项或更多 * 匹配前面表达式的 0 个或更多搜索项。
    最多一项或更多 + 匹配前面表达式的至少一个搜索项。
    最少 0 项或更多 @ 匹配前面表达式的 0 个或更多搜索项,匹配尽可能少的字符。
    最少一项或更多 # 匹配前面表达式的一个或更多搜索项,匹配尽可能少的字符。
    重复 n ^n 匹配前面表达式的 n 个搜索项。例如,[0-9]^4 匹配任意 4 位数字的序列。
    字符集 [] 匹配 [] 内的任何一个字符。要指定字符的范围,请列出由短划线 (-) 分隔的起始字符和结束字符,如 [a-z] 中所示。
    不在字符集中的字符 [^...] 匹配跟在 ^ 之后的不在字符集中的任何字符。
    行首 ^ 将匹配定位到行首。
    行尾 $ 将匹配定位到行尾。
    词首 < 仅当词在文本中的此位置开始时才匹配。
    词尾 > 仅当词在文本中的此位置结束时才匹配。
    分组 () 将子表达式分组。
    | 匹配 OR 符号 (|) 之前或之后的表达式。). 最常用在分组中。例如,(sponge|mud) bath 匹配“sponge bath”和“mud bath”。
    转义符 \ 匹配跟在反斜杠 (\) 后的字符。这使您可以查找在正则表达式表示法中使用的字符,如 { ^。例如,\^ 搜索 ^ 字符。
    带标记的表达式 {} 标记括号内的表达式所匹配的文本。
    n 个带标记的文本 \n 在“查找”或“替换”表达式中,指示第 n 个带标记的表达式所匹配的文本,其中 n 是从 1 9 的数字。
    在“替换”表达式中,\0 插入整个匹配的文本。

    右对齐字段 \(w,n) 在“替换”表达式中,将字段中第 n 个带标记的表达式右对齐至少 w 字符宽。
    左对齐字段 \(-w,n) 在“替换”表达式中,将字段中第 n 个带标记的表达式左对齐至少 w 字符宽。
    禁止匹配 ~(X) X 出现在表达式中的此位置时禁止匹配。例如,real~(ity) 匹配“realty”和“really”中的“real”,而不匹配“reality”中的“real”。
    字母数字字符 :a 匹配表达式
    ([a-zA-Z0-9])

    字母字符 :c 匹配表达式
    ([a-zA-Z])

    十进制数 :d 匹配表达式
    ([0-9])

    十六进制数 :h 匹配表达式
    ([0-9a-fA-F]+)

    标识符 :i 匹配表达式
    ([a-zA-Z_$][a-zA-Z0-9_$]*)

    有理数 :n 匹配表达式
    (([0-9]+.[0-9]*)| ([0-9]*.[0-9]+)| ([0-9]+)).
    带引号的字符串 :q 匹配表达式 (("[^"]*")| ('[^']*'))
    字母字符串 :w 匹配表达式

    ([a-zA-Z]+)
    十进制整数 :z 匹配表达式
    ([0-9]+)

    转义符 \e Unicode U+001B
    Bell \g Unicode U+0007

    退格符 \h Unicode U+0008
    换行符 \n 匹配与平台无关的换行符。在“替换”表达式中,插入换行符。
    制表符 \t 匹配制表符,Unicode U+0009
    Unicode
    字符 \x#### \u#### 匹配 Unicode 值给定的字符,其中 #### 是十六进制数。可以用 ISO 10646 代码点或两个提供代理项对的值的 Unicode 代码点指定基本多语种平面(即一个代理项)外的字符。

    下表列出按标准 Unicode 字符属性进行匹配的语法。两个字母的缩写词与 Unicode 字符属性数据库中所列的一样。可将这些指定为字符集的一部分。例如,表达式 [:Nd:Nl:No] 匹配任何种类的数字。

    表达式 语法 说明
    大写字母 :Lu 匹配任何一个大写字母。例如,:Luhe 匹配“The”但不匹配“the”。
    小写字母 :Ll 匹配任何一个小写字母。例如,:Llhe 匹配“the”但不匹配“The”。
    词首大写字母 :Lt 匹配将大写字母和小写字母结合的字符,例如,Nj Dz
    修饰符字母 :Lm 匹配字母或标点符号,例如逗号、交叉重音符和双撇号,用于表示对前一字母的修饰。
    其他字母 :Lo 匹配其他字母,如哥特体字母 ahsa
    十进制数 :Nd 匹配十进制数(如 0-9)和它们的双字节等效数。
    字母数字 :Nl 匹配字母数字,例如罗马数字和表意数字零。
    其他数字 :No 匹配其他数字,如旧斜体数字一。
    开始标点符号 :Ps 匹配开始标点符号,例如左方括号和左大括号。
    结束标点符号 :Pe 匹配结束标点符号,例如右方括号和右大括号。
    左引号 :Pi 匹配左双引号。
    右引号 :Pf 匹配单引号和右双引号。
    破折号 :Pd 匹配破折号标记。
    连接符号 :Pc 匹配下划线标记。
    其他标点符号 :Po 匹配逗号 (,)?"!@#%&*\、冒号 (:)、分号 (;)' /
    空白分隔符 :Zs 匹配空白。
    行分隔符 :Zl 匹配 Unicode 字符 U+2028
    段落分隔符 :Zp 匹配 Unicode 字符 U+2029
    无间隔标记 :Mn 匹配无间隔标记。
    组合标记 :Mc 匹配组合标记。
    封闭标记 :Me 匹配封闭标记。
    数学符号 :Sm 匹配 +=~| < >
    货币符号 :Sc 匹配 $ 和其他货币符号。
    修饰符号 :Sk 匹配修饰符号,如抑扬音、抑音符号和长音符号。

Open Toolbar