正则表达式高阶技巧之环视的组合(使用python实现)
创始人
2024-05-31 23:59:10
0

环视的组合

    • 介绍
    • 环视的组合
      • 环视中包含环视
      • 并列多个环视
        • 注意:
      • 环视作为多选分支排列在多选结构中
      • 断言与反向引用之间的关系

介绍

在我们日常使用的编程语言都是支持环视的,但是语言不同,支持程度也就不同,下面具体介绍一下在python中的支持:

  • 一般来说,所有语言都是支持环视的,而且是没有限制。也就是说,无论你是使用肯定顺序环视,还是否定顺序环视,都可以在结构中使用各种复杂的表达式
  • 但是在python中规定:逆序环视中的表达式能匹配的文本长度必须是固定的,也就是说,(?<=cat)是合法的, (?<=(cat|dog))也是合法的,因为环视中的子表达式能匹配的文本都是固定的; 而((?<=(cats|dog)))(?<=dogs?) 则都是不合法的,因为环视的子表达式能匹配的文本长度是不确定的
  • 要解决上诉问题:可以使用多选结构来改造表达式,比如,cats?等价于(dog|dogs),所以可以将上述的环视结构改写为((?<=cat)|(?<=cats)),同样是,((?<=(cats|dog)))也可以修改为((?<=cats)|(?<=dog));但是上述的方法的应用场景是非常有限的,如果逆序环视的表达式较为复杂,使用多选结构列出就略显不便;而且一旦表达式中出现了*+这类的量词,就不能再使用多选结构列出了

环视的组合

  • 环视匹配的并不是字符,而是位置。在正则表达式匹配时,表示环视结构匹配成功,并不会更改“当前的位置”,所以多个还是可以组合在一起,实现在同一位置的多种判断

环视中包含环视

  • 如我们在匹配主机名时,限定了主机长度不能超过255个字符,使用表达式(?=[-a-zA-Z0-9.]{0,255}(?![-a-zA-Z0-9.]))。其中的(?![-a-zA-Z0-9.])是包含在外层的环视中的,它要求在这个位置(也就是正确的主机名字符串之后),不能再出现属于主机名字符串的字符,也就是保证之前的表达式匹配的是整个主机名字符串,而不是“可能的主机名字符串的一部分”;综合起来,(?=[-a-zA-Z0-9.]{0,255}(?![-a-zA-Z0-9.]))保证的是“整个主机名字字符串的长度为255字符以内”,逻辑如下图:
    在这里插入图片描述

并列多个环视

  • 并列多个环视,他要求在当前位置,所有的环视判断都必须成功。比如:要知道一个这样的位置,它之后必须是一个数字字符串,但是不能是以999开头的数字字符串。这个时候就必须并列这两个环视
  • 表示数字字符串的表达式为\d+,对应的环视结构为(?=\d+);表示“不能以999开头”的表达式的环视结构为(?!999)。我们要做的是将两个环视结构并列起来,得到(?=\d+)(?!999)。因为环视结构不会更改当前位置,所以先后顺序没有影响,无论是(?=\d+)(?!999)还是(?!999)(?=\d+),效果是相同的,都是必须要求两个环视条件必须同时满足
  • 在当前位置,之后必须出现数字字符串;在当前位置,之后不能是出现999,最终的结果是两个环视做“与(and)”运算,就是说,两个条件必须同时满足才能进行匹配成功,否则失败,如下测试:
import re
# 查找这样的起始位置:它之后必须是数字字符串,且不能以999开头
# 数字字符串
re.search(r"^(?=\d+)(?!999)", '123456') is not None
# 非数字字符串
re.search(r"^(?=\d+)(?!999)", 'wywy') is not None
# 数字字符串但是以999开头
re.search(r"^(?=\d+)(?!999)", '999123456') is not None

在这里插入图片描述
逻辑如下图:
在这里插入图片描述

注意:

  • 仔细观察上述(!?999)这个环视结构会发现,字符串99999的开始位置也是不能匹配的,这是因为(!?999)不允许出现的其实是字符串999,而不是数值999,如果要更加准确的表示数值999,应该使用(!?999)(?!\d)这个环视

环视作为多选分支排列在多选结构中

  • 最后常见的环视结构就是将若干环视作为多选分支排列在多选结构中(或(or))。如要找到这样的一个位置:它之后要么不是数字字符,要么是一个数字字符和一个非数字字符(比如3w)。“不是数字字符”对应的环视为(?!\d);而“一个数字字符和一个非数字字符”对应的环视为(?=\d\D),所以最终组合后的环视为(?!\d)|(?=\d\D)。虽然我们在上面我们也探讨过并列多个环视组合,但是在多选结构中列出多个环视结构的意义与上面不太一样。使用多选环视结构,列出的多个环视只要有一个成立,整个判断都是成功的;不使用多选结构时,所有列出的环视都必须成立,整个判断才能成功,如下测试:
import re
# 查找这样的起始位置:它之后要么不是数字字符,要么是一个数字字符和一个非数字字符
# 不是数字字符
re.search(r"^((?!\d)|(?=\d\D))","ab") is not None
# 一个数字字符与一个非数字字符
re.search(r"^((?!\d)|(?=\d\D))","3w") is not None
# 单个数字字符
re.search(r"^((?!\d)|(?=\d\D))","6") is not None
# 连续的数字字符
re.search(r"^((?!\d)|(?=\d\D))","6666") is not None

在这里插入图片描述
逻辑如下图:
在这里插入图片描述

断言与反向引用之间的关系

  • 断言不匹配任何字符,只匹配位置;而反向引用只引用之前的捕获分组匹配的文本,之前捕获分组中锚点表示的文职信息,在反向引用时并不会保留下来
  • 举例来说,如果正则表达式为(\bcat\b)\s\1\1所匹配的,就不只有单独出现的cat,还有包括在单词内部的cat,比如(category中的cat),如果要验证单词cat是否在字符串中出现了两次,正确的做法是在反向引用的两端也加上单词边界\b,变成(\bcat\b.*?\b\1\b),如下举例:
import re
# 未加单词边界\b
re.search(r"(\bcat\b)\s+\1", 'cat category') is not None
# 加单词边界\b
re.search(r"(\bcat\b)\s+\b\1\b", 'cat category') is not None
# 加单词边界\b
re.search(r"(\bcat\b)\s+\b\1\b", 'cat cat') is not None

在这里插入图片描述

  • 在后续使用正则中一定要注意:使用(\bcat\b)\s+\1来匹配“重复的单词”是不对的,应该使用(\bcat\b)\s+\b\1\b

相关内容

热门资讯

122.(leaflet篇)l... 听老人家说:多看美女会长寿 地图之家总目录(订阅之前建议先查看该博客) 文章末尾处提供保证可运行...
育碧GDC2018程序化大世界... 1.传统手动绘制森林的问题 采用手动绘制的方法的话,每次迭代地形都要手动再绘制森林。这...
育碧GDC2018程序化大世界... 1.传统手动绘制森林的问题 采用手动绘制的方法的话,每次迭代地形都要手动再绘制森林。这...
Vue使用pdf-lib为文件... 之前也写过两篇预览pdf的,但是没有加水印,这是链接:Vu...
PyQt5数据库开发1 4.1... 文章目录 前言 步骤/方法 1 使用windows身份登录 2 启用混合登录模式 3 允许远程连接服...
Android studio ... 解决 Android studio 出现“The emulator process for AVD ...
Linux基础命令大全(上) ♥️作者:小刘在C站 ♥️个人主页:小刘主页 ♥️每天分享云计算网络运维...
再谈解决“因为文件包含病毒或潜... 前面出了一篇博文专门来解决“因为文件包含病毒或潜在的垃圾软件”的问题,其中第二种方法有...
南京邮电大学通达学院2023c... 题目展示 一.问题描述 实验题目1 定义一个学生类,其中包括如下内容: (1)私有数据成员 ①年龄 ...
PageObject 六大原则 PageObject六大原则: 1.封装服务的方法 2.不要暴露页面的细节 3.通过r...
【Linux网络编程】01:S... Socket多进程 OVERVIEWSocket多进程1.Server2.Client3.bug&...
数据结构刷题(二十五):122... 1.122. 买卖股票的最佳时机 II思路:贪心。把利润分解为每天为单位的维度,然后收...
浏览器事件循环 事件循环 浏览器的进程模型 何为进程? 程序运行需要有它自己专属的内存空间࿰...
8个免费图片/照片压缩工具帮您... 继续查看一些最好的图像压缩工具,以提升用户体验和存储空间以及网站使用支持。 无数图像压...
计算机二级Python备考(2... 目录  一、选择题 1.在Python语言中: 2.知识点 二、基本操作题 1. j...
端电压 相电压 线电压 记得刚接触矢量控制的时候,拿到板子,就赶紧去测各种波形,结...
如何使用Python检测和识别... 车牌检测与识别技术用途广泛,可以用于道路系统、无票停车场、车辆门禁等。这项技术结合了计...
带环链表详解 目录 一、什么是环形链表 二、判断是否为环形链表 2.1 具体题目 2.2 具体思路 2.3 思路的...
【C语言进阶:刨根究底字符串函... 本节重点内容: 深入理解strcpy函数的使用学会strcpy函数的模拟实现⚡strc...
Django web开发(一)... 文章目录前端开发1.快速开发网站2.标签2.1 编码2.2 title2.3 标题2.4 div和s...