30. PyQuery: 基于HTML的CSS选择器
创始人
2024-05-17 03:39:32
0

目录

前言 

导包

基本用法

按标签选择

标签链式操作

简便链式:后代选择器

类选择器 

id 选择器 

属性/文本选择器(重点)

改进多标签拿属性方法

快速总结

PyQuery的强大功能:修改源代码

添加代码块

修改/添加属性

删除属性/标签等

总结


前言 

我们在前面的章节认识了CSS与CSS选择器的概念, 本节我们介绍一个Python模块: PyQuery. 

可能有些小伙伴认识Java中的JQuery, 其实PyQuery和它是异曲同工的. 


导包

from pyquery import PyQuery


基本用法

常用的就下列几种:

 下面通过实例讲解:

html = """
"""# 加载html内容
p = PyQuery(html)print(p)
print(type(p))

导入一段简单的html,用PyQuery接口加载html内容,打印看输出结果,发现就是html本身的内容。那么再打印一次它的类型,看看是不是什么都没有做,发现它是PyQuery类

PyQuery对象有什么用呢?

它可以把html加载起来,随后就可以在其后进行CSS选择器的操作了。

关于CSS选择器的知识点我们在上一节已经讲过,不懂的同学可以移步上一行的超链接传送门。

按标签选择

# pyquery对象直接(css选择器)a = p("a")
print(a)
print(type(a))  # 依然是pyquery对象

可以筛选出所有a标签对象,而筛选结果依然是PyQuery对象,由此我们可以得出下例。

标签链式操作

# 链式操作
a = p("li")("a")
print(a)

 

由于筛选后还是PyQuery对象,所以我们可以继续筛选。上述例子就是先筛选出 li 标签,再在其中筛选 a 标签并打印输出。

简便链式:后代选择器

a = p("li a")
print(a)

这样的输出结果和上面是一样的。用了CSS选择器的语法:后代选择器,筛选包含在 li 标签的所有 a 标签。

类选择器 

a = p(".aaa a")  # class="aaa"
print(a)

查询结果为class为aaa的标签下包含的所有 a 标签。

id 选择器 

a = p("#qq a")  # id="qq"
print(a)

查询结果为 id 为 qq 的标签下包含的所有 a 标签。

属性/文本选择器(重点)

href = p("#qq a").attr('href')  # 拿属性
text = p("#qq a").text()  # 拿文本
print(href)
print(text)

查询结果为 id 为 qq 的标签下包含的 a 标签的 href 属性和它所包含的文本内容。

注意:如果多个标签同时拿属性,只能拿到第一个:

# 坑, 如果多个标签同时拿属性. 只能默认拿到第一个
href = p("li a").attr("href")
print(href)

多个标签同时拿属性,找到一个就返回了,不能这样写。

改进多标签拿属性方法

# 多个标签拿属性
it = p("li a").items()
for item in it:  # 从迭代器中拿到每一个标签href = item.attr("href")  # 拿到href属性\text = item.text()print(text, href)

用items()方法将标签化为列表,然后用循环的方法遍历列表,抓到每一个里面的href属性打印输出即可。

快速总结

1. pyquery(选择器)
2. items()  当选择器选择的内容很多的时候. 需要一个一个处理的时候
3. attr(属性名)  获取属性信息
4. text() 获取文本


PyQuery的强大功能:修改源代码

PyQuery和其他查询最大的区别就在于它可以修改网页源代码让他变得“整齐”,也就便于我们抓取信息等操作。

如下例所示:

添加代码块

html = """
哒哒哒
嘟嘟嘟
"""p = PyQuery(html)# 在xxxx标签后面添加xxxxx新标签 p("div.aaa").after("""
吼吼吼
""") p("div.aaa").append("""我爱你""") print(p)

上述代码第11行的含义是在aaa类的div标签后面添加一行after里包含的代码块;

上述代码第12行的含义是在aaa类的div标签内部添加一行append里包含的代码块。

修改/添加属性

p("div.bbb").attr("class", "ccc")  # 修改属性
p("div.ccc").attr("id", "12306")  # 新增属性, 前提是该标签没有这个属性
print(p)

修改/添加属性用的都是 .attr() 这个方法 ,如果有这个属性,那么对应的就是修改,没有就是新增。

其实可以类比Python的字典键值对,很好理解。

删除属性/标签等

p("div.ccc").remove_attr("id")  # 删除属性
p("div.aaa").remove()  # 删除标签
print(p)

上述代码移除了class为ccc的div的id属性,和class为aaa的div标签本身。 

 

可以用上述方法分别移除筛选出的标签本身、标签属性、标签类、标签名字域(不常用)。


总结

本节我们讨论了PyQuery的基本用法和他的特殊之处,下一节将进行实战练习,用实例展示何时用PyQuery最合适。(也就是我们提到的让源代码变得“整齐”而使信息容易提取)

相关内容

热门资讯

安卓子系统windows11,... 你知道吗?最近科技圈可是炸开了锅,因为安卓子系统在Windows 11上的兼容性成了大家热议的话题。...
电脑里怎么下载安卓系统,电脑端... 你有没有想过,你的电脑里也能装上安卓系统呢?没错,就是那个让你手机不离手的安卓!今天,就让我来带你一...
索尼相机魔改安卓系统,魔改系统... 你知道吗?最近在摄影圈里掀起了一股热潮,那就是索尼相机魔改安卓系统。这可不是一般的改装,而是让这些专...
安卓系统哪家的最流畅,安卓系统... 你有没有想过,为什么你的手机有时候像蜗牛一样慢吞吞的,而别人的手机却能像风一样快?这背后,其实就是安...
安卓最新系统4.42,深度解析... 你有没有发现,你的安卓手机最近是不是有点儿不一样了?没错,就是那个一直在默默更新的安卓最新系统4.4...
android和安卓什么系统最... 你有没有想过,你的安卓手机到底是用的是什么系统呢?是不是有时候觉得手机卡顿,运行缓慢,其实跟这个系统...
平板装安卓xp系统好,探索复古... 你有没有想过,把安卓系统装到平板上,再配上XP系统,这会是怎样一番景象呢?想象一边享受着安卓的便捷,...
投影仪装安卓系统,开启智能投影... 你有没有想过,家里的老式投影仪也能焕发第二春呢?没错,就是那个曾经陪你熬夜看电影的“老伙计”,现在它...
安卓系统无线车载carplay... 你有没有想过,开车的时候也能享受到苹果设备的便利呢?没错,就是那个让你在日常生活中离不开的iOS系统...
谷歌安卓8系统包,系统包解析与... 你有没有发现,手机更新换代的速度简直就像坐上了火箭呢?这不,最近谷歌又发布了安卓8系统包,听说这个新...
微软平板下软件安卓系统,开启全... 你有没有想过,在微软平板上也能畅享安卓系统的乐趣呢?没错,这就是今天我要跟你分享的神奇故事。想象你手...
coloros是基于安卓系统吗... 你有没有想过,手机里的那个色彩斑斓的界面,背后其实有着一个有趣的故事呢?没错,我要说的就是Color...
安卓神盾系统应用市场,一站式智... 你有没有发现,手机里的安卓神盾系统应用市场最近可是火得一塌糊涂啊!这不,我就来给你好好扒一扒,看看这...
黑莓平板安卓系统升级,解锁无限... 亲爱的读者们,你是否还记得那个曾经风靡一时的黑莓手机?那个标志性的全键盘,那个独特的黑莓体验,如今它...
安卓文件系统采用华为,探索高效... 你知道吗?最近安卓系统在文件管理上可是有了大动作呢!华为这个科技巨头,竟然悄悄地给安卓文件系统来了个...
深度系统能用安卓app,探索智... 你知道吗?现在科技的发展真是让人惊叹不已!今天,我要给你揭秘一个超级酷炫的话题——深度系统能用安卓a...
安卓系统的分区类型,深度解析存... 你有没有发现,你的安卓手机里藏着不少秘密?没错,就是那些神秘的分区类型。今天,就让我带你一探究竟,揭...
安卓系统铠无法兑换,揭秘无法兑... 最近是不是有很多小伙伴在玩安卓系统的游戏,突然发现了一个让人头疼的问题——铠无法兑换!别急,今天就来...
汽车安卓系统崩溃怎么刷,一键刷... 亲爱的车主朋友们,你是否曾遇到过汽车安卓系统崩溃的尴尬时刻?手机系统崩溃还能重启,但汽车系统崩溃了,...
miui系统可以刷安卓p系统吗... 亲爱的手机控们,你是否对MIUI系统情有独钟,同时又对安卓P系统的新鲜功能垂涎欲滴?今天,就让我带你...