21. 反爬工程师都会用的手段,IP限制反爬 - 爬虫训练场
创始人
2024-05-07 01:06:42
0

本篇博客我们实现的案例是 IP 限制反爬,翻译过来就是每个 IP 在规定时间内限制访问次数。
例如,可以限制单 IP 每秒访问 5 次,超过之后就会返回 403 错误。

Flask 实现 IP 限制

    • 使用 Flask 插件
    • 自定义中间件限制 IP
    • 自定义请求钩子

使用 Flask 插件

实战中可以使用第三方模块 Flask-Limiter(Flask 限流器) 来实现 IP 限制。在 PyCharm 中直接安装即可。

21. 反爬工程师都会用的手段,IP限制反爬 - 爬虫训练场
使用命令行如下所示:

pip install Flask-Limiter

然后就可以在 Flask 应用中使用 Flask-Limiter 插件,提前建立相关视图函数。

视图函数在 app/school/index.py 文件中;
前端模板文件复制 templates/school/ajax_list.html 文件为 ajax_list3.html 即可。

原接口请求地址是 /ss/api2,现在修改为 /ss/api3,同时在 index.py 中复制原接口函数。

@s.route('api3')
def school_api3():page = int(request.args.get("page", 1))pagination = pagination_object(page)return jsonify(pagination)

后续我们的核心逻辑都将在上述函数进行改写,导入 Flask-Limiter 插件。

from flask_limiter import Limiter
from flask_limiter.util import get_remote_address,get_ipaddr

上述代码在 app/__init__.py 中进行实现,实例化操作也在该文件创建。

limiter = Limiter(app, key_func=get_ipaddr)

使用的时候,只需要引入该对象,然后添加装饰器即可。

# 从 app 中导入 limiter 对象
from app import limiter@s.route('api3')
@limiter.limit("3/second")
def school_api3():page = int(request.args.get("page", 1))pagination = pagination_object(page)return jsonify(pagination)

上述代码 @limiter.limit("3/second") 表示限制每秒3次请求,有两种方式表示速率限制,如下所示。

“100 per day”、“50 per hour”、“20 per minute”、“1 per second”
“100/day”、“50/hour”、“20/minute”、“1/second”

装饰器可以单一修饰,也可以多个修饰,分别如下所示。

  • 单一修饰:限制字符串可以是单个限制,也可以是定界符分隔的字符串。
@app.route("api3")
@limiter.limit("100/day;10/hour;1/minute")
def my_route()
  • 多个装饰器:限制字符串可以是单个限制,也可以是定界符分隔的字符串,也可以是两者的组合。
@app.route("api3")
@limiter.limit("100/day")
@limiter.limit("10/hour")
@limiter.limit("1/minute")
def my_route():

除此之外,在实例化限速器对象的时候,还用到了限制域内容,特指根据什么进行限制。

  • get_remote_address:根据请求的 remote_address
  • get_ipaddr:根据请求 X-Forwarded-For 标头中的最后IP地址。

接下来我们需要拿到生成环境做一下测试,查看一下捕获到的 IP 是否正确,在爬虫训练冲项目中,可以正确获取到 IP 值,如果你使用了反向代理,那么 Flask-Limiter 将使用默认的 key_func,即 get_remote_address 来获取客户端的 IP 地址。 在这种情况下,Flask-Limiter 将会看到反向代理的 IP 地址,而不是实际客户端的 IP 地址。

为了解决这个问题,你可以使用自定义的 key_func 函数,用来检索客户端的真实 IP 地址。 例如:

from flask import requestdef get_real_ip():if request.headers.getlist("X-Forwarded-For"):return request.headers.getlist("X-Forwarded-For")[0]return request.remote_addrlimiter = Limiter(app, key_func=get_real_ip)

这样,Flask-Limiter 就会使用客户端的真实 IP 地址来进行限制,而不是反向代理的 IP 地址。

请注意,如果你使用了多个反向代理,那么上述 get_real_ip() 函数可能无法获取客户端的真实 IP 地址。 在这种情况下,你可能需要检查所有的 “X-Forwarded-For” 头,以找到客户端的真实 IP 地址。 例如:

def get_real_ip():x_forwarded_for = request.headers.getlist("X-Forwarded-For")if x_forwarded_for:return x_forwarded_for[-1]return request.remote_addr

这样,你就可以使用 Flask-Limiter 来限制客户端的真实 IP 地址,即使在反向代理的情况下也是如此。

实战中有时候需要记录 IP 访问此处,判断该 IP 访问次数是否达到上线,Limiter 默认使用的是内存记录,这在生产环境中显然是不现实的,所以这里补充一个 小知识点:Flask-Limiter 使用 redis 作为数据储存容易。

自定义中间件限制 IP

你也可以自己实现一个中间件来实现 IP 限制。

中间件是一个可以在请求和响应之间插入的代码,通常用于实现某些功能,比如认证、IP 限制等。

在 Flask 中,中间件可以通过装饰器的方式使用,例如:

def ip_limiter(app):def middleware(next):def wrapper(*args, **kwargs):# 在这里处理 IP 限制逻辑return next(*args, **kwargs)return wrapperreturn middlewareapp.register_middleware(ip_limiter)

后续操作是在 middleware() 函数中实现 IP 限制逻辑即可。

自定义请求钩子

Flask 还提供了一种在请求之前插入代码的机制,叫做请求钩子。使用方法如下:

@app.before_request
def ip_limiter():# 在这里处理 IP 限制逻辑pass

ip_limiter() 函数中,你可以获取请求的 IP 地址,然后根据你的限制规则来决定是否允许这个请求继续执行。

例如,你可以使用 Flask 提供的 request 对象来获取请求的 IP 地址:

@app.before_request
def ip_limiter():ip = request.remote_addr# 在这里处理 IP 限制逻辑pass

注意,如果你的应用部署在有反向代理的环境中,那么 request.remote_addr 可能不是真实的客户端 IP,而是反向代理的 IP。在这种情况下,你需要使用特定的方法来获取客户端的真实 IP。

最后,如果你希望限制某个 IP 访问次数,你可以使用一个字典来记录每个 IP 的访问次数,每次请求时递增计数器,然后判断是否超过限制。

ip_counter = {}@app.before_request
def ip_limiter():ip = request.remote_addrif ip not in ip_counter:ip_counter[ip] = 0ip_counter[ip] += 1if ip_counter[ip] > 10:# 超过限制,拒绝请求abort(429)

上述代码实现的结果是:每个 IP 每分钟最多访问 10 次。

本案例到此结束,已更新到 爬虫训练场 欢迎大家访问学习。
项目同步到代码仓库 https://gitcode.net/hihell/spider_playground

📢📢📢📢📢📢
💗 你正在阅读 【梦想橡皮擦】 的博客
👍 阅读完毕,可以点点小手赞一下
🌻 发现错误,直接评论区中指正吧
📆 橡皮擦的第 820 篇原创博客

从订购之日起,案例 5 年内保证更新

  • ⭐️ Python 爬虫 120,点击订购 ⭐️
  • ⭐️ 爬虫 100 例教程,点击订购 ⭐️

相关内容

热门资讯

安卓系统8.0镜像下载,轻松打... 你有没有想过,想要给你的安卓手机升级到最新的系统,却不知道从哪里下载那个神秘的安卓系统8.0镜像呢?...
安卓系统修改大全,全方位修改大... 你有没有想过,你的安卓手机其实是个大宝藏,里面藏着无数可以让你手机焕然一新的秘密?没错,今天就要来个...
安卓刷miui系统教程,安卓刷... 你有没有想过给你的安卓手机换换口味?别看它现在用得挺顺手的,偶尔来点新鲜感也是不错的。今天,就让我来...
超星学系统安卓版,便捷学习新体... 你有没有发现,学习生活越来越离不开电子设备了?手机、平板,这些小玩意儿简直就是我们的学习小助手。今天...
安卓平板6.0系统安装,轻松上... 你有没有想过,你的安卓平板6.0系统是不是该升级一下了呢?别看它现在看起来还挺精神的,但谁知道背后隐...
安卓系统屏幕显示文字,探索个性... 你有没有发现,手机屏幕上的文字有时候会变得模糊不清,或者颜色暗淡,让人看得很费劲?这可真是让人头疼的...
快递扫描系统下载安卓,便捷物流... 你有没有想过,每次快递员来送快递,他们是怎么快速找到你的包裹的呢?是不是觉得他们有超能力?其实,这背...
安卓系统能打开zip,操作指南... 你有没有想过,你的安卓手机里那些神秘的zip文件到底怎么打开呢?别急,今天就来给你揭秘这个小小的技术...
塞班怎么查找安卓系统,塞班系统... 你有没有想过,你的塞班手机里竟然也能装上安卓系统?听起来是不是有点神奇?别急,今天我就来手把手教你如...
安卓系统短消息提醒,安卓系统短... 你有没有发现,手机里的短消息提醒功能有时候就像一个贴心的管家,有时候又像个爱闹腾的小孩子?今天,咱们...
安卓系统如何跳过密码,安卓系统... 你是不是也和我一样,有时候手机锁屏密码设置得太复杂,每次解锁都要费好大一番力气?别急,今天就来教你怎...
鸿蒙系统功能与安卓,功能对比与... 你知道吗?最近手机圈里可是热闹非凡呢!华为的新操作系统鸿蒙系统(HarmonyOS)一经推出,就引发...
安卓系统卡苹果系统不卡,揭秘两... 你有没有发现,身边的朋友都在争论安卓系统和苹果系统哪个更好?其实,这个问题就像是在问谁家的孩子更聪明...
安卓系统卡解决了吗,安卓系统卡... 你有没有遇到过安卓手机卡顿的问题?是不是每次打开应用都感觉像蜗牛爬行?别急,今天就来聊聊这个让人头疼...
华为安卓系统下载软件,畅享海量... 你有没有想过,手机里的系统就像是我们的大脑,而下载的软件就像是大脑里的各种功能?今天,就让我带你一起...
平板安卓7系统好吗,体验流畅与... 你有没有想过,你的平板电脑的安卓7系统到底怎么样呢?是不是觉得它既熟悉又有点陌生?别急,今天咱们就来...
鸿蒙系统和安卓10,跨时代操作... 你知道吗?最近科技圈可是炸开了锅,因为华为的新操作系统鸿蒙系统横空出世,而且它竟然和安卓10杠上了!...
苹果安卓和鸿蒙系统,三大操作系... 你有没有发现,现在的手机市场就像是一场精彩纷呈的武林大会,各路英雄齐聚一堂,各显神通?没错,说的就是...
鸿蒙怎么还原安卓系统,系统还原... 你是不是也和我一样,对鸿蒙系统里的安卓应用情有独钟呢?最近,不少小伙伴都在问,鸿蒙怎么还原安卓系统?...
荣耀10改回安卓系统,重拾纯净... 你有没有想过,你的荣耀10手机,曾经那般风光无限,如今却想要改回安卓系统呢?这可不是一件小事,得好好...