Java网络爬虫-HttpClient工具类
创始人
2024-05-30 21:38:23
0

关于用Java进行爬虫的资料网上实在少之又少,但作为以一名对Java刚刚初窥门径建立好兴趣的学生怎么能静得下心用新学的Python去写,毕竟Java是世界上最好的语言嘛 (狗头)

关于Java爬虫最受欢迎的一个框架Jsoup常常搭配HttpClient来使用,因为Jsoup.connect(url)下载网页没有多次重试的功能,所以我们更多的使用HttpClient来进行网页的下载,而Jsoup则更多的用来解析网页。比较专业的事还得专业的人来干!

对于下载网页我们没必要每次都花费大把的时间去写,直接写一个工具类,在Jsoup中直接调用即可

关于HttpClient

关于HttpClient主要有两个版本

  • org.apache.http.client.HttpClient `3.X`

  • org.apache.commons.httpClient.HttpClient `4.X`

相比较4.X的功能更加丰富简洁,但3.x也不差,下面拿3.x举例

HttpClient实例代码

package com.Jsoup;import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.HttpStatus;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.params.HttpMethodParams;import java.io.IOException;//下载网页工具,返回html对象
public class HttpUtil {static String fileName = null;static String content;/*** 获取网页主体内容,完成HttpClient的下载任务,剩下的交给Jsoup来解析* @param url URL地址* @param charset 设置编码格式* @return 返回网页 html内容 * @throws IOException 抛出IO异常*/public static String getContent(String url,String charset) throws IOException {//1.创建客户端对象并设置参数HttpClient httpClient = new HttpClient();//设置 Http 超时httpClient.getHttpConnectionManager().getParams().setConnectionTimeout(2000);//2.生成GetMethod对象并设置参数GetMethod getMethod = new GetMethod(url);//设置 Get 请求超时getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT,2000);getMethod.getParams().setContentCharset(charset);//设置请求重试处理-这是使用HttpClient下载网页而不用Jsoup的原因getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,new DefaultHttpMethodRetryHandler());//设置头信息//getMethod.getParams().setParameter(HttpMethodParams.USER_AGENT,"需要添加的代理信息");//3.执行 Get 请求int statusCode = httpClient.executeMethod(getMethod);//判断访问的状态码if (statusCode != HttpStatus.SC_OK){System.err.println("请求失败: "+getMethod.getStatusLine());fileName = null;}else {//4.处理 HTTP 响应内容//获得响应体内容content = getMethod.getResponseBodyAsString();}//5.释放连接getMethod.releaseConnection();//输出到控制台//System.out.println(content);return content;}}
注意:这里的用户代理(User-Agent)需要按需求设置,后期可能需要设置大量的代理,我们将设置一个Use-Agent库,每次执行爬虫任务将从中随机选取一个,防止被网站封锁

Jsoup代码

public class JsoupDemo01 {public static void main(String[] args) throws IOException {String url = "https://xxxx.com";String html =  HttpUtil.getContent(url,"UTF-8");//Jsoup.parse(String html)可以根据html文档来解析Document doc = Jsoup.parse(html);//具体解析网页不做展示,之后更新}
}

相关内容

热门资讯

苹果电脑安卓系统很卡,卡顿背后... 你有没有发现,最近你的苹果电脑用起来有点慢吞吞的?别急,这可不是个例哦!很多小伙伴都在抱怨,他们的苹...
怎么解除系统禁止安装安卓 你是不是也遇到了这个让人头疼的问题:安卓系统突然禁止安装新的应用?别急,今天就来手把手教你如何解除这...
安卓12平板电脑系统,系统革新... 你有没有发现,最近安卓平板电脑界可是热闹非凡呢!安卓12平板电脑系统横空出世,带来了不少惊喜。今天,...
atv系统和安卓9.0,引领智... 你有没有想过,你的手机和你的ATV(全地形车)之间能有什么交集呢?别惊讶,今天就要给你揭秘这个奇妙的...
安卓最好用省电的系统,探索最佳... 你有没有发现,手机用着用着,电池就“咕咚咕咚”地叫唤起来?别急,今天就来给你揭秘,安卓世界里那些最好...
有哪些安卓类型的系统,多款定制... 你知道吗?在手机世界里,安卓系统就像是个万能的魔法师,它不仅能变出各种各样的手机,还能衍生出各种有趣...
安卓系统精简多少内存,提升运行... 你有没有想过,你的安卓手机为什么有时候会变得那么慢呢?是不是觉得内存不够用,总是卡卡的?别急,今天就...
高端安卓工控系统哪个好,揭秘最... 你有没有想过,家里的智能设备越来越多了,但它们之间的沟通却总是有点儿“鸡同鸭讲”?这不,最近我在研究...
安卓系统识别磁盘格式,磁盘格式... 你有没有遇到过这种情况:手机里突然多了一个陌生的磁盘,你好奇地想看看里面有什么宝贝,却发现安卓系统竟...
惠普平板怎么换安卓系统,惠普平... 你有没有发现,惠普平板电脑的安卓系统有时候用起来还挺不顺手的?别急,今天就来手把手教你如何给惠普平板...
手机显示安卓系统有攻击,揭秘手... 最近是不是发现你的手机屏幕上突然弹出了好多奇怪的提示,说是安卓系统有攻击?别慌,这可不是什么科幻电影...
安卓系统合并分区工具,高效优化... 你有没有想过,你的安卓手机里那些零零散散的存储空间,其实可以变得井井有条呢?没错,今天就要给你安利一...
超好玩安卓系统游戏,解锁无限游... 你有没有发现,最近手机里的游戏越来越好玩了?尤其是那些安卓系统上的游戏,简直让人停不下来!今天,就让...
mate关闭安卓系统通知,深度... 你是不是也和我一样,手机里通知乱糟糟的,有时候连个重要信息都找不到?别急,今天就来和你聊聊如何让你的...
安卓系统诺基亚n96 你有没有想过,那个曾经风靡一时的诺基亚N96,现在在安卓系统下还能焕发出怎样的光彩呢?今天,就让我带...
安卓类原生系统下载方法,安卓原... 你有没有想过,为什么你的手机总是那么卡,那么慢?是不是因为它的系统太老了,需要更新一下呢?别急,今天...
安卓系统车机界面,智能驾驶体验... 你有没有发现,现在越来越多的汽车都开始搭载智能系统了?没错,就是那种可以连接手机、导航、娱乐一应俱全...
神器系统和安卓内存对比,性能与... 你有没有想过,为什么你的手机有时候会卡得像蜗牛一样?其实,这背后有一个神秘的大脑在默默操控着——那就...
鸿蒙系统版本安卓版区别,安卓版... 你有没有发现,最近手机圈子里有个大热门,那就是鸿蒙系统。没错,就是那个华为自主研发的系统。不过,你知...
韶关安卓系统广告机,智能展示新... 韶关安卓系统广告机:点亮城市繁华的智慧之光想象当你走在韶关的街头,突然间,一块块屏幕如同魔法般亮起,...