Java网络爬虫-HttpClient工具类
创始人
2024-05-30 21:38:23
0

关于用Java进行爬虫的资料网上实在少之又少,但作为以一名对Java刚刚初窥门径建立好兴趣的学生怎么能静得下心用新学的Python去写,毕竟Java是世界上最好的语言嘛 (狗头)

关于Java爬虫最受欢迎的一个框架Jsoup常常搭配HttpClient来使用,因为Jsoup.connect(url)下载网页没有多次重试的功能,所以我们更多的使用HttpClient来进行网页的下载,而Jsoup则更多的用来解析网页。比较专业的事还得专业的人来干!

对于下载网页我们没必要每次都花费大把的时间去写,直接写一个工具类,在Jsoup中直接调用即可

关于HttpClient

关于HttpClient主要有两个版本

  • org.apache.http.client.HttpClient `3.X`

  • org.apache.commons.httpClient.HttpClient `4.X`

相比较4.X的功能更加丰富简洁,但3.x也不差,下面拿3.x举例

HttpClient实例代码

package com.Jsoup;import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.HttpStatus;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.params.HttpMethodParams;import java.io.IOException;//下载网页工具,返回html对象
public class HttpUtil {static String fileName = null;static String content;/*** 获取网页主体内容,完成HttpClient的下载任务,剩下的交给Jsoup来解析* @param url URL地址* @param charset 设置编码格式* @return 返回网页 html内容 * @throws IOException 抛出IO异常*/public static String getContent(String url,String charset) throws IOException {//1.创建客户端对象并设置参数HttpClient httpClient = new HttpClient();//设置 Http 超时httpClient.getHttpConnectionManager().getParams().setConnectionTimeout(2000);//2.生成GetMethod对象并设置参数GetMethod getMethod = new GetMethod(url);//设置 Get 请求超时getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT,2000);getMethod.getParams().setContentCharset(charset);//设置请求重试处理-这是使用HttpClient下载网页而不用Jsoup的原因getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,new DefaultHttpMethodRetryHandler());//设置头信息//getMethod.getParams().setParameter(HttpMethodParams.USER_AGENT,"需要添加的代理信息");//3.执行 Get 请求int statusCode = httpClient.executeMethod(getMethod);//判断访问的状态码if (statusCode != HttpStatus.SC_OK){System.err.println("请求失败: "+getMethod.getStatusLine());fileName = null;}else {//4.处理 HTTP 响应内容//获得响应体内容content = getMethod.getResponseBodyAsString();}//5.释放连接getMethod.releaseConnection();//输出到控制台//System.out.println(content);return content;}}
注意:这里的用户代理(User-Agent)需要按需求设置,后期可能需要设置大量的代理,我们将设置一个Use-Agent库,每次执行爬虫任务将从中随机选取一个,防止被网站封锁

Jsoup代码

public class JsoupDemo01 {public static void main(String[] args) throws IOException {String url = "https://xxxx.com";String html =  HttpUtil.getContent(url,"UTF-8");//Jsoup.parse(String html)可以根据html文档来解析Document doc = Jsoup.parse(html);//具体解析网页不做展示,之后更新}
}

相关内容

热门资讯

oppok3安卓系统 你有没有发现,最近手机圈里又掀起了一股热潮?没错,就是OPPO K3这款新机!这款手机不仅外观时尚,...
不带安卓系统鸿蒙能用吗,鸿蒙能... 最近是不是有很多小伙伴在纠结一个问题:不带安卓系统的手机,比如华为的鸿蒙系统手机,能不能用呢?别急,...
安卓到底哪个系统好点用,哪个版... 你有没有想过,手机里那个小小的操作系统,竟然能影响你每天的生活质量?没错,说的就是安卓系统。市面上安...
还有什么手机是安卓系统,安卓系... 你有没有发现,现在市面上手机品牌琳琅满目,各种操作系统争奇斗艳,安卓系统更是占据了半壁江山。但是,你...
安卓系统找苹果手机定位,揭秘如... 你有没有想过,即使你的手机是安卓系统,也能轻松找到苹果手机的位置呢?没错,这就是今天我要跟你分享的小...
miix28装安卓系统 你有没有想过,你的miix28平板电脑也能装上安卓系统,让它焕发第二春呢?没错,就是那个曾经陪伴你度...
双系统平板如何打开安卓,双系统... 你有没有想过,拥有一台双系统平板,既能体验安卓的流畅,又能享受Windows的强大?这听起来是不是很...
机顶盒安卓系统版本 你有没有发现,家里的电视最近变得聪明多了?没错,就是那个小小的机顶盒,它现在可是搭载了安卓系统呢!今...
苹果安卓双系统好吗,兼容性与便... 你有没有想过,为什么你的手机里既有苹果的iOS系统,又有安卓的系统呢?是不是觉得这样有点乱,但又有点...
最先出安卓系统的手机,从安卓初... 哇,你有没有想过,手机的世界里,谁才是那个第一个吃螃蟹的人呢?没错,我要说的就是那个最先推出安卓系统...
安卓9系统解决碎片化,提升设备... 你知道吗?最近安卓系统又升级啦!这次可是大动作,直接跳到了安卓9系统。听说这个新系统解决了安卓一直以...
安卓系统和谷歌支付,无缝融合的... 你知道吗?在智能手机的世界里,安卓系统和谷歌支付可是两大巨头,它们可是让我们的生活变得更加便捷呢!今...
qq安卓系统与苹果系统的区别,... 你有没有发现,现在手机上聊天工具真是五花八门,QQ就是其中一款超级受欢迎的软件。不过,你知道吗?QQ...
安卓系统转苹果拼多多,拼多多在... 你知道吗?最近身边的朋友都在议论纷纷,说他们要从安卓系统转到苹果手机,而且还有不少人是冲着拼多多去的...
小米安卓13系统在哪看,探索系... 你有没有发现,最近小米手机的新鲜事儿可真不少啊!这不,安卓13系统已经悄悄上线了,你有没有好奇它在哪...
当年安卓系统难度有多大,揭秘初... 你还记得当年安卓系统刚问世的时候吗?那时候,它就像一个刚出道的明星,充满了潜力,但也让人摸不着头脑。...
安卓系统的手环有哪些,多款智能... 说到智能手环,你有没有想过,为什么安卓系统的手环这么受欢迎呢?它们不仅功能强大,而且款式多样,简直让...
金立手机安卓系统设置,个性化定... 你有没有发现,手机里的安卓系统设置就像一个神秘的宝箱,里面藏着无数的小秘密?今天,就让我带你一起探索...
无人机自带安卓系统,智能航拍与... 你有没有想过,无人机竟然也能装上安卓系统?没错,你没听错!在这个科技飞速发展的时代,无人机也迎来了自...
红魔手机安卓系统降级,轻松回归... 你有没有发现,最近红魔手机的用户圈里掀起了一股小小的热潮?没错,就是安卓系统降级这件事。你知道吗,这...