专业编程基础技术教程

网站首页 > 基础教程 正文

网络爬虫知识 day04

ccvgpt 2024-08-16 14:53:18 基础教程 8 ℃

一、封装HttpClient

我们需要经常使用HttpClient,所以需要进行封装,方便使用

网络爬虫知识 day04

@Component

public class HttpUtils {


private PoolingHttpClientConnectionManager cm;


public HttpUtils() {

this.cm = new PoolingHttpClientConnectionManager();


// 设置最大连接数

cm.setMaxTotal(200);


// 设置每个主机的并发数

cm.setDefaultMaxPerRoute(20);

}


//获取内容

public String getHtml(String url) {

// 获取HttpClient对象

CloseableHttpClient httpClient = HttpClients.custom().setConnectionManager(cm).build();


// 声明httpGet请求对象

HttpGet httpGet = new HttpGet(url);

// 设置请求参数RequestConfig

httpGet.setConfig(this.getConfig());


CloseableHttpResponse response = null;

try {

// 使用HttpClient发起请求,返回response

response = httpClient.execute(httpGet);

// 解析response返回数据

if (response.getStatusLine().getStatusCode() == 200) {

String html = "";


// 如果response。getEntity获取的结果是空,在执行EntityUtils.toString会报错

// 需要对Entity进行非空的判断

if (response.getEntity() != null) {

html = EntityUtils.toString(response.getEntity(), "UTF-8");

}


return html;

}


} catch (Exception e) {

e.printStackTrace();

} finally {

try {

if (response != null) {

// 关闭连接

response.close();

}

// 不能关闭,现在使用的是连接管理器

// httpClient.close();

} catch (Exception e) {

e.printStackTrace();

}

}


return null;

}

//获取图片

public String getImage(String url) {

// 获取HttpClient对象

CloseableHttpClient httpClient = HttpClients.custom().setConnectionManager(cm).build();


// 声明httpGet请求对象

HttpGet httpGet = new HttpGet(url);

// 设置请求参数RequestConfig

httpGet.setConfig(this.getConfig());


CloseableHttpResponse response = null;

try {

// 使用HttpClient发起请求,返回response

response = httpClient.execute(httpGet);

// 解析response下载图片

if (response.getStatusLine().getStatusCode() == 200) {

// 获取文件类型

String extName = url.substring(url.lastIndexOf("."));

// 使用uuid生成图片名

String imageName = UUID.randomUUID().toString() + extName;


// 声明输出的文件

OutputStream outstream = new FileOutputStream(new File("D:/images/" + imageName));

// 使用响应体输出文件

response.getEntity().writeTo(outstream);


// 返回生成的图片名

return imageName;

}


} catch (Exception e) {

e.printStackTrace();

} finally {

try {

if (response != null) {

// 关闭连接

response.close();

}

// 不能关闭,现在使用的是连接管理器

// httpClient.close();

} catch (Exception e) {

e.printStackTrace();

}

}


return null;

}


//获取请求参数对象

private RequestConfig getConfig() {

RequestConfig config = RequestConfig.custom().setConnectTimeout(1000)// 设置创建连接的超时时间

.setConnectionRequestTimeout(500) // 设置获取连接的超时时间

.setSocketTimeout(10000) // 设置连接的超时时间

.build();


return config;

}


}


二、实现数据抓取

使用定时任务,可以定时抓取最新的数据

@Component

public class ItemTask {


@Autowired

private HttpUtils httpUtils;

@Autowired

private ItemService itemService;


public static final ObjectMapper MAPPER = new ObjectMapper();



//设置定时任务执行完成后,再间隔100秒执行一次

@Scheduled(fixedDelay = 1000 * 100)

public void process() throws Exception {

//分析页面发现访问的地址,页码page从1开始,下一页oage加2

String url = "https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&cid2=653&cid3=655&s=5760&click=0&page=";


//遍历执行,获取所有的数据

for (int i = 1; i < 10; i = i + 2) {

//发起请求进行访问,获取页面数据,先访问第一页

String html = this.httpUtils.getHtml(url + i);


//解析页面数据,保存数据到数据库中

this.parseHtml(html);


}

System.out.println("执行完成");

}



//解析页面,并把数据保存到数据库中

private void parseHtml(String html) throws Exception {

//使用jsoup解析页面

Document document = Jsoup.parse(html);


//获取商品数据

Elements spus = document.select("div#J_goodsList > ul > li");


//遍历商品spu数据

for (Element spuEle : spus) {

//获取商品spu

Long spuId = Long.parseLong(spuEle.attr("data-spu"));


//获取商品sku数据

Elements skus = spuEle.select("li.ps-item img");

for (Element skuEle : skus) {

//获取商品sku

Long skuId = Long.parseLong(skuEle.attr("data-sku"));


//判断商品是否被抓取过,可以根据sku判断

Item param = new Item();

param.setSku(skuId);

List<Item> list = this.itemService.findAll(param);

//判断是否查询到结果

if (list.size() > 0) {

//如果有结果,表示商品已下载,进行下一次遍历

continue;

}


//保存商品数据,声明商品对象

Item item = new Item();


//商品spu

item.setSpu(spuId);

//商品sku

item.setSku(skuId);

//商品url地址

item.setUrl("https://item.jd.com/" + skuId + ".html");

//创建时间

item.setCreated(new Date());

//修改时间

item.setUpdated(item.getCreated());



//获取商品标题

String itemHtml = this.httpUtils.getHtml(item.getUrl());

String title = Jsoup.parse(itemHtml).select("div.sku-name").text();

item.setTitle(title);


//获取商品价格

String priceUrl = "https://p.3.cn/prices/mgets?skuIds=J_"+skuId;

String priceJson = this.httpUtils.getHtml(priceUrl);

//解析json数据获取商品价格

double price = MAPPER.readTree(priceJson).get(0).get("p").asDouble();

item.setPrice(price);


//获取图片地址

String pic = "https:" + skuEle.attr("data-lazy-img").replace("/n9/","/n1/");

System.out.println(pic);

//下载图片

String picName = this.httpUtils.getImage(pic);

item.setPic(picName);


//保存商品数据

this.itemService.save(item);

}

}

}

}

Tags:

最近发表
标签列表