【爬虫】– 抓取原创力文档数据

news/2024/5/20 9:02:33 标签: rpa, 自动化, 爬虫, 图像处理, excel, 学习方法

使用RPA工具,实现针对于原创力中不可下载文档的抓取,可延用于其他类似文库

1 使用工具、环境

影刀RPA、WPS Office、谷歌浏览器(非指定)

2 代码流程

在这里插入图片描述

3 关键点

  1. 此方案只适合抓取非VIP即可预览全文的文档,抓取下来的数据是图片

  2. 打开网址后,需要鼠标向下滚动一段距离才能触发“下一页”按钮:在这里插入图片描述

  3. 在节点路径:“//*[@id=“main”]/div[1]/div[3]/div[2]//img”下,抓取链接(src属性),注意有些是文档中间的广告图片,有效的文档其实是“//view-cache.book118.com”开头的链接,需要过滤掉非此开头的广告链接,如下:在这里插入图片描述

  4. 文档图片刷新很玄学,需要上下滑动网页才能刷新出来,代码中用了无限循环滚动鼠标+等距离上下移动来解决,检测到没有刷新时打转的“待刷新”才抓取图片链接:在这里插入图片描述

  5. 判断是否抓取到最后一页,是对“继续预览”文字的检测,如果不出现就说明已经是最后一页,即可退出程序:在这里插入图片描述

  6. 按照原文档排序命名图片,依次再插入word文档。因为影刀中列表的排序是要等字节的才能判断,所以代码中将图片的名字和对应路径,分别构造成字典的键和值,再循环1到最大值,依次取出字典的对应值,插入word文档中,实现和原文档一样的排序效果

4 执行结果图

在这里插入图片描述

5 完整程序

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://www.niftyadmin.cn/n/5433756.html

相关文章

我打算修一段时间仙,望周知

1、大科学家牛顿也修过仙,虽然修的是西方的仙;我们东方人不信那个邪,有自己优秀的传统文化,我只修东方的仙;另外,作为普通凡人我成就和智慧都无法望牛顿老人家项背的普通人,即使现在暂时“修仙”…

GaN HEMTs在电力电子应用中的交叉耦合与基板电容分析与建模

来源:Analysis and Modeling of Cross-Coupling and Substrate Capacitances in GaN HEMTs for Power-Electronic Applications( TED 17年) 摘要 本文提出了一种考虑了基板电容与场板之间交叉耦合效应的场板AlGaN/GaN高电子迁移率晶体管(HE…

SVM-支持向量机实验分析(软硬间隔,线性核,高斯核)

目录 一、前言 二、实验 0. 导入包 1. 支持向量机带来的效果 2. 软硬间隔 3. 非线性支持向量机 4. 核函数变换 线性核 高斯核 对比不同的gamma值对结果的影响 一、前言 学习本文之前要具有SVM支持向量机的理论知识,可以参考支持向量机(Support Vector …

以题为例浅谈文件包含

什么叫做文件包含 文件包含函数加载的参数没有经过过滤或严格定义,可以被用户控制, 包含其他恶意文件,导致了执行非预期代码。 文件包含漏洞(File Inclusion Vulnerability)是一种常见的网络安全漏洞,它允…

【目标检测经典算法】R-CNN、Fast R-CNN和Faster R-CNN详解系列一:R-CNN图文详解

学习视频:Faster-RCNN理论合集 概念辨析 在目标检测中,proposals和anchors都是用于生成候选区域的概念,但它们在实现上有些许不同。 Anchors(锚框): 锚框是在图像中预定义的一组框,它们通常以…

我是继续学习编程,还是学数控?

今日话题,继续学习编程,还是学数控?综合来说肯定是软件的待遇和工作环境都要好些。 当然这行有一定的技术门槛,所谓会者不难,难者不会。要入门需要一定的天赋或者说时间,当然 兴趣是最好的老师,…

opencv编解码base64字符串

cpp-base64代码地址&#xff1a; https://github.com/ReneNyffenegger/cpp-base64 下载仓库&#xff0c;并将base64.h&#xff0c;Base64.cpp 加入代码中&#xff0c; 将Mat对象编码为base64字符串 Mat img imread("xxx.png"); std::vector<uchar> buf; cv::…

uniapp——第2篇:编写vue语法

前提&#xff0c;建议先学会前端几大基础&#xff1a;HTML、CSS、JS、Ajax&#xff0c;还有一定要会Vue!&#xff08;Vue2\Vue3&#xff09;都要会&#xff01;&#xff01;&#xff01;不然不好懂 一、去哪写&#xff1f; 就在【pages】的你的人一个页面文件夹里的【.vue】文…