当前位置:首页 > 软件开放 > 正文内容

网站源码爬取(获取网站源码)

软件开放2年前 (2023-01-12)1929

今天给各位分享网站源码爬取的知识,其中也会对获取网站源码进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

用requests库爬取网站源码问题

这个网页是JavaScript异步加载的,直接用requests爬不到你想要的网页源码。

为什么别人网站源码中只有少量内容,其他通过js实现

最有可能的原因就是网页数据是动态加载的,存储在一个json文件中,直接获取源码是提取不到任何信息的,需要抓包分析才行,下面我简单介绍一下操作过程,以某某贷上的数据为例(动态加载):

1.首先,打开原网页,如下,这里假设我们要爬取的数据包含年利率、借款标题、期限、金额和进度5个字段:

2.接着右键打开网页源码,按Ctrl+F搜索其中关键字,如“10.20%”,可以看到,任何信息都匹配不到,说明数据是动态加载的,而非直接嵌套在网页源码中:

3.按F12调出浏览器开发者工具,开始抓包分析,依次点击“Network”-“XHR”,F5刷新页面,可以看到,数据是动态加载的,存储在一个json文件中,而非html网页源码,只有解析这个json文件,才能提取出我们需要的数据:

4.接着就是根据抓包结果解析json文件,已经获取到url地址,所以直接get请求即可,然后用python自带的json包解析就行,测试代码如下,非常简单,依次根据属性提取字段信息即可:

5.最后点击运行程序,截图如下,已经成功提取到我们需要的数据:

至此,我们就完成了网页动态数据的爬取。总的来说,整个过程非常简单,最主要的还是抓包分析,获取到真实存储数据的文件,然后再解析就行,只要你有一定的python基础,熟悉一下上面的过程,很快就能掌握的,当然,如果数据或链接进行了加密处理,这个就非常复杂了,需要自己好好琢磨一下,网上也有相关资料和教程,感兴趣的话,可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言进行补充。

python怎么爬取网页源代码

#!/usr/bin/env python3

#-*- coding=utf-8 -*-

import urllib3

if __name__ == '__main__':

http=urllib3.PoolManager()

r=http.request('GET','IP')

print(r.data.decode("gbk"))

可以正常抓取。需要安装urllib3,py版本3.43

网站源码爬取的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于获取网站源码、网站源码爬取的信息别忘了在本站进行查找喔。

扫描二维码推送至手机访问。

版权声明:本文由飞速云SEO网络优化推广发布,如需转载请注明出处。

本文链接:http://hon-tex.cn/post/3578.html

分享给朋友:

“网站源码爬取(获取网站源码)” 的相关文章

如何自己创建软件(怎么自己创建软件)

如何自己创建软件(怎么自己创建软件)

今天给各位分享如何自己创建软件的知识,其中也会对怎么自己创建软件进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文目录一览: 1、如何创建一个软件? 2、怎么创建一个软件 3、创建软件从哪里入手? 4、如何自己开发软件app 5、如何自己制作一个APP软件?...

码上放心追溯码用什么扫(码上放心追溯码什么意思)

码上放心追溯码用什么扫(码上放心追溯码什么意思)

本篇文章给大家谈谈码上放心追溯码用什么扫,以及码上放心追溯码什么意思对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 本文目录一览: 1、药品追溯码为什么印淘宝扫一扫? 2、码上放心的二维码可以手动输入扫码枪吗 3、码上放心子类监管码在那里查 药品追溯码为什么印淘宝扫一扫? 亲,很高...

手机怎么用电脑端浏览器(如何手机使用电脑浏览器)

手机怎么用电脑端浏览器(如何手机使用电脑浏览器)

今天给各位分享手机怎么用电脑端浏览器的知识,其中也会对如何手机使用电脑浏览器进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文目录一览: 1、安卓手机浏览器怎么设置成电脑版 2、手机浏览器怎么切换电脑版 3、手机怎么进去电脑版网页 安卓手机浏览器怎么设置成电脑版 安...

东北网红小橙子爸爸封号了吗(东北网红小橙子爸爸封号了吗知乎)

东北网红小橙子爸爸封号了吗(东北网红小橙子爸爸封号了吗知乎)

今天给各位分享东北网红小橙子爸爸封号了吗的知识,其中也会对东北网红小橙子爸爸封号了吗知乎进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文目录一览: 1、小橙子是干什么的? 2、哈尔滨小橙子先生的爸爸是做什么工作的? 3、小橙子爸爸怎么死的 4、2岁小橙子爸爸是干...

autojs源码(autojs源码提取器)

autojs源码(autojs源码提取器)

今天给各位分享autojs源码的知识,其中也会对autojs源码提取器进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文目录一览: 1、手机autojs 怎样host跳过活着屏蔽广告源码 2、大量autojs常用代码介绍以及示例 3、Autojs微信自动操作免root...

有没有做装修直播平台的(装修行业如何做直播)

有没有做装修直播平台的(装修行业如何做直播)

今天给各位分享有没有做装修直播平台的的知识,其中也会对装修行业如何做直播进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文目录一览: 1、未来装修行业直播能发展的像电商直播那样吗? 2、装修网站排行榜前十名有哪些?哪个网站最好? 3、关于装修的网站平台有哪些 4、...