实操续：爬虫基础知识，浏览器最基本的配置方法|电子爱好者

admin管理员组
文章数量:1663973

接着上篇，继续讲解http协议

老司机，带你用30行代码爬取高清美女写真，附安装包+源码

这里只讲解爬虫用得到部分；

浏览器的解析

F12打开，点击Network，F5刷新，就可以看到

HTTP客服端协议

url解析

http://www.demo:8080/list/index.php?boardID=5&ID=24618&page=1#name

1.协议部分

该URL的协议部分为“http：”，常见的有http:，和https:，其他的还有ftp，utp

2域名部分

该URL的域名部分为“www.demo”。

常见域名后缀有///

内网通常使用IP作为域名

3.端口部分

跟在域名后面的数字是端口，域名和端口之间使用“:”作为分隔符。
端口不是一个URL必须的部分，如果省略端口部分，将采用默认端口80

4、虚拟目录部分：

从域名后的第一个“/”开始到最后一个“/”为止，是虚拟目录部分。
虚拟目录也不是一个URL必须的部分。本例中的虚拟目录是“/list/”

5、文件名部分：

从域名后的最后一个“/”开始到“？”为止，
是文件名部分，如果没有“?”,则是从域名后的最后一个“/”开始到“#”为止，是文件部分。
如果没有“？”和“#”，那么从域名后的最后一个“/”开始到结束，都是文件名部分。
本例中的文件名是“index.asp”。文件名部分也不是一个URL必须的部分，如果省略该部分，则使用默认的文件名

6、锚部分：

从“#”开始到最后，都是锚部分。本例中的锚部分是“name”。锚部分也不是一个URL必须的部分

7、参数部分：

从“？”开始到“#”为止之间的部分为参数部分，又称搜索部分、查询部分。本例中的参数部分为“boardID=5&ID=24618&page=1”。参数可以允许有多个参数，参数与参数之间用“&”作为分隔符。

HTML 请求方法：Request Method:

get：

GET 请求可被缓存
GET 请求保留在浏览器历史记录中
GET 请求可被收藏为书签
GET 请求不应在处理敏感数据时使用
GET 请求有长度限制
GET 请求只应当用于取回数据（不修改）

Python模拟get请求

payload = {'key1': 'value1', 'key2': ['value2', 'value3']}
res = requests.get('http://www.baidu', params=payload)
print(res.url)
http://www.baidu.com?key1=value1&key2=value2&key2=value

post：

POST 请求不会被缓存
POST 请求不会保留在浏览器历史记录中
POST 不能被收藏为书签
POST 请求对数据长度没有要求

Python模拟post请求

import requests

# Request URL
url = 'https://www.XX/Goods/GoodsDetail'
# Request Data
data = dict(
    #参数
    id=13404
)
response = requests.post(url, data)
print(response)  #请求状态
print(response.content)  #返回结果

put：

PUT 用于将数据发送到服务器来创建/更新资源。
POST 和 PU T之间的区别在于 PUT 请求是幂等的（idempotent）。也就是说，多次调用相同的 PUT 请求将始终产生相同的结果。相反，重复调用POST请求具有多次创建相同资源的副作用。

# 使用urllib2
import urllib2
url="http://localhost"
param='{"userid":1}'
request=urllib2.Request(url.param)
request.add_header("Content-Type","application/json")
request.add_header("Accept","application/json")
request.get_method=lambda :"GET"#"GET,POST,PUT,DELETE"
response=urllib2.urlopen(request)
response_txt=response.read()
response_header=response.info()

DELETE

DELETE 方法删除指定的资源。

user-agent:

浏览器标识–出于兼容及推广等目的，很多浏览器的标识相同，因此浏览器标识并不能说明浏览器的真实版本，真实版本信息在 UA 字串尾部可以找到。

Python 添加ua


req = request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 UBrowser/4.0.3214.0 Safari/537.36')
# 正常访问
rsp = request.urlopen(req)
html = rsp.read().decode()
print(html)

结语：

掌握这个，对浏览器模拟有一个更加清晰的认知。
粉丝福利

本文标签：爬虫基础知识浏览器方法实操续

版权声明：本文标题：实操续：爬虫基础知识，浏览器最基本的配置方法内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1730013865a1219136.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

实操续：爬虫基础知识，浏览器最基本的配置方法

浏览器的解析

HTTP客服端协议

url解析

http://www.demo:8080/list/index.php?boardID=5&ID=24618&page=1#name

1.协议部分

2域名部分

常见域名后缀有///

内网通常使用IP作为域名

3.端口部分

4、虚拟目录部分：

5、文件名部分：

6、锚部分：

7、参数部分：

HTML 请求方法：Request Method:

get：

Python模拟get请求

post：

Python模拟post请求

put：

DELETE

user-agent:

Python 添加ua

结语：

更多相关文章

实操续：爬虫基础知识，浏览器最基本的配置方法

google 浏览器迅雷支持

俄罗斯国内都用什么浏览器-俄罗斯浏览器市场份额图-Chrome浏览器点击下载没有反应及打开IE浏览器后自动跳转到了Edge浏览器的问题

电脑卡顿，有时可能是edge浏览器导致的，怎麽办？

浏览器能上网但下载不了软件的解决办法

asp.net 返回文件，浏览器、迅雷两次请求

Java 从服务器下载文件，并提供给浏览器下载

百分浏览器Cent Browser v5.1.1130.129 正式版

NISP-浏览器安全

js判断浏览器的类型

java通过io流从前端浏览器下载文件直接下载到本地

h5禁用浏览器下载视频_【HTML5】video 标签禁用自带的下载按钮

浏览器(IE 下载设置不默认迅雷)

loadrunner - 录制脚本时浏览器不自动弹出的解决办法

h5页面文件加载不出来被浏览器当成广告屏蔽

超漂亮的纯JAVA浏览器（附源码）

使用浏览器快速下载软件或者文件

计算机电脑为什么0无法输入,电脑浏览器网页无法输入文字该怎么办？

自制url协议，可以通过浏览器url直接打开应用程序

【docker】部署code-server云端vscode，在浏览器上写代码！

发表评论

推荐文章

安卓手机浏览器自动关闭的解决方法

华硕主板恢复出厂设置详解

IOS免签封装，解决H5应用上架App Store被拒的问题

充电宝什么品牌比较好？五大性价比高充电宝品牌推荐！

云盘搜索（yunpansearch）综合网盘资源搜索引擎源码

热门文章

韦东山视频监控方案学习笔记

windows下tomcat热部署旧文件资源被锁定导致文件删除失败

人体姿态估计（human pose estimate）

Win10 局域网内ping不通另外一台电脑

局域网打印机共享怎么设置_[干货]局域网打印机共享

如何将 ONLYOFFICE 协作空间及其组件嵌入到您的网站

H5页面唤起指定app或跳转到应用市场

Android app直接打开应用市场升级

【信息安全概论】笔记

论文浅尝 | Data Intelligence 已出版的知识图谱主题论文

最新文章

Call for PapersInternational Conference for Smart Health (ICSH) 2014

【科研新手指南2】「NLP+网安」相关顶级会议&amp;期刊 投稿注意事项+会议等级+DDL+提交格式

常见计算机领域会议信息收集(排名不准 仅供参考)

研究论文征稿通知 | The ACM Conference on Recommender Systems

International Conference in 2015

AI conference

owasp conference video and ppt

计算机类顶级会议排名+投稿经验

2014 International Conference on Robotics and Computer Vision (ICRVC 2014)

International Conference in 2014

Computer Science Conference Rankings 计算机科学会议排名 Rank

计算机会议排名：Computer Science Conference Rankings

ABeam Insight （德硕）| Smart Conference ——让你的生意跨越语言障碍

推荐文章：打造卓越会议体验——Conference移动应用深度剖析

计算机会议排名：Computer Science Conference Rankings- -

【科研新手指南2】「NLP+网安」相关顶级会议&期刊投稿注意事项+会议等级+DDL+提交格式

常见计算机领域会议信息收集(排名不准仅供参考)

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载