admin管理员组

文章数量:1550689

来说说我用python爬取淘宝数据遇见的坑

学习python 一年了,总想着找个大网站来练练手,于是乎,我就把眼光放在了马云爸爸的知名大网站——淘宝。可能也是我自己作死的关系,导致淘宝不让我访问了,不但出现滑块验证码,验证码即使通过了也依然不让我访问,莫名想哭怎么办 ,呜哇~~~

下面就来讲讲我爬淘宝遇到的坑们

一、首先打开了淘宝,想爬商品的基本信息,但是不想爬详情页,就想着在搜索页找找看能不能爬,然后还真的有诶,火狐浏览器查看元素 ,刷新一下,就能找到一个json类型的响应,但是打开请求网址 ,却显示这个

然后看看原始数据,好吧,确实不是正确的json格式的数据,那我试着请求请求,看能不能得到里面的信息,结果显而易见,当然不行,不行怎么办呢,当时我看到了JSONP这个东西

然后就在想JSONP是个什么 ,还有回调是个啥,此时就得靠我们的好老师——百度啦,然后度老师是这么解释的 :

Jsonp(JSON with Padding) 是 json 的一种"使用模式",可以让网页从别的域名(网站)那获取资料,即跨域读取数据。

我在想这样是不是和js渲染有关呢?可是那么多js文件到底是哪个呢?怪我自己才疏学浅,到这我就进行不下去了,然而我发现并不是这个问题阻挡了我,而是API,原来我发现的这个请求网址是这个样子滴

本文标签: 淘宝数据Python