admin管理员组文章数量:1531698
2024年3月9日发(作者:)
1. 使用Beautiful Soup的步骤
简单的使用Beautiful Soup,大致可以分为三步:
1. 导入Beautiful Soup类
from bs4 import BeautifulSoup
2.
3.
初始化参数,需要传递两个参数:HTML代码和HTML解析器
soup = BeautifulSoup(markup, features)
4.
5.
获取Beautiful Soup实例对象,通过操作对象来获取解析结果并提取数据
fy()
6.
2. 初始化Beautiful Soup对象
从bs4库中导入BeautifulSoup类实例化一个对象。
from bs4 import BeautifulSoup
soup = BeautifulSoup(markup, features)
在实例化的过程中,需要给BeautifulSoup这个类传递两个参数:
markup、features。
1. 第一个参数:markup
•
参数解释:被解析的HTML字符串或文件内容,也就是说markup是用来接收需要解析的HTML字符串或者文件内容的。
使用方式两种:
使用字符串变量。直接将html数据以字符串的形式传入。
•
1.
#
使用第一步的html_str字符串变量from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str)
2.
3.
使用open()函数打开文件,将html数据以文件流的形式传入。
#
假设将html_str字符串写入了中from bs4 import BeautifulSoup
soup = BeautifulSoup(open())
4.
2. 第二个参数:features
•
•
参数解释:解析器的类型
使用方式有两种:
指定解析器,BeautifulSoup选择指定的解析器来解析文档
1.
#
指定lxml作为解析器from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str, 'lxml')
2.
3. 未指定解析器,BeautifulSoup选择最默认的解析器来解析文档
#
解析html_str选择最默认的解析器from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str)
4.
3. 总结
如何使用Beautiful Soup解析HTML文档?
这个非常的简单,只需要使用Beautiful Soup类初始化一个对象,然后操作这个对象就可以了。
需要注意的是:在初始化的对象的时候,需要给Beautiful Soup类传递两个参数,HTML代码和HTML解析器
这部分的内容作为今后使用Beautiful Soup4的基础,需要同学熟练掌握这部分的内容。
版权声明:本文标题:beautifulsoup菜鸟教程 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dongtai/1709948724a240757.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论