前言
自从接触到drissionpage这个自动化模块之后,lxml里面的xpath语法太久没有写过了,为了防止遗忘,在博客丢一个实例的py代码,方便以后自己回忆
import requests from lxml import etree # 使用lxml的基础爬取方法 url = "https://www.baidu.com" # 添加 User-Agent 模拟浏览器访问 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36" } res = requests.get(url, headers=headers) # 解析 HTML tree = etree.HTML(res.text) # 提取<title> title = tree.xpath("//title/text()") print(title)