当前位置: 首页 > news >正文

Python爬虫相关自用(BS4)02

.text 字符串

.content 二进阶(例如图片)

.json() 返回json对象

from bs4 import BeautifulSoup
response = requests.get(url=url,headers =headers).text
soup = BeautifulSoup(response,'lxml')

把爬下来的代码放到BeautifulSoup里面,用lxml解析

一、

soup .标签名称 可以返回第一个标签对应标签名称的内容 soup.a

二、

soup.find('标签名称') 返回第一个标签对应标签名称的内容 soup.find('div')

soup.find('标签名称',class_='class名称')返回对应class的div中的内容

soup.find_all('标签名称') 返回所有符合的标签 以list形式

soup.find_all('标签名称',class_='class名称') 返回所有对应class的div中的内容

三、

soup.select('某种选择器') 返回html选择器中对应的内容

soup.select('层级选择') 返回是一个列表

例: soup.select('.tang > ul > li >a') 这样就会返回class为tang里面按着每一层进去找到的a标签下的内容,返回是一个列表,所以返回后再从列表取值

> 标识一个层级 例如 ul > li >a 这样一层一层

空格标识多个层级 例如 ul a 这样无论ul和a中间有多少都会定位到ul下的a

四、

.text  能获取标签下所有text内容

.get_text() 能获取标签下所有text内容

.string 只能获取标签下直系的内容

以上三个都可以在定位后拿到对应的text数据

例 soup.a.text

五、

['属性名'] 定位到标签内的属性内容

例 soup.a['href'] 

相关文章:

  • Python爬虫相关自用(xpath)03
  • Python打包成exe文件(自用)
  • ImportError: cannot import name ‘SCHEME_KEYS‘ from ‘pip._internal.models.scheme‘
  • python图片识别
  • pycharm无法显示解释器解决办法
  • Flask jinja2.exceptions.TemplateNotFound: 解决办法
  • alexnet的程序代码实现及解释_基于LabVIEW 的机器视觉实现
  • 压力表指针不停的摆动_充液(耐震)压力表的应用与优势
  • postgresql是如何求年龄的_卖燕窝怎么利用软文引流?燕窝推广技巧,如何引流让更多顾客购买...
  • 430单片机实现三人投票表决器_创业金点子:三个基于单片机的小本创业项目
  • desc excel 公式_Excel / Power BI ——Power Pivot学习 笔记
  • 如何在scope图中标注_如何看懂系统图中的电能质量电气图?看这篇文章就对了!...
  • 苹果终端date命令_Mac终端常用命令
  • a4988 脉宽要求_A4988驱动模块使用详解(附:电流调节方法)
  • ffmpeg windows编译_音视频 | ffmpeg的安装
  • easy-rules规则引擎最佳落地实践
  • 看我如何连夜自建网站背刺我的求职对手们
  • 027.将有序数组转换为二叉搜索树
  • 第五届传智杯-初赛【B组-题解】
  • 最全面的SpringMVC教程(一)——SpringMVC简介
  • OpenCV-Python小应用(六):车道线检测
  • 微信小程序介绍
  • matlab实现MCMC的马尔可夫转换MS- ARMA - GARCH模型估计
  • 华为云桌面Workspace,让你的办公更加舒适惬意
  • 基于优先级的时间片轮转调度算法(C语言实现)