六、深入学习映射配置文件

GEE(Google Earth Engine)如何获取影像像素均值和栅格计算?

  返回  

爬取网页和UA伪装

2021/7/20 16:38:47 浏览:

导入requests模块后进行操作

import requests
#1
"""
先确定需要爬取网页的url
如百度的为https://www.baidu.com/
定义一个变量来存储url
"""

url = 'https://www.baidu.com/'


#2
"""
构造一个向服务器请求资源的url对象
"""
respon = requests.get(url=url)

#3
"""
得到该请求的数据
"""
response_text = respon

#4
"""
生成html文件
主要为文件操作的内容
"""
with open('Baidu.html', 'w', endcoding = 'utf-8') as fp:
	fp.write(response_text)
print("over")

一个更智能一点的
UA伪装:以浏览器的身份得到信任

import requests
if __name == "main":
	#UA伪装
	headr = {
		'User-Agen' :'xxx'#通过在浏览器中F12抓包查询
	}
	url = 'https://www.sogou.com/web'
	keyword = input('pls putin the keyword')#需要搜索的关键字
	param={
		'query':keyword
	}
	response = requests.get(url=url, params=param, headers = header)
	#分别为url,param(参数)即要输入的关键字,关键字通过字典来保存,headers为UA伪装的参数
	response_text = response.text
	result = keyword+'.html'
	with open(result, 'w', endcoding = 'utf-8') as fp:
		fp.write(response_text)
	#result将要生成html文件的文件名

联系我们

如果您对我们的服务有兴趣,请及时和我们联系!

服务热线:18288888888
座机:18288888888
传真:
邮箱:888888@qq.com
地址:郑州市文化路红专路93号