最近迷上了爬虫技术
python 爬虫,目前我还在进一步学习阶段,有志同道合的兄弟们,可以一起探讨。
import requests
import os
from lxml import etree
if __name__ == "__main__":
parse = etree.HTMLParser(encoding="utf-8")
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
'(HTML, like Gecko) Chrome/98.0.4758.81 Safari/537.36'
}
url = "https://域名/index_4.html"
page_text = requests.get(url=url, headers=headers)
# 通用处理中文乱码的解决方案
# img_name = img_name.encode('iso-8859-1').decode('gbk')
page_text.encoding = page_text.apparent_encoding
page_text = page_text.text
tree = etree.HTML(page_text, parser=parse)
li_list = tree.xpath('//ul[@ class = "clearfix"]/li')
if not os.path.exists('文件夹'):
os.mkdir('文件夹')
for li in li_list:
img_name = li.xpath('./a/img/@alt')[0] '.jpg'
img_src = "https://域名/" li.xpath('./a/img/@src')[0]
img_data = requests.get(url=img_src, headers=headers).content
with open('文件夹/' img_name, 'wb') as fp:
fp.write(img_data)
print(img_name)
测试结果:
一加6100mAh冰川电池发布:一加Ace3Pro首发搭载
今日下午,一加公司正式发布了冰川电池。这款电池不仅容量高达6100mAh,更凭借其三大自研创新技术,成功实现了行业领先的能量密度和充电效率。一加冰川电池的核心技术包括高容量仿生硅碳材料、仿生蜂巢结构设计以及硅碳负极寿命算法。这些技术的融合使得一加冰川电池在能量密度上达到了惊人的763Wh/L,同时含硅量高达6%,显著提升了电池的性能。站长网2024-06-21 21:30:420000谷歌DeepMind开始研发类似Auto-GPT的自主AI代理
文章概要:1.谷歌DeepMind计划研究自主语言代理,潜在地提升了类似Gemini的大型语言模型的应用。2.自主语言代理的基本思想是通过即时工程、自我提示和内存等技术,使代理系统能够自主实现给定的目标。3.自主AI代理引发了对齐研究人员的担忧,他们强调在开发这类代理之前需要进行更多的安全性研究。站长网2023-09-07 11:40:280000独立开发变现周刊(第146期):一个月收入8千美金的网红分析工具
1、Telegraph-Image:开源免费图片托管解决方案这是一个开源项目,免费图片托管解决方案,Flickr/imgur替代品。使用CloudflarePages和Telegraph。你唯一需要提前准备的就是一个Cloudflare账户。特性:1.无限图片储存数量,你可以上传不限数量的图片站长网2024-08-23 09:14:220000iQOO 11S 今日开售:骁龙 8 Gen 2 处理器 售价3799元起
iQOO11S将于今天上午10点开启首销,售价3799元起。具体为:12GB256GB3799元、16GB256GB4099元、16GB512GB4399元、16GB1TB4799元。站长网2023-07-10 15:59:480000AI编码无需人类插手!Claude工程师摔断右手,竟一周狂肝3000行代码
【新智元导读】一次意外右手骨折,Claude工程师的工作竟被AI挽救了。近两个月的时间,他们一起结对编程,甚至在一周内肝出3000行代码。他疯狂暗示,未来1-3年,就是「AI工程师」的天下。原来,摔断胳膊也是一件幸事......当事人表示,「我再也不想回到过去了」。这是为何?事情是这样的,几个月前,Claude工程师ErikSchluntz骑车上班的路上,意外摔断右手,打上了石膏。站长网2024-08-07 14:06:500000