爬虫代码范例-抓取网页内容,并下载图片

RS 技术•随笔评论840字数 958阅读3分11秒阅读模式
import requests
from bs4 import BeautifulSoup
import os
def download_img(url,save_path):
    print(f'正在下载图片……{url}')
    response = requests.get(url)
    with open(save_path,'wb') as f:
        f.write(response.content)
    print('-'*30)
def main():
    url = 'https://www.ptt.cc/bbs/Beauty/M.1686997472.A.FDA.html'
    headers = {"Cookie": "over18=1"}
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    # print(soup.prettify())
    spans=soup.find_all('span', class_='article-meta-value')
    titles=spans[2].text
    dir_name=f'images/{titles}'
    os.makedirs(dir_name, exist_ok=True)
    #找出网页中所有的图片
    links=soup.find_all('a')
    allow_file_name=["jpg","jpeg","png","gif"]
    for link in links:
        href=link.get('href')
        if not href:
            continue
        file_name=href.split('/')[-1]
        extension=href.split('.')[-1].lower()
        if extension in allow_file_name:
            print(f"图片类型:{extension} ")
            print(f'url:{href}')
            download_img(href,f'{dir_name}/{file_name}  ')
        # print(extension)

        # print(href)

if __name__ == '__main__':
    main()

这个程序下载下来的图片是不能打开,其实还没有找到真正的图片地址,后期有时候再修改代码。

继续阅读
 
RS
  • 本文由 RS 发表于 2024年1月18日 20:08:55
助你整理杂乱无章的文件 技术•随笔

助你整理杂乱无章的文件

今天的小程序,可以一键完成文件整理,一起来看看吧! 按照文件格式整理 具体来说就是不同的文件后缀名称放置到不同的文件夹当中 今天我们只需要使用 os 和 shutil 两个库就足够了。os 是 Pyt...
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定