最新公告
  • 欢迎您光临笨羊博客,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 【倾情推荐】无圣光写真自行爬虫合集完成!13.5G并附上爬虫代码 暂无演示
    【倾情推荐】无圣光写真自行爬虫合集完成!13.5G并附上爬虫代码手机扫码预览

    【倾情推荐】无圣光写真自行爬虫合集完成!13.5G并附上爬虫代码

    售价:
    ¥19 积分
    • 普通用户购买价格 : 19积分
    • 钻石会员购买价格 :15.2积分
    QQ咨询
    • 免费咨询
    • 免费安装指导
    • 付费远程安装
    • 免费寻找资源
    • QQ保障售后服务
    • 安装问题应急服务

    升级尊贵会员
    享受全站VIP待遇

    1573+
    会员已经加入
  • 文章介绍
  • 评价建议
  • 该无圣光站点的整体质量较高,我在后期自行搭建的图片浏览的服务端上看到挺多意想不到的自拍,有需要的福娃尽快下载,以防链接失效!





    # -*- coding: UTF-8 -*-
    import os
    import random
    import re
    import threading
    import time
    
    import requests
    from bs4 import BeautifulSoup
    
    urlMain = "http://www.nvshenba520.com/"
    url = "http://www.nvshenba520.com/page/"
    sum = 505
    pathd = os.getcwd()
    listTitleUrl = []
    urltest = 'http://www.nvshenba520.com/luyilu/2020/0511/5344/ '
    
    
    headers = {
            'Host': 'www.nvshenba520.com',
            'Proxy-Connection': 'keep-alive',
            'Cache-Control': 'max-age=0',
            'Upgrade-Insecure-Requests': '1',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
            'Referer': 'http://www.nvshenba520.com/',
            'Accept-Encoding': 'gzip, deflate',
            'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
            'Cookie': 'SL_GWPT_Show_Hide_tmp=1; SL_wptGlobTipTmp=1; the_cookie=Tue%20May%2012%202020%2017%3A26%3A22%20GMT%2B0800%20(%E4%B8%AD%E5%9B%BD%E6%A0%87%E5%87%86%E6%97%B6%E9%97%B4)'
    }
    
    
    def getUrl_Title(urlMain1):
        rus = requests.get(url=urlMain1,headers=headers)
        soup = BeautifulSoup(rus.text, 'lxml')
        sumSoup = soup.select('article ')
        for i in sumSoup:
            href_txt = i.select('h2 > a')[0]
            # 获取 连接 与标题
            oneDict = {'href': href_txt['href'], 'title': str(href_txt.get_text()).replace('\r\n', '')}
            listTitleUrl.append(oneDict)
            print(oneDict)
    
    def mkdir(Title):
        title = Title+random.choice('abcdefghyjkh')+random.choice('1234567890')
        os.mkdir(pathd+'\\'+title)
        return pathd+'\\'+title
    
    
    
    def getImage(listTitle):
        for x in listTitle:
            urlPage = x['href']
            title = x['title']
            print(urlPage + "   " + title)
            mkdir1 = mkdir(title)
            try:
                rus = requests.get(url=urlPage,headers=headers)
                soup = BeautifulSoup(rus.text, 'lxml')
                nexts = soup.select('body > section > div.content-wrap > div > article > div > ul ')
                #先获取图片 在判断是否有 "下一页"  body > section > div.content-wrap > div > article > div > ul > li.next-page > a
    
                url1 = urlPage
            except:
                time.sleep(20)
    
            while True:
                try:
                    rus = requests.get(url=url1, headers=headers)
                    soup = BeautifulSoup(rus.text, 'lxml')
                    nexts = soup.select('body > section > div.content-wrap > div > article')
                    pattern = re.compile('src="(.*?)"', re.S)
                    items = re.findall(pattern, str(nexts))
                except:
                    time.sleep(20)
                for i in items:
                    try:
                        ir = requests.get(i, headers=headers)
                        open(mkdir1 + '\\' + str(i).split('/')[-1], 'wb').write(ir.content)
                    except:
                        time.sleep(10)
                nexts = soup.select(
                    'body > section > div.content-wrap > div > article > div > ul > li.next-page > a ')
                if len(nexts) != 0:
                    url1 = nexts[0]['href']
                    print(url1)
                else:
                    print('到底了')
                    break
    
    
    class MyThread(threading.Thread):
        def __init__(self,arg):
            # 显式的调用父类的初始化函数。
            super(MyThread, self).__init__()
            self.arg=arg
    
    
        # 定义每个线程要运行的函数
        def run(self):
            time.sleep(1)
            getImage(self.arg)
    
    
    if __name__ == '__main__':
        file = open('listTitleUrl.txt')
        fileStr = file.read()
        listTileth = eval(fileStr)
        #getImage(listTileth)
        print(len(listTileth))
        x = 100
        c = []
        for i in range(0,len(listTileth),x):
            if(i == 0):
                print(str(i)+ " "+ str(i+x))
                t = MyThread(listTileth[i:i+x])
                c.append(t)
            else:
                if(i == 3600):
                    print(str(i + 1) + " " + str(len(listTileth)))
                    t = MyThread(listTileth[i + 1:i + len(listTileth)])
                    c.append(t)
                    break
                print(str(i+1)+ " "+ str(i+x))
                t = MyThread(listTileth[i + 1: i+x])
                c.append(t)
        for i in c:
            i.start()
        for i in c:
            i.join()
    张昊翔博客原创文章,作者:,如若转载,请注明出处:
    1、本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
    2、分享目的仅供大家学习和交流,请不要用于商业用途!
    3、本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
    4、如有链接无法下载、失效或广告,请联系管理员处理!
    5、本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!

    笨羊博客(张昊翔博客) » 【倾情推荐】无圣光写真自行爬虫合集完成!13.5G并附上爬虫代码

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    站壳网
    一个高级程序员模板开发平台

    发表评论