• Stars
    star
    127
  • Rank 282,790 (Top 6 %)
  • Language
    HTML
  • Created about 8 years ago
  • Updated almost 8 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

爬虫练习:新浪微博用户数据爬取、模拟知乎登陆

Introduction

子项目

Mini小爬虫

  • conf.ini:用于配置proxies、headers等参数,其中Sina API的参数需设置成自己的;
  • dataEncode.py:用于模拟登录sina时提交的POST数据;
  • Logger.py:用于输出日志文件;
  • main.py:运行项目的入口文件;
  • myconf.py:加载配置文件;
  • SinaSpider.py:spider核心内容,主要是SinaClient类,内部方法说明如下
    • switchUserAccount(self, userlist):用于切换用户账号,防止长时间爬取账号被禁
    • login(self, username, password):根据用户名和密码登录sina微博
    • getUserInfos(self, uid):根据用户ID获取用户个人信息
    • getUserFollows(self, uid, params):根据用户ID 获取用户关注的用户ID列表
    • getUserFans(self, uid, params):根据用户ID 获取粉丝ID列表
    • getUserTweets(self, uid, tweets_all, params):根据用户ID 获取微博,tweets_all是一个list变量
  • output:输出目录

模拟登录知乎

文件介绍

  • ZhiHuPro/zhiHuLogin.py
  • ZhiHuPro/WSpider.py:封装的WSpider类,包括日志输出函数
  • ZhiHuPro/out:存放输出的网页
  • ZhiHuPro/temp:存放验证码

模拟登录新浪

文件介绍

  • SinaLogin/dataEncode.py:用于对提交POST请求的数据进行编码处理
  • SinaLogin/Logger.py:用于打印log
  • SinaLogin/SinaSpider.py:用于爬取sina微博数据的文件(主文件)
  • SinaLogin/out:用于存储输出文件

Contributor

@author: Diwei Liu


此项目将在后续持续更新,敬请关注,喜欢就给个Star吧。