interesting-python: 有趣的Python爬虫和数据分析小项目
简介
可以用Python实现的有趣的小项目,内容包括Python爬虫、Python数据分析、机器学习、深度学习等,持续更新中。
本Repository主要用于存放项目代码,对应的项目文章可以关注公众号。
作者:Alfred
微信公众号:Alfred数据室(原名为Alfred在纽西兰)
合作请加微信号:AlfredLabAssistant
Alfred数据室课程
应诸位读者朋友的要求,Alfred数据室将陆续推出 《实战玩转数据科学》 系列课程,课程分为数据获取、数据分析、大数据分析三个部分,从如何获取数据、怎么分析数据、通过什么方法分析海量数据三方面带大家玩转数据分析。
数据获取部分子课程 《实战玩转Python爬虫》 现已正式上线。课程以目标为导向,从项目出发,十大案例掌握数据获取,让Python爬虫学习思路更清晰,路径更明确。详情可点击:实战玩转Python爬虫
可以扫描以下二维码进行课程咨询哦:
项目介绍
- LiveStreaming:
- 内容: 爬取了西瓜直播(今日头条旗下APP)各类型游戏的主播直播数据107.5万条,并分析直播平台和游戏主播行业是否真如我们想象般的暴利
- 对应微信公众号文章:《游戏直播行业真的如你想象般暴利?》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★★★☆
- LaborDay:
- 内容: 按全国各个城市抓取飞猪“景点门票”栏的景点门票销售数据,并且分析五一哪些景点会人挤人,哪些景点值得一去
- 对应微信公众号文章:《五一不看人人人人人人,哪儿耍合适?》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
- KrisWu:
- 内容: 随机抓取吴亦凡发表《大碗宽面》微博的微博转发数据10万条,并分析该条微博的真假转发比例,以及大家对于这首歌的情感倾向如何
- 对应微信公众号文章:《大碗宽面 VS 律师函警告,情感分析吴亦凡自黑式圈粉!》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★★☆☆
- ESL:
- 内容: 爬取外籍人员招聘网站JobLEADChina上的外籍英语老师招聘数据945条,万行教师人才网上的英语老师招聘数据5780条,以及微信群成员信息498条,分析外教教师的招聘状况
- 对应微信公众号文章:《没经验没学历的外教为啥能拿1.4W+的高薪?》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★☆☆☆☆
- ICU996:
- 内容: 爬取程序员集体抵制996的Github热门项目996.ICU中,Issues页面讨论数据和点了star的程序员Github个人信息数据,并且分析这群抵制996的程序员都是何方神圣
- 对应微信公众号文章:《大胆,都是哪些程序员在反对996?!》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
- Paediatrician:
- 内容: 爬取丁香人才网10950条涵盖儿科、内科、外科、妇产科、眼科的招聘数据,并且分析儿科医生的生存处境
- 对应微信公众号文章:《儿科医生的眼泪,全被数据看见了》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★★☆☆
- CaiXuKun:
- 内容: 随机抓取蔡徐坤100万+转发的微博《再见,“任性的”千千…》的10万条转发数据,并且分析蔡徐坤真假转发流量的比例以及真假粉丝的用户画像
- 对应微信公众号文章:《用大数据扒一扒蔡徐坤的真假流量粉》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★★☆☆
- BSGS_Rent:
- 内容: 爬取北上广深四个城市的链家租房房源信息,并且分析四个城市的租房现状和考虑因素
- 对应微信公众号文章:《北上广深租房图鉴》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★★☆☆
- Fireworks_and_Pm2.5:
- 内容: 爬取全国367个城市的空气质量指数数据,并分析烟花爆竹对空气质量的影响,以及城市禁放烟花爆竹是否有效
- 对应微信公众号文章:《六万条数据全面解析,城市春节禁放烟花爆竹真的有用吗?》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★★☆☆
- TheWanderingEarth:
- 内容: 爬取电影《流浪地球》的猫眼评论和评分,并分析该电影出现低分的原因
- 对应微信公众号文章:《十万条评论告诉你,给《流浪地球》评1星的都是什么心态?》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★★☆☆
- Weibo_Comment_Pics:
- 内容: 模拟登陆微博手机端爬取海量表情包
- 对应微信公众号文章:《开年表情包局部富有指南,盘它!》
- 适合人群:Python爬虫学习者
- 难度:★★★☆☆
- English_names:
- 内容: 分析美国婴儿取名数据,为取英文名提供一些建议
- 对应微信公众号文章:《看完这篇分析,楼下的Tony和Kevin都改名了!》
- 适合人群:Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★★☆☆
- shixiseng_packet_capture
- 内容:主要通过手机抓包分析和获取“实习僧”网站iso端的数据接口,有了接口便可以直接编写代码爬取数据
- 对应微信公众号文章:《回复“实习僧”CTO之换种姿势爬取实习僧网站》
- 适合人群:Python爬虫学习者、手机抓包学习者
- 难度:★☆☆☆☆
- PUBG-juediqiusheng-data_analysis
- 内容:主要分析绝地求生72万场比赛的数据,并结合数据给出吃鸡攻略,用数据吃鸡!
- 对应微信公众号文章:《【20G】Kaggle数据集强势分析“绝地求生”,攻略吃鸡!》
- 适合人群:Python数据分析学习者、Pandas使用者、各位吃鸡观众
- 难度:★★★☆☆
- Wechat_article_collector:
- 内容:微信公众号文章采集器,用于采集微信公众号文章并保存至word文档
- 对应微信公众号文章:《50行代码教你打造一个公众号文章采集器》
- 适合人群:Python学习者、新媒体运营人群?
- 难度:★★☆☆☆
- 注:该项目由于依赖包WechatSogou疏于维护,目前暂时不能使用了。(2019-04-02 updated)
- mongoTV:
- 内容:爬取芒果TV的《我是大侦探》节目评论数据,并进行情感分析
- 对应微信公众号文章:《《我是大侦探》到底怎么了?(上:数据爬取篇)》》、《《我是大侦探》到底怎么了?(下:情感分析篇)》
- 适合人群:Python scrapy爬虫学习者、Python数据分析学习者、Pandas使用者
- 难度:★★★☆☆
- shixiseng:
- 内容:爬取实习僧网站中“数据挖掘”等相关岗位的数据,并对数据进行分析
- 对应微信公众号文章:《帮了个小忙|破解“实习僧”网站字体加密》、《“小忙”连载篇|实习僧网站数据分析》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者
- 难度:★★★☆☆
支持作者
熬夜敲代码写稿件,咖啡才是第一生产力。
喜欢作者的分享,如何支持作者?
Maybe you could buy me a cup of coffee. Salute!