• Stars
    star
    117
  • Rank 292,414 (Top 6 %)
  • Language
  • Created almost 4 years ago
  • Updated over 2 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

国内三大电商网站,某东、某里、某美电商网站全站商品以及评论数据抓取,共计9000W余条数据。

------2022.01.23更新--------

鉴于自己的代码被人拿去获利,这违背了我的分享初衷,现全部清空个人以前分享的抓取代码

京东、苏宁、国美全站数据抓取

主要的数据包括商品价格、名称、类别、描述,以及评论文本、评论时间、点赞数、评论人等信息。

最终抓取1000W的商品URL,其中抓了大概8000W的商品数据和评论数据,后期数据量够了就没再做下去了。

知乎上有详细一点的介绍,如有需要请移步:https://zhuanlan.zhihu.com/p/146265932

1、数据去重问题

全部的数据前期是采用布隆过滤器进行去重的,但后来发现并不需要这么麻烦,后用了一个小技巧进行去重。

因为每种商品是有一个大类的,比如手机里的苹果和水果里的苹果是不一样的,所以这两个苹果虽然一样,但是商品ID属于不一样的类别中的。借助这个小技巧进行URL的去重,自然这两个商品的信息价格包括评论都是不一样的了。同样的思想也被用在评论中,用这个小技巧做到了数据去重问题。

2、网站介绍

京东

整体采用 IP代理池 + Seleium + MongoDB 做的,其中京东的商品价格做了二次隐藏,所以价格API接口需要自己用F12去查找,具体可以看一下JD的价格模块。

前期JD是没有反扒措施的,所以也比较友好,但是大概19年12月末就加上IP限制了,过快过多请求会直接封IP,没办法,后期只能上IP池了。

苏宁、国美

这两个网站都相对友好一点,反扒没有那么严重,直接采用 Request + MySQL + MongoDB做的, 会用两个数据库是因为实验室总是断电,我又没有想到好的断电再续方式,只好先把全站商品URL保存下来,存到MySQL中去,然后再从MySQL中拿URL挨个抓取的。

只好用这种傻瓜式的方法了,哈哈~

后面的时候,还借助JD的一个部分手机数据,使用Neo4J图形数据库做了一个可视化的小型手机知识图谱

More Repositories

1

CS-Books

🔥🔥超过1000本的计算机经典书籍、个人笔记资料以及本人在各平台发表文章中所涉及的资源等。书籍资源包括C/C++、Java、Python、Go语言、数据结构与算法、操作系统、后端架构、计算机系统知识、数据库、计算机网络、设计模式、前端、汇编以及校招社招各种面经~
18,378
star
2

InterviewGuide

🔥🔥「InterviewGuide」是阿秀从校园->职场多年计算机自学过程的记录以及学弟学妹们计算机校招&秋招经验总结文章的汇总,包括但不限于C/C++ 、Golang、JavaScript、Vue、操作系统、数据结构、计算机网络、MySQL、Redis等学习总结,坚持学习,持续成长!
4,938
star
3

CampusShame

互联网仍有记忆!那些曾经在校招过程中毁过口头offer、意向书、三方的公司!纵然人微言轻,也想尽绵薄之力!
2,743
star
4

MyPoorWebServer

一款可运行的基于C++ 实现的WebServer服务器,基于《TCPIP网络编程》和《Linux高性能服务器编程》实现的服务器项目。
C
1,100
star
5

Awsome-Courses

😏国内外计算机的优秀课程,包含MIT、CMU等世界CS名校,🔥🔥其中包含计算机基础学科(操作系统、计算机网络、编译器、数据库、数据结构与算法等)以及人工智能&AI等高级科目,欢迎通过PR形式贡献!
893
star
6

developer-roadmap-zh-CN

💻 🇨🇳Roadmap to becoming a Internet software developer,校招技术岗学习路线图与资源推荐,成为一名研发工程师求职所需要的最少技能中文版,包括Java、C++、Golang、前端、Python等学习大纲、路线以及资源推荐。
541
star
7

CSLearning

开源项目之「计算机编程自学之路」:计算机自学指南+面试大全+资源分享+技术文章
322
star
8

LeetCodeInAction

2021年计算机校招求职力扣 + 剑指offer刷题记录~自始至终,始终坚持面向offer刷题~
101
star
9

programmer-resume

程序员简历,看完1000多份简历后,终于明白一份合格的计算机专业程序员简历应该是怎样的了,不需要花里胡哨,简简单单大大方方就足够了,可以star + folk后修改为自己的。
70
star
10

JD_Cellphone_KnowledgeGraph

京东小型知识图谱,包括具体手机的分类信息和商品的具体信息,以及手机评论和评论人的详细信息。
Python
49
star
11

forthespada

38
star
12

Awsome

😎「计算机淘金手册-中文版」立志收录各种酷炫、高大上、对小白友好的开源项目,包括但不限于Java、C++、Python、Golang、JavaScript、人工智能、机器学习、人工智能等相关项目。
13
star
13

forthespada.github.io

JavaScript
11
star
14

csbooks

超过1000本的计算机经典书籍、个人笔记资料以及本人在各平台发表文章中所涉及的资源等。书籍资源包括C/C++、Java、Python、Go语言、数据结构与算法、操作系统、后端架构、计算机系统知识、数据库、计算机网络、设计模式、前端、汇编以及校招社招各种面经~
4
star
15

AwesomeGithub

🔥🔥🔥收集 GitHub 上高质量、有趣、沙雕的开源项目(⊙_⊙)
4
star
16

InterviewCollection

计算机校招面经汇总,收集平台『牛客网、实习僧』等
3
star
17

mediaImage3

2
star
18

LearningNote

1
star
19

mediaImage1

1
star
20

vue_shop

JavaScript
1
star
21

mediaImage2

1
star
22

golang-wheel

自己在工作过程中造的Golang轮子,包括各种数据结构、Date、Time等处理函数。
Go
1
star
23

Interview

1
star