• Stars
    star
    1,148
  • Rank 40,634 (Top 0.9 %)
  • Language
    Jupyter Notebook
  • Created over 4 years ago
  • Updated 6 months ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

动手学数据分析以项目为主线,知识点孕育其中,通过边学、边做、边引导来得到更好的学习效果

Hands-on data analysis

动手学数据分析

项目初衷

动手学数据分析是Datawhale关于数据分析方向的开源项目,这个项目始于Datawhale以前的数据分析课程,那时我作为一名学员的以《python for data analysis》这本书为教材教材,通过刷这本教材的代码来学习数据分析,书里对于pandas和numpy操作讲的很细,但是对于数据分析的逻辑的内容,就少了很多。所以很多学习者和我学完之后发现,敲了一堆代码并不知道它们有什么用。“不知道怎么用”这个想法其实很好理解,在学完了比较理论的东西之后,在生活中实际运用方式和从理论中学到的会有不小的鸿沟。如何抹平这个鸿沟,可能就需要自己的尝试以及学习实战的资料。

所以有没有这样一门课,以项目为主线,将知识点孕育其中,通过边学,边做以及边被引导的方式来使学习效果达到更好,学完之后既能掌握pandas等的知识点又能掌握数据分析的大致思路和流程。通过调查发现,市面上关于数据分析的项目好像没有可以完全符合这样标准的(失望.jpg)。所以Datawhale的小伙伴一拍即合,一起来做一门这样的开源课程,完成上面所说的那些小目标,让所有使用了我们课程的小伙伴可以更好的开启他的数据分析之路。

现在这门课程已经更新到了1.3版本,我们改善了更好的学习流程,以及提供了更好的答案讲解。后期将会逐步推出配套的教材。我们还是希望从基础的数据分析操作和数据分析流程讲起,在每个模块都引入实战的例子。之后会不断加入新的内容(比如数据挖掘的算法之类的)。这是开源项目,我们会不断迭代,大家共同参与,一起努力。

关于我们项目的名字——动手学数据分析(Hands-on data analysis)。数据分析是一个要从一堆数字中看到真相的过程。学会操作数据只是数据分析的一半功力,剩下的另一半要用我们的大脑,多多思考,多多总结,更要多动手,实打实的的敲代码。所以也希望在学习这门课时,多去推理,多去问问为什么;多多练习,确保理论实践结合起来,在课程结束的时候一定会有大收获。

搭配资料

既然这是一门诞生于Datawhale的课程,学习它的时候搭配datawhale所配备其他资源会更好。我们提供的代码是jupyter形式的,里面有你所要完成的任务,也有我们给你的提示和引导,所以这样的形式再结合Datawhale的组队学习,可以和大家一起讨论,一起补充资料,那么学习效果一定会加倍。还有,Datawhale之前开源了一门pandas的教程—Joyful-Pandas。里面梳理了Pandas的逻辑以及代码展示,所以在我们数据分析的课程中,关于Pandas的操作,你可以参考Joyful-Pandas,可以让你的数据分析学习事半功倍。

项目编排与服用方法

编排

课程现分为三个单元,大致可以分为:数据基础操作,数据清洗与重构,建模和评估。

  1. 第一部分:我们获得一个要分析的数据,我要学会如何加载数据,查看数据,然后学习Pandas的一些基础操作,最后开始尝试探索性的数据分析。
  2. 第二部分:当我们可以比较熟练的操作数据并认识这个数据之后,我们需要开始数据清洗以及重构,将原始数据变为一个可用好用的数据,为之后放入模型做准备
  3. 第三单元:我们根据任务需求不同,要考虑建立什么模型,我们使用流行的sklearn库,建立模型。对于一个模型的好坏,我们是需要评估的,之后我们会评估我们的模型,对模型做优化。
章节 小结
第一章 数据载入及初步观察
pandas基础
探索性数据分析
第二章 数据清洗及特征处理
数据重构1
数据重构2
数据可视化
第三章 数据建模
模型评估

服用方法

我们的代码都是jupyter形式,每个部分的课程都分为课程答案两个部分。学习期间,在课程代码中,完成所有的学习,自己查找资料,自己完成里面的代码操作,思考部分以及心得。之后可以和小伙伴讨论,分享资料和心得。关于答案部分,大家可以参考,但是由于数据分析本身是开放的,所以答案也是开放式的,更多希望大家可以有自己理解和答案。 如果需要参考,我们在答案 部分提供了我们写的答案,大家可以参考。

(课程部分-需要自己根据要求敲代码)

(参考答案部分-如果有问题可以参考我们提供的答案)

反馈

之前版本学习者反馈

作为一个没基础的小白学习者,这期动手学数据分析我学得很舒服,教程也比较简单和清楚,整体学下来感觉是很流畅的。每个task我都会把教程看两遍。第一遍只看教程,按着教程思路顺下来,看完以后再啃利用Python进行数据分析这本书,边看边做笔记(顺便把csdn写了)作业的拓展性这里必须给我加分,然后第二遍看教程就是完全不看答案把作业和思考做完。基本上学完还是很有成就感的,而且真的有学到很多东西。这个课程作为一个数据分析的入门课程,真的巨赞!

--------华北电力大学,吴丹飞

首先这个学习文档做得很好,很有引导性,也是我看下来项目中比较好的一种学习方式——主动学习,不懂就搜索、问。 作为有Python数据分析基础的学员很有复习、提高、巩固的功能。项目相对来说没有那么的贴切生活.建模那一块我之前有接触过,但是我搞不懂就没什么可建议的了.

-------- 李晴晴ß

帮助还不小,因为后面做项目感觉还在不断用这些技巧,非常有用。我觉得可以加点数据分析的分析思路过程。

--------V1.0 版组队学习参与者

优秀学员刘楚楚优秀作业https://space.bilibili.com/621981283/channel/detail?cid=191222

(欢迎大家观看这个视频讲解的优秀作业)

改进方式

若动手学数据分析里没有你想要的内容,或者你发现项目中哪里有错误,请毫不犹豫地去我们GitHub的Issues进行反馈,说明提问内容属于哪一个部分,然后提交你希望补充内容或者勘误信息,我们通常会在24小时以内给您回复,超过24小时未回复的话可以邮件联系我([email protected]);

贡献者

项目负责人

陈安东:Datawhale成员,中央民族大学|Queen Marry University of London(项目负责人)

核心贡献者

金娟娟:Datawhale成员,浙江大学硕士

杨佳达:Datawhale成员,数据挖掘工程师

老表:Datawhale成员,公众号简说Python作者

贡献者

红星:Datawhale成员,数据分析师

李玲:Datawhale成员,算法工程师

高立业:Datawhale成员,太原理工大学研究生

张文涛:Datawhale成员,中山大学博士研究生

关注我们

扫描下方二维码,然后回复关键词“动手学数据分析”,即可加入“项目交流群”

Datawhale是一个专注AI领域的开源组织,以“for the learner,和学习者一起成长”为愿景,构建对学习者最有价值的开源学习社区。关注我们,一起学习成长。

LICENSE

知识共享许可协议

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

More Repositories

1

pumpkin-book

《机器学习》(西瓜书)公式详解
23,825
star
2

leedl-tutorial

《李宏毅深度学习教程》(李宏毅老师推荐👍,苹果书🍎),PDF下载地址:https://github.com/datawhalechina/leedl-tutorial/releases
Jupyter Notebook
13,188
star
3

llm-cookbook

面向开发者的 LLM 入门教程,吴恩达大模型系列课程中文版
Jupyter Notebook
11,475
star
4

easy-rl

强化学习中文教程(蘑菇书🍄),在线阅读地址:https://datawhalechina.github.io/easy-rl/
Jupyter Notebook
9,150
star
5

self-llm

《开源大模型食用指南》基于Linux环境快速部署开源大模型,更适合中国宝宝的部署教程
Jupyter Notebook
8,097
star
6

joyful-pandas

pandas中文教程
Jupyter Notebook
4,603
star
7

llm-universe

本项目是一个面向小白开发者的大模型应用开发教程,在线阅读地址:https://datawhalechina.github.io/llm-universe/
Jupyter Notebook
4,420
star
8

competition-baseline

数据挖掘、计算机视觉、自然语言处理、推荐系统竞赛知识、代码、思路
Jupyter Notebook
4,251
star
9

fun-rec

推荐系统入门教程,在线阅读地址:https://datawhalechina.github.io/fun-rec/
Jupyter Notebook
4,197
star
10

hugging-llm

HuggingLLM, Hugging Future.
Jupyter Notebook
2,732
star
11

so-large-lm

大模型基础: 一文了解大模型基础知识
2,612
star
12

daily-interview

Datawhale成员整理的面经,内容包括机器学习,CV,NLP,推荐,开发等,欢迎大家star
HTML
2,524
star
13

thorough-pytorch

PyTorch入门教程,在线阅读地址:https://datawhalechina.github.io/thorough-pytorch/
Jupyter Notebook
2,426
star
14

learn-nlp-with-transformers

we want to create a repo to illustrate usage of transformers in chinese
Shell
2,245
star
15

team-learning

主要展示Datawhale的组队学习计划。
2,208
star
16

statistical-learning-method-solutions-manual

统计学习方法习题解答,在线阅读地址:https://datawhalechina.github.io/statistical-learning-method-solutions-manual
Jupyter Notebook
1,709
star
17

team-learning-data-mining

主要存储Datawhale组队学习中“数据挖掘/机器学习”方向的资料。
Jupyter Notebook
1,599
star
18

key-book

《机器学习理论导引》(宝箱书)的证明、案例、概念补充与参考文献讲解。
1,522
star
19

hugging-multi-agent

A tutorial based on MetaGPT to quickly help you understand the concept of agent and muti-agent and get started with coding development. 基于MetaGPT的多智能体入门与开发教程
CSS
1,333
star
20

llms-from-scratch-cn

仅需Python基础,从0构建大语言模型;从0逐步构建GLM4\Llama3\RWKV6, 深入理解大模型原理
Jupyter Notebook
1,149
star
21

tiny-universe

《大模型白盒子构建指南》:一个全手搓的Tiny-Universe
Python
1,113
star
22

team-learning-nlp

主要存储Datawhale组队学习中“自然语言处理”方向的资料。
Jupyter Notebook
865
star
23

dive-into-cv-pytorch

动手学CV-Pytorch版
Python
837
star
24

team-learning-program

主要存储Datawhale组队学习中“编程、数据结构与算法”方向的资料。
Jupyter Notebook
825
star
25

wonderful-sql

Follow me,从 0 到 1 掌握 SQL。
736
star
26

leetcode-notes

🐳 LeetCode 算法笔记:面试、刷题、学算法。在线阅读地址:https://datawhalechina.github.io/leetcode-notes/
682
star
27

machine-learning-toy-code

《机器学习》(西瓜书)代码实战
Jupyter Notebook
648
star
28

whale-quant

本项目为量化开源课程,可以帮助人们快速掌握量化金融知识以及使用Python进行量化开发的能力。
Jupyter Notebook
515
star
29

intro-mathmodel

《数学建模导论》教程,全网最全数学建模模型与算法教程系列,带你走进数学建模的大门!
460
star
30

fantastic-matplotlib

Matplotlib中文教程,在线阅读地址:https://datawhalechina.github.io/fantastic-matplotlib/
Python
456
star
31

torch-rechub

A Lighting Pytorch Framework for Recommendation Models, Easy-to-use and Easy-to-extend.
Python
400
star
32

powerful-numpy

巨硬的NumPy
Jupyter Notebook
363
star
33

d2l-ai-solutions-manual

《动手学深度学习》习题解答,在线阅读地址如下:
Jupyter Notebook
337
star
34

learn-python-the-smart-way

聪明方法学Python,简明且系统的 Python 入门教程。
Jupyter Notebook
330
star
35

vced

VCED 可以通过你的文字描述来自动识别视频中相符合的片段进行视频剪辑。该项目基于跨模态搜索与向量检索技术搭建,通过前后端分离的模式,帮助你快速的接触新一代搜索技术。
Python
327
star
36

team-learning-cv

主要存储Datawhale组队学习中“计算机视觉”方向的资料。
Jupyter Notebook
315
star
37

juicy-bigdata

🎉🎉🐳 Datawhale大数据处理导论教程 | 大数据技术方向的开篇课程🎉🎉
Python
265
star
38

office-automation

python自动化办公
Jupyter Notebook
245
star
39

learn-python-the-smart-way-v2

聪明办法学Python,简明且系统的 Python 入门教程第二版。
Jupyter Notebook
216
star
40

DOPMC

Datawhale 开源项目管理委员会(Datawhale Open-source Project Management Committee,简称DOPMC)
199
star
41

grape-book

图深度学习(葡萄书),在线阅读地址: https://datawhalechina.github.io/grape-book
HTML
186
star
42

team-learning-sql

主要存储Datawhale组队学习中“SQL”方向的资料。
178
star
43

joyrl

An easier PyTorch deep reinforcement learning library.
Python
160
star
44

agent-tutorial

157
star
45

awesome-compression

模型压缩的小白入门教程
152
star
46

smoothly-vslam

VSLAM开源基础教程,各章节练习代码
C++
149
star
47

undingable-optimization

顶不住的运筹优化
149
star
48

faster-git

a chinese tutorial of git
138
star
49

ensemble-learning

Jupyter Notebook
137
star
50

free-excel

开源Excel教程。
CSS
131
star
51

unusual-deep-learning

水很深的深度学习
122
star
52

hugging-sd

Hugging StableDiffusion, Hugging Future.
Jupyter Notebook
112
star
53

huawei-od-python

华为OD算法题解
Python
110
star
54

sweetalk-design-pattern

基于《大话设计模式》对设计原则和设计模式进行解读。
C++
106
star
55

joyrl-book

Jupyter Notebook
101
star
56

sora-tutorial

97
star
57

wow-fullstack

wow-fullstack,令人惊叹的全栈开发教程
JavaScript
88
star
58

hands-dirty-nlp

本课程面对具有一定机器学习基础,但尚未入门的NLPer或经验尚浅的NLPer,尽力避免陷入繁琐枯燥的公式讲解中,力求用代码展示每个模型背后的设计思想,同时也会带大家梳理每个模块下的技术演变,做到既知树木也知森林。
Jupyter Notebook
80
star
59

paper-chart-tutorial

《科研论文配图》组队学习
64
star
60

whale-anno

Datawhale自研数据标注工具
Vue
63
star
61

time-series-learning

天池”AI Earth“气象海洋预测竞赛的Topline学习教程
Jupyter Notebook
60
star
62

wow-plotly

高级可视化神器plotly的学习
Jupyter Notebook
55
star
63

leegenai-tutorial

《李宏毅生成式人工智能教程》,PDF下载地址:https://github.com/datawhalechina/leegenai-tutorial/releases
55
star
64

openmmlab-tutorial

帮助新手快速入门、快速使用、习惯 OpenMMLab 开源库官方文档且能够自主上手实验,自由选择阅读更深层的知识。
Jupyter Notebook
53
star
65

go-talent

Go天才小队
Go
49
star
66

rl-papers

rl-papers
41
star
67

whale-paper

Datawhale论文分享,阅读前沿论文,分享技术创新
40
star
68

unlock-hf

解锁HuggingFace生态的百般用法
HTML
40
star
69

aima-notes

人工智能:现代方法(第4版)笔记
39
star
70

llm-deploy

大模型/LLM推理和部署理论与实践
39
star
71

llm-research

39
star
72

what-is-vs

向量检索教程
36
star
73

whale-starry

繁星点点,光芒万丈
C++
34
star
74

team-learning-rl

主要存储Datawhale组队学习中“强化学习”方向的资料。
31
star
75

hugging-audio

Hugging Face Audio Course中文版,帮助学习者快速入门音频模态
Jupyter Notebook
28
star
76

ML-FTTI

机器学习 - 从原理到实现
Python
28
star
77

whale-web

Python
27
star
78

handy-ollama

动手学Ollama,CPU玩转大模型部署,在线阅读地址:https://datawhalechina.github.io/handy-ollama/
Jupyter Notebook
27
star
79

magic-cv

Jupyter Notebook
22
star
80

hugging-rl

Robot Learning Algorithms
18
star
81

leeml-notes

leeml-notes已更名为leedl-tutorial,请访问:https://github.com/datawhalechina/leedl-tutorial
18
star
82

coggle

Coggle数据科学
16
star
83

easy-grokking-deep-learning

Easy-Grokking-Deep-Learning,意为轻松摸索深度学习,英文缩写可简称为EGDL。
Python
13
star
84

scientific-computing

Python科学计算教程,学完Python不知道如何应用?看这里:https://datawhalechina.github.io/scientific-computing/
12
star
85

sweetalk-data-structure

电子书阅读地址
10
star
86

datawhale-linklearner

datawhale linklearner 网站
TypeScript
9
star
87

camel-agent-tutorial

This is a tutorial based on the CAMEL framework, aimed at understanding how to build an Agent Society from the ground up!
9
star
88

repo-template

Datawhale Repository Template
8
star
89

self-dify

8
star
90

udl-tutorial

6
star
91

easy-ros2arm

Robotic arm with machine vision and its os is ROS2.
C++
5
star
92

HandPoseKeyPoints

5
star
93

latex-template

Datawhale LaTex Template
TeX
5
star
94

design-and-analysis-of-algorithm

4
star
95

hello-net

4
star
96

fun-marl

4
star
97

light-memory-pool

基于Arrow的轻量内存池
C++
4
star
98

hands-on-llm

Python
3
star
99

whale-coin

Python
3
star
100

ai-club

Datawhale 高校联盟
3
star