• Stars
    star
    223
  • Rank 177,450 (Top 4 %)
  • Language
    Python
  • Created almost 6 years ago
  • Updated almost 4 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

Data Analysis and Mining(数据分析与挖掘)

包含数据分析和数据挖掘的学习代码和实战代码

本项目很多内容属于边学边试。参考了书籍,但是很多代码存在过时和错误均被我修改。

数据挖掘是最近几年才出现的一个名词,其归根到底的目的就是经过一系列手段处理数据得到一个适合的建模数据,利用建模数据建立模型挖掘已有数据的隐含价值。

一般步骤(详细内容子目录有叙述,且后面的实战项目我会严格按照这个步骤进行)

  • 数据获取
    • 利用各种手段获取数据,数据样式不限制,但一般而言是形如excel或者csv这样的表格格式。
  • 数据探索
    • 对数据进行初步探索,得到数据特征(如每一列的平均值,分位数,最大最小值,空值数目)。
  • 数据预处理
    • 毫不夸张,这是整个数据挖掘过程中最费时间的部分。对原始数据进行处理,得到合适的建模数据(如处理异常值,属性规约,数据清洗,数据变换,数据标准化)。
  • 数据挖掘建模
    • 如果任务明确,模型的选择是指定的,但是算法的优化,准确率的考究等是需要处理的。(如分类预测、关联规则获取。
  • 后续处理
    • 一般是指模型的实际应用。

More Repositories

1

awesome-multiple-object-tracking

Resources for Multiple Object Tracking (MOT)
1,027
star
2

FacialExpressionRecognition

人脸识别之表情识别项目相关源码
Python
434
star
3

PlotNeuralNet

包含PlotNeuralNet绘制神经网络结构图的教程源码
TeX
98
star
4

DataMiningProject

包含一些比较常见的数据挖掘竞赛或者项目的源码
96
star
5

Stacking

机器学习集成模型之Stacking各类模型及工具源码
Python
60
star
6

GNN

Tutorial about Graph Convolutional Network(GCN)
Python
55
star
7

MSCNN

Tensorflow2(Keras)复现论文"Multi-scale Convolution Neural Networks for Crowd Counting"实现人群密度估计
Python
27
star
8

Tutorial

Tutorial about machine learning and deep learning framework.
25
star
9

MachineLearning

机器学习
Python
22
star
10

DeepSORT

基于DeepSORT算法实现端到端的行人多目标跟踪。
Python
21
star
11

Colorization

Keras复现论文"Colorful Image Colorization"
Python
15
star
12

Algorithm

算法原理讲解及Python实现
Python
10
star
13

ChineseOCR

端到端的中文场景文字识别。
Python
10
star
14

PaperReadings

包括机器学习、深度学习、计算机视觉等领域前沿论文的解读。
9
star
15

DeepLearningProject

深度学习实战项目(图像识别、语音识别、文本处理等)
Jupyter Notebook
9
star
16

Memo

安卓备忘录
Java
9
star
17

YOLO

YOLO目标检测算法的介绍。
8
star
18

FairMOT

a realtime tracking by FairMOT
Python
7
star
19

MLP

Numpy手写BP神经网络,对比Dropout、Batch Normalization等训练技巧的效果。
Python
7
star
20

DyReLU

implementation of dyrelu in ResNet50
Python
7
star
21

DeepLearning

深度学习神经网络构建源码。
Jupyter Notebook
6
star
22

NMS

Python实现NMS(非极大值抑制)对边界框进行过滤。
Python
5
star
23

Spider

一些爬虫实战脚本
Python
5
star
24

luanshiyinyang.github.io

个人博客的主题及内容源码仓库(Hexo+Matery),欢迎fork后创建自己的博客网站,注意源码为hexo分支。
HTML
5
star
25

Competitions

数据科学竞赛项目源码,具体见不同分支。
4
star
26

LCNotes

LeetCode Notes
Python
4
star
27

Models

the implementation of classical network
Jupyter Notebook
4
star
28

SentimentAnalysis

逻辑回归、支持向量机、神经网络在文本情感分析任务中的表现,基于IMDB数据集。
Python
4
star
29

Attentions

classific attention modules in computer vision
Python
3
star
30

ML

机器学习讲义
Python
3
star
31

TesTool

基于PyTest+Requests+Allure+Jenkins的接口自动化测试框架。
Python
3
star
32

LeetCode

LeetCode刷题源码(Contest分支含历次周赛代码及题解)
Python
3
star
33

Caltech101

基于Caltech101,使用TensorFlow2.0训练并测试VGG16、ResNet50和DenseNet121的效果。
Python
2
star
34

NLP

自然语言处理传统方法源码、课程cs224n源码、常用工具包源码
Python
2
star
35

Boosting

机器学习集成模型之Boosting各类模型及工具源码
Jupyter Notebook
2
star
36

PythonScripts

一些有趣的python实战脚本。
1
star
37

VAE

Numpy实现VAE生成MNIST数据集
Python
1
star
38

AndroidDemo

含有常见的安卓第三方控件和框架的使用测试项目
Java
1
star
39

luanshiyinyang

1
star
40

AutoEncoder

实现自编码器并在几个常见手写集(MNIST、USPS、Semeion)上验证效果。
Jupyter Notebook
1
star