• Stars
    star
    39,317
  • Rank 369 (Top 0.01 %)
  • Language
    Python
  • License
    Other
  • Created almost 8 years ago
  • Updated 9 months ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

AiLearning:数据分析+机器学习实战+线性代数+PyTorch+NLTK+TF2


AI learning

协议:CC BY-NC-SA 4.0

一种新技术一旦开始流行,你要么坐上压路机,要么成为铺路石。——Stewart Brand

路线图

补充

1.机器学习 - 基础

支持版本

Version Supported
3.6.x
2.7.x

注意事项:

  • 机器学习实战: 仅仅只是学习,请使用 python 2.7.x 版本 (3.6.x 只是修改了部分)

基本介绍

学习文档

模块 章节 类型 负责人(GitHub) QQ
机器学习实战 第 1 章: 机器学习基础 介绍 @毛红动 1306014226
机器学习实战 第 2 章: KNN 近邻算法 分类 @尤永江 279393323
机器学习实战 第 3 章: 决策树 分类 @景涛 844300439
机器学习实战 第 4 章: 朴素贝叶斯 分类 @wnma3mz
@分析
1003324213
244970749
机器学习实战 第 5 章: Logistic回归 分类 @微光同尘 529925688
机器学习实战 第 6 章: SVM 支持向量机 分类 @王德红 934969547
网上组合内容 第 7 章: 集成方法(随机森林和 AdaBoost) 分类 @片刻 529815144
机器学习实战 第 8 章: 回归 回归 @微光同尘 529925688
机器学习实战 第 9 章: 树回归 回归 @微光同尘 529925688
机器学习实战 第 10 章: K-Means 聚类 聚类 @徐昭清 827106588
机器学习实战 第 11 章: 利用 Apriori 算法进行关联分析 频繁项集 @刘海飞 1049498972
机器学习实战 第 12 章: FP-growth 高效发现频繁项集 频繁项集 @程威 842725815
机器学习实战 第 13 章: 利用 PCA 来简化数据 工具 @廖立娟 835670618
机器学习实战 第 14 章: 利用 SVD 来简化数据 工具 @张俊皓 714974242
机器学习实战 第 15 章: 大数据与 MapReduce 工具 @wnma3mz 1003324213
Ml项目实战 第 16 章: 推荐系统(已迁移) 项目 推荐系统(迁移后地址)
第一期的总结 2017-04-08: 第一期的总结 总结 总结 529815144

网站视频

知乎问答-爆炸啦-机器学习该怎么入门?

当然我知道,第一句就会被吐槽,因为科班出身的人,不屑的吐了一口唾沫,说傻X,还评论 Andrew Ng 的视频。。

我还知道还有一部分人,看 Andrew Ng 的视频就是看不懂,那神秘的数学推导,那迷之微笑的英文版的教学,我何尝又不是这样走过来的?? 我的心可能比你们都痛,因为我在网上收藏过上10部《机器学习》相关视频,外加国内本土风格的教程: 7月+小象 等等,我都很难去听懂,直到有一天,被一个百度的高级算法分析师推荐说: 《机器学习实战》还不错,通俗易懂,你去试试??

我试了试,还好我的Python基础和调试能力还不错,基本上代码都调试过一遍,很多高大上的 "理论+推导",在我眼中变成了几个 "加减乘除+循环",我想这不就是像我这样的程序员想要的入门教程么?

很多程序员说机器学习 TM 太难学了,是的,真 TM 难学,我想最难的是: 没有一本像《机器学习实战》那样的作者愿意以程序员 Coding 角度去给大家讲解!!

最近几天,GitHub 涨了 300颗 star,加群的200人, 现在还在不断的增加++,我想大家可能都是感同身受吧!

很多想入门新手就是被忽悠着收藏收藏再收藏,但是最后还是什么都没有学到,也就是"资源收藏家",也许新手要的就是 MachineLearning(机器学习) 学习路线图。没错,我可以给你们的一份,因为我们还通过视频记录下来我们的学习过程。水平当然也有限,不过对于新手入门,绝对没问题,如果你还不会,那算我输!!

视频怎么看?

  1. 理论科班出身-建议去学习 Andrew Ng 的视频(Ng 的视频绝对是权威,这个毋庸置疑)
  2. 编码能力强 - 建议看我们的《机器学习实战-教学版》
  3. 编码能力弱 - 建议看我们的《机器学习实战-讨论版》,不过在看理论的时候,看 教学版-理论部分;讨论版的废话太多,不过在讲解代码的时候是一行一行讲解的;所以,根据自己的需求,自由的组合。

【免费】数学教学视频 - 可汗学院 入门篇

概率 统计 线性代数
可汗学院(概率) 可汗学院(统计学) 可汗学院(线性代数)

机器学习视频 - ApacheCN 教学版

AcFun B站
优酷 网易云课堂

【免费】机器/深度学习视频 - 吴恩达

机器学习 深度学习
吴恩达机器学习 神经网络和深度学习

2.深度学习

支持版本

Version Supported
3.6.x
2.7.x

入门基础

  1. 反向传递: https://www.cnblogs.com/charlotte77/p/5629865.html
  2. CNN原理: http://www.cnblogs.com/charlotte77/p/7759802.html
  3. RNN原理: https://blog.csdn.net/qq_39422642/article/details/78676567
  4. LSTM原理: https://blog.csdn.net/weixin_42111770/article/details/80900575

Pytorch - 教程

-- 待更新

TensorFlow 2.0 - 教程

-- 待更新

目录结构:

切分(分词)

词性标注

命名实体识别

句法分析

WordNet可以被看作是一个同义词词典

词干提取(stemming)与词形还原(lemmatization)

TensorFlow 2.0学习网址

3.自然语言处理

支持版本

Version Supported
3.6.x
2.7.x

学习过程中-内心复杂的变化!!!

自从学习NLP以后才发现国内与国外的典型区别:
1. 对资源的态度是完全相反的:
  1) 国内: 就好像为了名气举办工作装逼的会议就是没有干货全部都是象征性的PPT介绍不是针对在做的各位
  2国外: 就好像是为了推动nlp进步一样分享者各种干货资料和具体的实现。(特别是: python自然语言处理2. 论文的实现: 
  1) 各种高大上的论文实现却还是没看到一个像样的GitHub项目!(可能我的搜索能力差了点一直没找到2国外就不举例了我看不懂3. 开源的框架
  1国外的开源框架:  tensorflow/pytorch 文档+教程+视频官方提供2) 国内的开源框架: 额额还真举例不出来但是牛逼吹得不比国外差!(MXNet虽然有众多国人参与开发但不能算是国内开源框架基于MXNet的动手学深度学习(http://zh.d2l.ai & https://discuss.gluon.ai/t/topic/753)中文教程,已经由沐神(李沐)以及阿斯顿·张讲授录制公开发布(文档+第一季教程+视频)。)
每一次深入都要去翻墙每一次深入都要Google每一次看着国内的说: 哈工大讯飞中科大百度阿里多牛逼但是资料还是得国外去找有时候真的挺恨的真的有点瞧不起自己国内的技术环境当然谢谢国内很多博客大佬特别是一些入门的Demo和基本概念。【深入的水平有限没看懂

1.使用场景 (百度公开课)

第一部分 入门介绍

第二部分 机器翻译

第三部分 篇章分析

第四部分 UNIT-语言理解与交互技术

应用领域

中文分词:

  • 构建DAG图
  • 动态规划查找,综合正反向(正向加权反向输出)求得DAG最大概率路径
  • 使用了SBME语料训练了一套 HMM + Viterbi 模型,解决未登录词问题

1.文本分类(Text Classification)

文本分类是指标记句子或文档,例如电子邮件垃圾邮件分类和情感分析。

下面是一些很好的初学者文本分类数据集。

  1. 路透社Newswire主题分类(路透社-21578)。1987年路透社出现的一系列新闻文件,按类别编制索引。另见RCV1,RCV2和TRC2
  2. IMDB电影评论情感分类(斯坦福)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。
  3. 新闻组电影评论情感分类(康奈尔)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。

有关更多信息,请参阅帖子: 单标签文本分类的数据集

情感分析

比赛地址: https://www.kaggle.com/c/word2vec-nlp-tutorial

  • 方案一(0.86): WordCount + 朴素 Bayes
  • 方案二(0.94): LDA + 分类模型(knn/决策树/逻辑回归/svm/xgboost/随机森林)
    • a) 决策树效果不是很好,这种连续特征不太适合的
    • b) 通过参数调整 200 个topic,信息量保存效果较优(计算主题)
  • 方案三(0.72): word2vec + CNN
    • 说实话: 没有一个好的机器,是调不出来一个好的结果 (: 逃

通过AUC 来评估模型的效果

2.语言模型(Language Modeling)

语言建模涉及开发一种统计模型,用于预测句子中的下一个单词或一个单词中的下一个单词。它是语音识别和机器翻译等任务中的前置任务。

它是语音识别和机器翻译等任务中的前置任务。

下面是一些很好的初学者语言建模数据集。

  1. 古腾堡项目,一系列免费书籍,可以用纯文本检索各种语言。
  2. 还有更多正式的语料库得到了很好的研究; 例如: 布朗大学现代美国英语标准语料库。大量英语单词样本。 谷歌10亿字语料库

新词发现

句子相似度识别

文本纠错

  • bi-gram + levenshtein

3.图像字幕(Image Captioning)

mage字幕是为给定图像生成文本描述的任务。

下面是一些很好的初学者图像字幕数据集。

  1. 上下文中的公共对象(COCO)。包含超过12万张带描述的图像的集合
  2. Flickr 8K。从flickr.com获取的8千个描述图像的集合。
  3. Flickr 30K。从flickr.com获取的3万个描述图像的集合。 欲了解更多,请看帖子:

探索图像字幕数据集,2016年

4.机器翻译(Machine Translation)

机器翻译是将文本从一种语言翻译成另一种语言的任务。

下面是一些很好的初学者机器翻译数据集。

  1. 加拿大第36届议会的协调国会议员。成对的英语和法语句子。
  2. 欧洲议会诉讼平行语料库1996-2011。句子对一套欧洲语言。 有大量标准数据集用于年度机器翻译挑战; 看到:

统计机器翻译

机器翻译

5.问答系统(Question Answering)

问答是一项任务,其中提供了一个句子或文本样本,从中提出问题并且必须回答问题。

下面是一些很好的初学者问题回答数据集。

  1. 斯坦福问题回答数据集(SQuAD)。回答有关维基百科文章的问题。
  2. Deepmind问题回答语料库。从每日邮报回答有关新闻文章的问题。
  3. 亚马逊问答数据。回答有关亚马逊产品的问题。 有关更多信息,请参阅帖子:

数据集: 我如何获得问答网站的语料库,如Quora或Yahoo Answers或Stack Overflow来分析答案质量?

6.语音识别(Speech Recognition)

语音识别是将口语的音频转换为人类可读文本的任务。

下面是一些很好的初学者语音识别数据集。

  1. TIMIT声学 - 语音连续语音语料库。不是免费的,但因其广泛使用而上市。口语美国英语和相关的转录。
  2. VoxForge。用于构建用于语音识别的开源数据库的项目。
  3. LibriSpeech ASR语料库。从LibriVox收集的大量英语有声读物。

7.自动文摘(Document Summarization)

文档摘要是创建较大文档的简短有意义描述的任务。

下面是一些很好的初学者文档摘要数据集。

  1. 法律案例报告数据集。收集了4000份法律案件及其摘要。
  2. TIPSTER文本摘要评估会议语料库。收集了近200份文件及其摘要。
  3. 英语新闻文本的AQUAINT语料库。不是免费的,而是广泛使用的。新闻文章的语料库。 欲了解更多信息:

文档理解会议(DUC)任务在哪里可以找到用于文本摘要的良好数据集?

命名实体识别

文本摘要

Graph图计算【慢慢更新】

知识图谱

  • 知识图谱,我只认 SimmerChan: 【知识图谱-给AI装个大脑】
  • 说实话,我是看这博主老哥写的博客长大的,写的真的是深入浅出。我很喜欢,所以就分享给大家,希望你们也喜欢。

进一步阅读

如果您希望更深入,本节提供了其他数据集列表。

  1. 维基百科研究中使用的文本数据集
  2. 数据集: 计算语言学家和自然语言处理研究人员使用的主要文本语料库是什么?
  3. 斯坦福统计自然语言处理语料库
  4. 按字母顺序排列的NLP数据集列表
  5. 该机构NLTK
  6. 在DL4J上打开深度学习数据
  7. NLP数据集
  8. 国内开放数据集: https://bosonnlp.com/dev/resource

参考

致谢

最近无意收到群友推送的链接,发现得到大佬高度的认可,并在热心的推广。在此感谢:

赞助我们

微信&支付宝

More Repositories

1

apachecn-algo-zh

ApacheCN 数据结构与算法译文集
JavaScript
10,792
star
2

Interview

Interview = 简历指南 + 算法题 + 八股文 + 源码分析
Jupyter Notebook
8,700
star
3

sklearn-doc-zh

📖 [译] scikit-learn(sklearn) 中文文档
CSS
5,106
star
4

pytorch-doc-zh

Pytorch 中文文档
Shell
4,129
star
5

fe4ml-zh

📖 [译] 面向机器学习的特征工程
JavaScript
2,401
star
6

ai-roadmap

ApacheCN AI 路线图(知识树)
Shell
1,982
star
7

mit-18.06-linalg-notes

MIT 18.06 线性代数笔记
JavaScript
1,961
star
8

.github

ApacheCN 开源组织:公告、介绍、成员、活动、交流方式
CSS
1,720
star
9

python_data_analysis_and_mining_action

《python数据分析与挖掘实战》的代码笔记
Python
1,495
star
10

spark-doc-zh

Apache Spark 官方文档中文版
JavaScript
1,186
star
11

pyda-2e-zh

📖 [译] 利用 Python 进行数据分析 · 第 2 版
CSS
1,050
star
12

RecommenderSystems

推荐系统
Python
757
star
13

lightgbm-doc-zh

LightGBM 中文文档
JavaScript
753
star
14

CDNDrive

☁️ CDNDrive = BiliDrive + SuperBed,支持任意文件的全速上传与下载
Python
745
star
15

awesome-cs-courses-zh

计算机公开课推荐
Shell
719
star
16

awesome-indie-zh

独立开发/自由职业/远程工作资源列表
Shell
713
star
17

nlp-pytorch-zh

《Natural Language Processing with PyTorch》中文翻译
JavaScript
701
star
18

ml-mastery-zh

📖 [译] MachineLearningMastery 博客文章
JavaScript
656
star
19

xgboost-doc-zh

XGBoost 中文文档
JavaScript
563
star
20

apachecn-dl-zh

ApacheCN 深度学习译文集
JavaScript
554
star
21

thinking-in-java-zh

📖 Java 编程思想
CSS
513
star
22

awesome-data-comp-solution

数据科学/人工智能比赛解决方案汇总
Python
502
star
23

opencv-doc-zh

📖 [译] OpenCV 中文文档
JavaScript
489
star
24

kafka-doc-zh

Kafka 中文文档
459
star
25

fastai-ml-dl-notes-zh

📖 [译] fast.ai 机器学习和深度学习中文笔记
HTML
396
star
26

flink-doc-zh

Apache Flink 中文文档
JavaScript
382
star
27

stanford-cs224n-notes-zh

📖 斯坦福 CS224n 自然语言处理中文笔记
CSS
326
star
28

cs61b-textbook-zh

📖 [译] UCB CS61b Java 中的数据结构
HTML
296
star
29

ntu-hsuantienlin-ml

📖 台湾大学林轩田机器学习笔记
CSS
276
star
30

apachecn-ds-zh

📖 [译] ApacheCN 数据科学译文集
JavaScript
273
star
31

data

Python
272
star
32

impatient-js-zh

📖 [译] 写给不耐烦程序员的 JavaScript
JavaScript
267
star
33

quant-learning

📚 Quant 教程整理
CSS
233
star
34

sec-books-part1

📚 网安类绝版图书
209
star
35

airflow-doc-zh

📖 [译] Airflow 中文文档
CSS
204
star
36

matplotlib-doc-zh

📖 [译] Matplotlib 用户指南
CSS
192
star
37

hbase-doc-zh

📖 HBase 中文参考指南
JavaScript
181
star
38

love-course-2016-2019

JavaScript
175
star
39

stanford-cs234-notes-zh

斯坦福 cs234 强化学习中文讲义
Shell
172
star
40

stanford-game-theory-notes-zh

📖斯坦福博弈论中文笔记
Shell
163
star
41

it-ebooks-archive

📚 计算机电子书归档
JavaScript
157
star
42

seaborn-doc-zh

📖 [译] seaborn 0.9 中文文档
JavaScript
155
star
43

ds-ai-tech-notes

📖 [译] 数据科学和人工智能技术笔记
CSS
151
star
44

Computer-operating-system-notes

计算机操作系统慕课笔记
147
star
45

elasticsearch-doc-zh

📖 [译] elasticsearch 中文文档
JavaScript
144
star
46

storm-doc-zh

Apache Storm 官方文档中文版
JavaScript
143
star
47

statsmodels-doc-zh

Statsmodels: Python中的统计建模与计量统计学类库,此为ApacheCN推出的中文版翻译。
139
star
48

zetcode-zh

📚 [译] Zetcode 中文系列教程
JavaScript
136
star
49

interpretable-ml-book-zh

interpretable-ml-book中文翻译
Shell
131
star
50

calc4b-zh

📖 [译] MIT 18.03 面向初学者的微积分
JavaScript
129
star
51

cbianchengnet-ebooks

📚 C 语言中文网教程整理
126
star
52

ml-book-100-zh

📖 [译] 百页机器学习小书
Shell
125
star
53

the-way-to-wealth-freedom-notes

📖 通往财富自由之路精细笔记
CSS
113
star
54

ds100-textbook-zh

📖 [译] UCB DS100 数据科学的原理与技巧
JavaScript
112
star
55

sicp-js-zh

📖 【译】NUS CS1101s SICP JavaScript 描述
JavaScript
109
star
56

beginnersbook-zh

📚 [译] BeginnersBook 中文系列教程
JavaScript
104
star
57

apachecn-sec-zh

ApacheCN 网络安全译文集
JavaScript
96
star
58

huazhang-cs-books

📚 华章计算机科学丛书高清扫描
84
star
59

gensim-doc-zh

gensim 中文文档
JavaScript
83
star
60

learning-tf-zh

📖 [译] TensorFlow 学习指南
CSS
81
star
61

business-5min-notes

📖 5 分钟商学院精细笔记
CSS
80
star
62

HackCV-Translate

HackCV网站文章翻译
80
star
63

numpy-doc-zh

📖 [译] NumPy 中文参考(待校对)
HTML
79
star
64

cython-doc-zh

Cython 3.0 中文文档
JavaScript
79
star
65

beam-site-zh

Apache Beam 官方网站中文版
HTML
77
star
66

howtodoinjava-zh

📖 [译] HowToDoInJava 中文系列教程
JavaScript
77
star
67

awesome-article-recomm

优质博文推荐计划
Shell
77
star
68

sicp-py-zh

📖 [译] UCB CS61a SICP Python 描述 中文版
CSS
74
star
69

ds-ipynb-zh

📖 [译] 数据科学 IPython 笔记本
CSS
74
star
70

apachecn-cv-zh

📚 [译] ApacheCN CV 译文集
JavaScript
74
star
71

fastai-num-linalg-v2-zh

📖 [译] fast.ai 数值线性代数讲义 v2
CSS
72
star
72

awesome-drones-zh

无人机资源汇总
71
star
73

git-doc-zh

JavaScript
69
star
74

JavaScript-The-Definitive-Guide-7th-zh

《JavaScript权威指南第七版》中文翻译
Shell
68
star
75

nlp-py-2e-zh

📖 [译] Python 自然语言处理 第二版
CSS
67
star
76

dataviz-zh

📖 【译】数据可视化的基础知识
JavaScript
66
star
77

apachecn-c-cpp-zh

📚 [译] ApacheCN C/C++ 译文集
JavaScript
65
star
78

misc-docs-zh

📚 [译] ApacheCN 短篇集
Shell
63
star
79

fasttext-doc-zh

FastText 中文文档
JavaScript
63
star
80

pandas-cookbook-code-notes

📖 Pandas Cookbook 带注释源码
CSS
63
star
81

kali-linux-wireless-pentest-zh

📖 [译] Kali Linux 无线渗透测试入门指南 中文版
CSS
63
star
82

ml-for-humans-zh

📖 [译] 写给人类的机器学习
CSS
62
star
83

BiliDriveEx

☁️ 已停更,请访问 CDNDrive:
Python
62
star
84

Kaggle

61
star
85

geeksforgeeks-dsal-zh

📖 [译] GeeksForGeeks 翻译计划
CSS
58
star
86

sklearn-cookbook-zh

📖 [译] Scikit-learn 秘籍
CSS
54
star
87

think-py-2e-zh

📖 [译] Think Python 中文第二版
JavaScript
53
star
88

team-wiki

iBooker 团队知识库
JavaScript
52
star
89

TI-Analysis

关于中国市场培训机构运作流程及运营模式分析论文
Java
52
star
90

gitlab-doc-zh

📖 [译] Gitlab 中文文档
JavaScript
52
star
91

apachecn-linux-zh

📚 [译] ApacheCN Linux 译文集
JavaScript
51
star
92

apachecn-java-zh

📚 [译] ApacheCN Java 译文集
JavaScript
50
star
93

apachecn-dsai-wiki

📚 ApacheCN 数据科学和人工智能知识库
JavaScript
48
star
94

spring-boot-doc-zh

📖 [译] spring-boot 中文文档
JavaScript
47
star
95

sec-wiki

ApacheCN 安全知识库
JavaScript
47
star
96

uiuc-cs241-notes-zh

📖 【译】UIUC CS241 系统编程中文讲义
JavaScript
46
star
97

baguwen-wiki

📚 面试八股文
JavaScript
46
star
98

kali-linux-network-scanning-cookbook-zh

📖 [译] Kali Linux 网络扫描秘籍 中文版
CSS
45
star
99

ucb-cs294-112-notes-zh

UCB CS294-112 深度强化学习中文笔记
JavaScript
45
star
100

apachecn-golang-zh

JavaScript
44
star