教程目录
0. 配置环境
1. Series和DataFrame对象的创建
2. Series和DataFrame对象的查、改、增、删
3. merge详解
4. Index对象的创建,查、改、增、删和使用
5. 普通列和行index的相互转化
6. 数据结构总览
7. 显示控制
8. 快速查看整体信息
9. 数值运算
10. 数值统计运算
11. mask与比较运算(待完成)
12. Category型与离散化
13. 时间型操作
14. Object型操作
15. groupby详解(待完成)
16. resample详解(待完成)
17. ……
教程说明
当今最热的职业是数据科学,数据科学领域应用最广泛的编程语言是python,python这么火的原因就是其有一个功能强大的数据科学库:pandas。
为什么写这套教程
然而,作为一名数据科学行业从业者,即使在pandas中浸淫日久,我常常还需要去查询官方文档,这严重影响了我的工作效率;甚至有时候迫不得已还得写循环操作,非常不pandas,这我忍不了,所以我觉得我得做点什么。
经过多次通读官方文档后,我认为问题根因在于:
- 官方文档组织杂而乱,知识框架不够精炼一致;
- 面面俱到,高价值信息被为了完整性而稀释;
- 文档更新不及时,API功能有时与文档描述不符。
与此同时,我也通读了国内外各种pandas教程,不过总体而言这些教程多数浅尝辄止,不够实用。所以,我决定编写一套pandas教程,提高自己能力的同时,也能帮助大家少走弯路。
教程编写核心原则
这套教程编写的核心原则是:
- 首重知识体系逻辑,没有组织、不成体系的信息是无效信息,很难记住和使用;
- 知识粒度大小适中,即不流于表面也不深入过多细节;
- 示例精炼短小(能看出操作效果),方便手打练习;
- 在示例位置都会注上解释,辅助理解。
这套教程适合谁
这套教程包含从初级到进阶的内容,适合初学者和希望进阶建立知识体系的数据科学从业者阅读。为确保教程的高可用性和准确性,我花了大量时间精心准备,但仍难免有错漏,非常欢迎各位读者能够跟我反馈。
知乎主页
花半楼:https://www.zhihu.com/people/HANGZS