• Stars
    star
    994
  • Rank 46,081 (Top 1.0 %)
  • Language
    Python
  • License
    GNU General Publi...
  • Created almost 6 years ago
  • Updated almost 2 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

学习记录的一些笔记,以及所看得一些电子书eBooks、视频资源和平常收纳的一些自己认为比较好的博客、网站、工具。涉及大数据几大组件、Python机器学习和数据分析、Linux、操作系统、算法、网络等

目录

Coding Now

初衷

一是平时看的一些自己认为不错的文章总是很难整理,所以打算开一个项目管理这些,也可以分享给大家;二是记录自己平时所学的一些笔记,一些经历,以供将来翻阅;三是想系统地进阶学习一番,记录这个项目也是想激励自己;四是分享一些平时看的电子书啊、视频等等

每周推荐

没办法,要深入学习必须要看源码。身为小菜鸟的我,每逢看源码时就找不到个准头,看着看着就迷糊了。恰巧今天逛知识星球时,看一个球友的回答觉得非常好,特此转录一下

注释也很重要啊,菜的抠脚的我,每次都是写完代码后再补充注释,哈哈哈。。。

GitHub及Git使用

1546841656292

原文链接:https://paulmillr.com/posts/simple-description-of-popular-software-licenses/

Linux系统下开发环境搭建

Linux命令及Shell脚本学习笔记

爬虫篇(Python)

爬虫这一块我也没多少可以说的,距离我上次写爬虫程序都有一年多了。谈谈感想吧,别听什么培训机构诳你什么爬虫工程师有前途啥的,当然学好学精爬虫也能拿到高薪,但这一行也有不少人了,精通的自然不用说。而且现在有很多像八爪鱼、火车头这些可以定制的爬虫软件,还有一些自学习的爬虫框架。所以我觉得爬虫这一块只要稍微学下,了解下即可

我建议如果是python的话,了解urllib(http请求),requests(http请求),lxml(文本解析),Scrapy(爬虫框架),多线程爬虫就可以了

原来也在csdn上写过一些scrapy的文章,当然学习一门语言官方文档才是最重要的(scrapy也有中文的)

数据分析篇

机器学习及深度学习篇

机器学习网站及教程

GitHub上相关项目推荐

数据分析竞赛

大数据篇

学习大数据的一点感悟

其实,不管是大数据还是其他知识的学习,我认为最好的方法无非是先找个视频快速过一遍,总体上了解这门技术干嘛的,是否适合自己。然后结合官网文档细致地过一遍,学习过程中最好结合前人大牛的博客,都是经验之得你说要不要看。最后就是项目了,实际就是在工作中应用,这个我也说不好,每个人都有自己的方法吧。当然,深入看源码是躲不过的,分享一个如何阅读Flink源码的回答,我自以为是有很大的帮助的

大数据开发环境安装配置

以下出自我在csdn上的一些文章,https://blog.csdn.net/lzw2016/

Hadoop系列

Spark系列

Flink系列

阿里强推的flink,取而代之二次开发的流计算和批处理引擎blink,spark的强势竞争对手

Kudu + Impala 系列

实战项目

推荐系统

实时数据仓库搭建

链接:https://github.com/josonle/Realtime-Data-Warehouse

涉及离线数仓和实时数仓两部分,涉及大数据组件包括Sqoop、Kafka、Flume、Spark Streaming、Hive、Spark SQL、Kudu、Impala Kafka+Flume+HDFS 构建消息采集系统 实时消息处理流程

大数据相关面试

算法篇

Java篇

Java-Web

秋招已经结束有一段时间了,闲来无事,想着学点新的东西。刚好在B站上看到一个SSM到Spring boot的教程,所以打算学习一下Java Web相关的内容。


数据库和分布式篇

数据库主要面向MySQL。pdf中附有转载自相关博客的引用链接,脑图是自己总结的,参考《深入浅出mysql》及相关博客。

GitHub上一些技术书籍、翻译书籍、面试题库推荐

《Python最佳实践指南!》

​ 为什么推荐这份实践指南?这份指南与官方文档有什么不同吗?这份指南包含了作者非常强烈地主观感受,不单单是Python的安装、配置或者每个框架的使用,作者通过个人实践,对自己比较看好的框架标注了强烈推荐,对一些需要注意的地方也进行了标注,基本相当于作者的实践心得,阅读过程中会感受到与作者的思想碰撞。

(Github开源地址:http://pythonguidecn.readthedocs.io/zh/latest/)

《国内一线互联网公司内部面试题库》

​ 该开源项目在Github上已有6000多Star,主要是来自国内一线互联网公司的面试题集锦,涉及Java和Android两大方向,涉及的公司有百度、小米、美团、58、猎豹、360、新浪、搜狐等。据说,掌握这些知识点可以大大增加前两轮技术面试的通过概率。

(Github开源地址:https://github.com/JackyAndroid/AndroidInterview-Q-A/blob/master/README-CN.md)

《Java学习+面试指南》 https://github.com/Snailclimb/JavaGuide 【Java学习+面试指南】 一份涵盖大部分Java程序员所需要掌握的核心知识。

  推荐使用 https://snailclimb.top/JavaGuide/ 在线阅读(访问速度慢的话,请使用 https://snailclimb.gitee.io/javaguide ),在线阅读内容本仓库同步一致。这种方式阅读的优势在于:有侧边栏阅读体验更好,Gitee pages 的访问速度相对来说也比较快。

我面试时看的就是这个,自己也归纳了面试过程中遇到的笔试、面试题和看到的文章

  (Github开源地址:https://github.com/Snailclimb/JavaGuide)

[email protected]:Snailclimb/JavaGuide.git

《技术面试必备基础知识》 https://cyc2018.github.io/CS-Notes

​ 本项目包含了技术面试必备的基础知识,浅显易懂,你不需要花很长的时间去阅读和理解成堆的技术书籍就可以快速掌握这些知识,从而节省宝贵的面试复习时间。你也可以订阅 [面试进阶专栏],包含了学习指导和面试技巧,让你更轻松拿到满意的 Offer。

​ (Github开源地址:https://github.com/CyC2018/CS-Notes )

[email protected]:CyC2018/CS-Notes.git

《神经网络与深度学习》相关代码 Python 实现

​ 该开源项目是对《神经网络与深度学习》一书中相关Python代码的实现。建议先弄明白书中所讲的神经网络、反向传播等概念,再结合代码实现,会有更深的理解。

(Github开源地址:https://github.com/mnielsen/neural-networks-and-deep-learning)

百度前端研发团队的文档与源码编写风格

​ 该项目存放了百度前端研发研发部门的代码编写规范及统一文档,主要涉及JavaScript、CSS、HTML编码规范以及Markdown编写规范等。

(Github开源地址:https://github.com/fex-team/styleguide)

《自上而下的学习路线: 软件工程师的机器学习》

​ 该项目的作者是一名自学成才的移动端软件开发者,后又转型成为一名机器学习工程师,他在Github上公布了自己整个实践过程中的学习方法、参考资料以及知识竞赛等。内容非常全面且丰富,涉及的参考书籍就多达十几本,还有一些博客资源。如果你正在思考如何转型成为一名机器学习工程师,这个开源项目或许是最适合你的。

(中文版本:https://github.com/ZuzooVn/machine-learning-for-software-engineers/blob/master/README-zh-CN.md)

《Shell 编程范例》

​ 本项目贡献者是一名重度的开源项目贡献者。他认为,这本书与传统Shell书籍非常不同,没有用大量的篇幅去介绍Shell语法,而是直接以面向“对象”的方式开始介绍大量Shell操作,从实践入手,涵盖了数值、逻辑值、字符串、文件、进程等方方面面。

(Github开源地址:https://github.com/tinyclub/open-shell-book)

《Docker — 从入门到实践》

​ Docker现在变得越来越流行,无论是开发者、运维人员还是其他信息技术人员都很有必要对Docker知识有所了解。本书更适合具备Linux基础的Docker初学者,前六章为基础内容,可以帮助初学者梳理Docker的基本概念和操作。六章之后,逐渐介绍了一些高级操作,包括高级应用场景和实操案例。这对初学者和老司机都非常有帮助,同时本书也对安全或技术实现等话题进行了说明,强烈推荐。

(Github开源地址:https://github.com/yeasy/docker_practice)

Alibaba开源的Java诊断工具

当你遇到以下类似问题而束手无策时,Arthas可以帮助你解决:

- 这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception?
- 我改的代码为什么没有执行到?难道是我没 commit?分支搞错了?
- 遇到问题无法在线上 debug,难道只能通过加日志再重新发布吗?
- 线上遇到某个用户的数据处理有问题,但线上同样无法 debug,线下无法重现!
- 是否有一个全局视角来查看系统的运行状况?
- 有什么办法可以监控到JVM的实时运行状态?

Arthas支持JDK 6+,支持Linux/Mac/Windows,采用命令行交互模式,同时提供丰富的 Tab 自动补全功能,进一步方便进行问题的定位和诊断 (Github 开源地址:https://github.com/alibaba/arthas/)

在线教程: - 基础:https://alibaba.github.io/arthas/arthas-tutorials?language=cn&id=arthas-basics - 进阶:https://alibaba.github.io/arthas/arthas-tutorials?language=cn&id=arthas-advanced 待续

eBook和视频资源

只推荐我看过的,且个人觉得不错的

Python

视频资源 点这里--->eBook/Python

  • Python3数据分析与挖掘(某课网)
  • python分布式爬虫打造搜索引擎【完整版 某课网】
  • Python升级3.6 强力Django+Xadmin打造在线教育平台

电子书推荐,下面给了几个可以下载电子书的网站,都能找得到的

  • 入门
    • 《Python基本教程》,貌似出第三版了
    • 《Python核心编程》
    • 《Python CookBook》
  • 爬虫
    • 《Python网络数据采集》
    • 也有人推荐崔庆才的书,我只看过他的博客觉得挺不错的,书想比也可以吧
    • 我更推荐看博客,爬虫这一块更新太快了,书跟不上步伐
  • 数据分析
    • 《用Python进行数据分析》足以
  • 机器学习和深度学习
    • 《机器学习实战》
    • 我看的更多的是官方文档和博客,反正不推荐看国人写的书(好多都是骗钱的,我原来看过一本封面画了个鹦鹉的,叫什么一步一步什么走向机器学习之类的,就是把sklearn文档翻译了一遍加了几个案例,烂)

Java系列

  • 《Java核心编程卷一》

  • 《深入理解Java虚拟机》周志明老师著

  • 《Java并发编程的艺术》方腾飞 魏鹏 程晓明著

Hadoop系列资源

Spark系列资源

书籍资源

视频资源 点这里--->eBook/Spark系列

  • 学习 Scala 进击大数据 Spark 生态圈:https://pan.baidu.com/s/1Ld35QE4xfsOQ9o6qFwxL0A 密码:detm

  • Spark 2.0从入门到精通245讲 【墙推

  • 基于大数据技术之电视收视率企业项目实战(hadoop+Spark): https://pan.baidu.com/s/1-M_I0Woi-Wq9mKhjEorGfA 提取码: v3j7

    • 我个人比较推荐这个,这个是从hadoop生态逐渐过渡到Spark生态的学习
  • 01-基于Spark2.x新闻网大数据实时分析可视化系统项目

  • 02-Spark离线和实时电影推荐系统直播回放(视频+文档+代码)

  • 03-Spark项目实战:爱奇艺用户行为实时分析系统

  • 04-Spark企业级实战项目:道路交通实时流量监控预测系统

  • 05-Spark企业级实战项目:知名手机厂商用户行为实时分析系统

  • 06-Spark大型项目实战:电商用户行为分析大数据平台

  • 2018年最新Spark机器学习课程:智能客户系统项目实战视频教程:https://pan.baidu.com/s/12SrMtvLBlVJGOlOt5NQFjw 提取密码:uu9v ——【这个是Spark on Mesos框架的】

  • Spark 2.0大型项目实战:移动电商app交互式数据分析平台:https://pan.baidu.com/s/1o8EAk2Y 提取密码:gcsq

  • Spark MLlib 机器学习算法与源码解析:https://pan.baidu.com/s/1pLptvMN 提取密码:ncek

  • Spark面试宝典 链接: https://pan.baidu.com/s/143GneWVcH4tmrK1gdwuc5w 提取码: 95b2

以上来源于大数据学习资源群的分享

  • 知识星球上球友分享的资源
    • Spark SQL最佳实践.pdf
    • RDD完整.pdf
    • SparkSQL子查询源码阅读.pdf

HBase系列资源

eBook/HBase系列

业内大数据技术ebook分享

见这里

  • 增加 用户画像相关资料
  • 18年京东大数据白皮书
  • DataFun社区技术年货分享
  • 今日头条推荐系统架构设计
  • 快看漫画大数据平台的模型思维与用户增长实践
  • 有赞百亿级日志系统架构设计
  • SQL on Hadoop 在快手大数据平台的实践与优化

算法系列

数据库

  • 《SQL 基础教程》(日)

  • 《深入浅出MySQL》

计算机网络

  • 《计算机网络 自顶向下方法》
  • 《TCP/IP卷》

基础书籍

常用网站收纳

Java各大开发者网站

Python各大开发者网站

我订阅的一些RSS

<?xml version="1.0" encoding="ISO-8859-1"?><opml version="2.0"><head><title>Slick RSS OPML Export</title></head>
<body>

<outline type="rss" text="阮一峰网络分享" xmlUrl="http://www.ruanyifeng.com/blog/atom.xml"/>

<outline type="rss" text="ImportNew---Java" xmlUrl="http://www.importnew.com/feed"/>

<outline type="rss" text="InfoQ" xmlUrl="https://www.infoq.cn/feed"/><outline type="rss" text="掘金AI" xmlUrl="https://rsshub.app/juejin/category/ai"/>

<outline type="rss" text="掘金后端" xmlUrl="https://rsshub.app/juejin/category/backend"/>

<outline type="rss" text="掘金架构" xmlUrl="https://rsshub.app/juejin/tag/%E6%9E%B6%E6%9E%84"/>

<outline type="rss" text="Comic" xmlUrl="https://xkcd.com/atom.xml"/>

<outline type="rss" text="郭俊 Jason的博客" xmlUrl="http://www.jasongj.com/atom.xml"/>

<outline type="rss" text="浪尖BigData" xmlUrl="https://blog.csdn.net/rlnlo2pnefx9c/rss/list"/>

<outline type="rss" text=" 彷徨的博客" xmlUrl="https://blog.csdn.net/weixin_35353187/rss/list"/>

<outline type="rss" text="推酷" xmlUrl="https://rsshub.app/tuicool/mags/design"/>

<outline type="rss" text="开发者头条" xmlUrl="https://rsshub.app/toutiao/today"/>

<outline type="rss" text="技术头条" xmlUrl="https://rsshub.app/blogread/newest"/>

</body></opml>

工具

搜索

翻译

文档编辑

制图、图床

存储

应用软件

  • Typora——markdown笔记应用
  • Vnote——markdown笔记应用,我觉得可以完全代替Typora
  • Go For it!时间管理

Chrome插件

现在最新版chrome不支持直接离线安装插件了,但还是有办法的,见:Linux(Deepin)下解决最新版Chrome无法离线安装插件问题

离线安装谷歌插件方法: 1、打开谷歌浏览器输入:chrome://extensions/ 2、勾选开发者模式 3、把下载的后缀为crx的文件拖进来即可

  • 插件推荐
    • OneTab:合并页面,用了就知道

    • Adblock Plus:去广告

    • LastPass:密码管理

    • 新浪微博图床

    • Imagus:放大页面中的图片

    • Json View:方便查看 Json 结构的插件

    • GitNote:一款基于git的笔记插件

    • github插件

      • OctTree:以树形结构展示github项目
      • GitZip:下载github项目中单个文件
    • Listen 1插件:汇集网易云、虾米、qq音乐、酷我等音乐,github上搜索

  • 今天逛github时发现一个Chrome插件英雄榜的项目,分享一下,Chrome插件英雄榜, 为优秀的Chrome插件写一本中文说明书, 让Chrome插件英雄们造福人类
  • 今天又看到一个通过链接下载github项目文件的网站,分享一下,DownGit