PySpark_Kaggle_DataCastle_TianChi_JData_Kesci_ppd_AiChallenger
考虑到工作开始慢慢接触spark生态,学习下Spark,PySpark功能,尝试使用PySpark,将Kaggle,DataCastle,TianChi,JData,Kesci,ppd,AiChallenger上面一些高质量比赛的参赛者分享的基于Pandas和Ligthtgbm的top方案,用PySpark和LightGBM on Apache Spark来进行复现,一方面熟悉相关包的功能和接口,一方面也了解top选手的一些数据挖掘、分析的思路和套路,trick等等,工作以后能刷比赛的时间实在太少了,如果有自己参加比赛成绩较好的,也会尝试复现。包含:IEEE-CIS Fraud Detection