数据竞赛Baseline & Topline分享
假如你是数据竞赛的初学者、爱好者,比赛的baseline不仅是比赛思路分享,同时也是一类数据问题的方法总结。本Repo想做的就是将收集并整理并分享各种比赛的baseline方案。
你可能会问为什么是baseline,而不是获胜者的代码分享?相比于获胜者的代码baseline代码都比较简单,容易整理和学习;其次baseline代码更加实用和简洁,适合入门学习。
数据竞赛
竞赛日历:http://coggle.club/
最新的竞赛信息和baseline推送,请关注:
- 竞赛公众号:Coggle数据科学
- 知乎专栏:机器学习理论与数据竞赛实战
竞赛分享
每个比赛的详细分享请见competition文件夹;
如果本仓库访问速度慢,可以访问国内备份:https://gitee.com/coggle/competition-baseline
2023科大讯飞AI开发者大赛
2023科大讯飞AI开发者大赛正式启动,现开始报名。本次大赛在“36道应用赛+72道算法赛”的基础上,还开设了高校认知大模型场景创新赛和机器人设计赛,覆盖大模型、智能语音、计算机视觉、自然语言、先进智造、VR等人工智能热门技术,涵盖多行业领域,总奖金池累计超400万。
赛题报名链接:https://challenge.xfyun.cn/?ch=vWxQGFU
2022年人民网算法挑战赛
为推进人工智能领域的学术交流、人才培养、技术发展,鼓励广大学生积极学习和研发符合我国主流价值观的优秀算法, 2022年11-12月举办“2022人民网人工智能算法大赛”,赛事由人民网股份有限公司主办,传播内容认知全国重点实验室承办。
- 赛题一:对话生成,https://aistudio.baidu.com/aistudio/projectdetail/5563450
- 赛题二:微博话题识别,https://aistudio.baidu.com/aistudio/projectdetail/5563970
- 赛题三:微博流行度预测,https://aistudio.baidu.com/aistudio/projectdetail/5567567
- 赛题四:微博转发行为预测
- 赛题五:社交媒体机器人识别,https://aistudio.baidu.com/aistudio/projectdetail/5563450
2022年度 iFLYTEK A.I. 开发者大赛
2022年度 iFLYTEK A.I. 开发者大赛来了。本届大赛的总奖金池已升级到了超420万元,除此外还将进一步开放海量数据与核心技术,汇聚更多人工智能开发者,提供创孵平台,培育优质团队,给予扶持政策等。
本届大赛按照算法、应用、编程赛、虚拟形象选拔、辩论赛、创意集市创意赛等等方向设置众多赛道;覆盖了智能语音、视觉、自然语言、图文识别等AI热门技术;涵盖了元宇宙、遗址文化、生物与环保、医疗健康、智能家居、电商销售等众多领域。大赛地址:https://challenge.xfyun.cn/?ch=ds22-dw-sq04
AIWIN 秋季竞赛
- 赛题1- 手写体 OCR 识别竞赛
手写体 OCR 识别竞赛由交通银行命题,设立两个任务,其中任务一由第四范式提供开放数据集,特别针对金额和日期做识别,任务二要求在指定训练环境完成不可下载训练集的训练,增加了银行机构的文本内容。任务一适合新手,并配套学习营和特别的学习奖励。
比赛地址:http://ailab.aiwin.org.cn/competitions/65
baseline地址:https://aistudio.baidu.com/aistudio/projectdetail/2612313
- 赛题2- 心电图智能诊断竞赛
心电图智能诊断竞赛由数创医疗和复旦大学附属中山医院共同命题,设立两个任务,其中任务一诊断心电图的正常异常与否,任务二对10+种不同症状予以判断综合分类。任务一同步设有学习营和配套的学习奖励,欢迎新手参与。
比赛地址:http://ailab.aiwin.org.cn/competitions/64
baseline地址:https://aistudio.baidu.com/aistudio/projectdetail/2653802
2021阿里云供应链大赛——需求预测及单级库存优化
报名链接:https://tianchi.aliyun.com/competition/entrance/531934/introduction
CCF BDCI 2021
- 基于飞桨实现花样滑冰选手骨骼点动作识别,计算机视觉、姿态估计
- 千言-问题匹配鲁棒性评测,自然语言处理、文本匹配
- 基于MindSpore AI框架实现零售商品识别,计算机视觉、图像分类
- 产品评论观点提取,自然语言处理、实体抽取
- 个贷违约预测,结构化数据挖掘、金融风控
- 剧本角色情感识别,自然语言处理、实体抽取
- 基于UEBA的用户上网异常行为分析,结构化数据挖掘、异常检测
- POI名称生成,计算机视觉、OCR
- 客服通话文本摘要提取,自然语言处理、文本摘要
- 系统认证风险预测,结构化数据挖掘、风险检测
- 泛在感知数据关联融合计算,结构化数据挖掘、相似度计算
- openLooKeng跨域数据分析性能提升,数据仓储SQL优化
- 大规模金融仿真图数据中金融交易环路查询的设计与性能优化,金融交易图谱挖掘
- 基于BERT的大模型容量挑战赛,深度学习模型优化
华为DIGIX2021:全球校园AI算法精英大赛
- 赛题1:基于多目标多视图的用户留存周期预测
- 赛题2:基于多模型迁移预训练文章质量判别
- 赛题3:基于多目标优化的视频推荐
- 赛题4:基于多模态多语言的搜索排序
- 赛题5:小样本菜单识别
比赛baseline和学习资料:https://github.com/datawhalechina/competition-baseline/tree/master/competition/DIGIX2021
科大讯飞AI开发者大赛2021
- 中文问题相似度挑战赛, 学习资料
- 线下商店销量预测挑战赛, 学习资料
- 电商图像检索挑战赛, 学习资料
- 人脸情绪识别挑战赛, 学习资料
- 学术论文分类挑战赛, 学习资料
- 车辆贷款违约预测挑战赛, 学习资料
- 广告图片素材分类算法挑战赛,基础的分类思路
- 农作物生长情况识别挑战赛, keras
- 引导拍照挑战赛, keras
- 脑部PETMR图像疾病预测挑战赛, keras
- 智能硬件语音控制的时频图分类挑战赛, pytorch
- 基于用户画像的商品推荐挑战赛, LSTM-0.6786
- 蛋白质结构预测挑战赛算法, CNN-0.21, XGB基础代码
- 环境空气质量评价挑战赛, LR-0.04385
- 猪只盘点挑战赛, 预训练模型
- 新冠肺炎声音诊断挑战赛,baseline 0.53532 Top20
腾讯广告算法大赛
2021年度腾讯赛
本届从广告应用场景痛点出发,开设“视频广告秒级语义解析”和“多模态视频广告标签”两大赛道,兼具算法挑战性和商业应用价值。
2020年度腾讯赛
本届以用户在广告系统中的交互行为作为输入来预测用户的人口统计学属性。
2021世界人工智能创新大赛
- 互联网舆情企业风险事件的识别和预警, NLP类型比赛
- 保险文本视觉认知问答竞赛, CV/NLP,多模态类型比赛
CCF BDCI2020大数据与计算智能大赛
- 通用音频分类, LGB, CNN, 0.9+
- 遥感影像地块分割, U-Net
- 房产行业聊天问答匹配, Bert, RoBERTa
- 小学数学应用题自动解题, 规则思路
- 路况状态时空预测, OTTO Lab, 异度侵入
- 企业非法集资风险预测, 第一次打比赛, DLLXW, 阿水
- 大数据时代的Serverless工作负载预测, 第一次打比赛(A榜0.208), siguo(A榜0.211), CNN-LSTM,鱼佬(0.285), siliconx(0.311)
- 重点区域人群密度预测, 第1名方案
第四届工业大数据创新竞赛——算法赛道
2020数字中国创新大赛大数据赛道
- 入门注册手册:https://mp.weixin.qq.com/s/NurvUDyGwVC4sSwzEzDrwg
- 高德地图城市交通健康榜:https://report.amap.com/diagnosis/index.do
- 赛题1数据分析:链接
- 赛题2学习内容:链接, 录屏
科大讯飞AI开发者大赛(2020年度)
- 脑PET图像分析和疾病预测挑战赛算法挑战大赛, CV类型比赛
- 温室温度预测挑战赛, 结构化数据比赛
- 婴儿啼哭声识别挑战赛, 语音赛题比赛
- 事件抽取挑战赛, NLP类型比赛
结构化比赛
- 第三届 Apache Flink 极客挑战赛暨AAIG CUP, TF2 baseline
- 山东省第二届数据应用创新创业大赛-临沂分赛场-供水管网压力预测, ChallengeHub
- 山东省第二届数据应用创新创业大赛-济南分赛场-健康医疗, ChallengeHub
- 山东省第二届数据应用创新创业大赛-日照分赛场-公积金贷款逾期预测, ChallengeHub
- 2020厦门国际银行数创金融杯建模大赛, 第一次打比赛, OTTO Lab, 0.46
- 2019厦门国际银行“数创金融杯”数据建模大赛, yanqiangmiffy, shenxiangzhuang
- 天池-零基础入门数据挖掘 - 二手车交易价格预测, baseline链接
- 天池-2020数字中国创新大赛—算法赛:智慧海洋建设, 结构化数据比赛
- DataFountain-乘用车细分市场销量预测, 结构化 数据比赛
- DataFountain-离散制造过程中典型工件的质量符合率预测, 结构化数据比赛
- 腾讯-2018腾讯广告算法大赛 Rank11,结构化数据比赛
- 腾讯-2018腾讯广告算法大赛 冠军,结构化数据比赛
- 天池-安泰杯跨境电商智能算法大赛,结构化数据比赛,冠军法国南部分享
- 点石-Retention Rate of Baidu Hao Kan APP Users,结构化数据比赛
- kaggle-two-sigma-connect-rental-listing-inquiries,结构化数据比赛
- kaggle-allstate-claims-severity,结构化数据比赛
- AI研习社-白葡萄酒品质预测,结构化数据比赛
- AI研习社-肌肉活动电信号推测手势,结构化数据比赛
CV类型比赛
- “英特尔创新大师杯”深度学习挑战赛 赛道1:通用场景OCR文本识别任务, OCR比赛, baseline
- 2021全国数字生态创新大赛-智能算法赛, 语义分割比赛, 34.5-Unet, 38.5-Unet++
- DC竞赛-AI助疫·口罩佩戴检测大赛, CV类型比赛
- Kesci-中国华录杯人群密度检测, CV类型比赛
- 天池-心电人机智能大赛心电异常事件预测, CV类型比赛
- DataFountain-多人种人脸识别, CV类型比赛
- DataFountain-基于OCR的身份证要素提取, CV类型比赛
- DataFountain-视频版权检测算法,CV类型比赛
- kaggle-quickdraw-doodle-recognition,CV类型比赛
- TinyMind人民币面值&冠字号编码识别挑战赛,CV类型比赛
- AI研习社-胸腔X光肺炎检测,CV类型比赛
- AI研习社-肺炎X光病灶识别,CV类型比赛
- AI研习社-人脸年龄识别,CV类型比赛
- AI研习社-美食识别挑战(1):豆腐VS土豆,CV类型比赛
- AI研习社-猫脸关键点检测,CV类型比赛
NLP类型比赛
- AI研习社-IMDB评论剧透检测,NLP类型比赛
- DataFountain-金融信息负面及主体判定, NLP类型比赛
- DataFountain-互联网金融新实体发现,NLP类型比赛
- DataFountain-技术需求与技术成果项目之间关联度计算模型,NLP类型比赛
- DataFountain-互联网新闻情感分析,NLP类型比赛
- biendata-智源&计算所-互联网虚假新闻检测挑战赛,NLP类型比赛
- Tianchi-第三届阿里云安全算法挑战赛,NLP类型比赛
其他类型
- DataFountain-企业网络资产及安全事件分析与可视化
- DataFountain-三角形图计算算法设计及性能优化, 计算优化
- DataFountain-云计算时代的大数据查询分析优化, 查询优化
其他链接:
贡献者(按照贡献ID排序)
协作规范
欢迎大家fork并贡献代码,但请大家遵守以下规范和建议:
-
代码请按照比赛的形式进行整理,写明比赛的网址、数据类型和解题赛题;
-
代码请注明运行的环境,以及机器最低配置,如:
- 操作系统:Linux,内存16G,硬盘无要求;
- Python环境:Python2/3
- Pytorch版本:0.4.0
-
baseline代码只能提供可运行的代码和思路,请不要提供直接可以提交的结果文件;
-
代码提供者应对代码版权和共享权负责;
-
如果发现Repo存在版权等相关问题,请邮件联系[email protected]
关注我们
LICENSE
GNU General Public License v3.0