数据越来越多,传统的关系型数据库支撑不了,分布式数据仓库又非常贵。几十亿、几百亿、甚至几千亿的数据量,如何才能高效的分析? 项目简介
mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10台机器,达到秒级响应,数据能实时导入,可以对任意的维度进行组合与过滤。
mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据。
在阿里10台机器完成每日30亿的数据存储,其中10亿为实时的数据导入,20亿为离线导入。目前集群的总存储1000多亿80~400维度的数据。
目前有阿里、腾讯、京东、联想、一号店、美团、大街网、亚信、恒隆兴等多家公司在使用。
1.满足大数据查询需求:adhoc每天的数据量为30亿条,随着日积月累,数据会越来越大,mdrill采用列存储,索引,分布式技术,适当的分区等满足用户对数据的实时在线分析的需求。 mdrill的特性
2.支持增量更新:离线形式的mdrill数据支持按照分区方式的增量更新。
3.支持实时数据导入:在仅有10台机器的情况下,支持每天10亿级别(高峰每小时2亿)的实时导入。
4.响应时间快:列存储、倒排索引、高效的数据压缩、内存计算,各种缓存、分区、分布式处理等等这些技术,使得mdrill可以仅在几秒到几十秒的时间分析百亿级别的数据。
5.低成本:目前在阿里adhoc仅仅使用10台48G内存的PC机,但确存储了超过千亿规模的数据。
版本下载版本下载
资源列表
- mdrill介绍
- mdrill介绍PPT
- 安装部署(由延年早期提供)
- 单机版安装部署(由范宜坚(@yehaozi)提供)
- 基于kafka的实时模式部署(由联想研究院提供)
- sql使用手册
- 版本开发计划
- 阿里妈妈-AdHoc-基于mdrill的大数据自助分析平台
- LICENSE
mdrill contributors
- 母延年(子落)、秦剑(含光)、郑博文(士远)、陈鹏(伯时)、木晗、逸客、张壮、凌凝
- 谷磊(QQ506413250)、刘宏凯(QQ23276998)、孙磊(QQ29130962)、范宜坚(@yehaozi)
点击进入
jstorm Core contributorsmdrill数据量的增长
时间点 |
数据量 |
事件 |
12年12月 |
小于2亿 |
adhoc首次上线 |
13年1月 |
20~30亿 |
由2台机器扩容到了10台 |
13年5月2日 |
100亿 |
首次过百亿 |
13年7月24日 |
400亿 |
首次开源 |
13年11月 |
1000亿 |
全文检索模式ods_allpv_ad_d上线 |
13年12月 |
1500亿 |
实时数据以及无线数据的接入 |
14年2月 |
3200亿 |
11台机器,硬盘使用率30% |
14年3月28日 |
4900亿 |
11台机器,硬盘使用率60% |
其他
- FAQ
- mdrill技术交流群:171465049
- 微博:http://weibo.com/mynyannian