发一条内推消息,社招、实习生欢迎投递
字节跳动校招内推码: 3UWFMRS
投递链接: https://jobs.toutiao.com/s/eFCv3cB
社招:https://job.toutiao.com/s/eFCPHb6
大数据面试题汇总与答案分享
Hadoop | Hive | Spark | Flink | HBase | Kafka | Zookeeper |
一、Hadoop
-
讲一下环形缓冲区的概念
二、Hive
三、Spark
- 讲一下spark 的运行架构
- 一个spark程序的执行流程
- spark的shuffle介绍
- Spark的 partitioner 都有哪些?
- spark 有哪几种join
- RDD有哪些特点
- 讲一下宽依赖和窄依赖
- Spark中的算子都有哪些
- RDD的缓存级别都有哪些
- RDD 懒加载是什么意思
- 讲一下spark的几种部署方式
- spark on yarn 模式下的 cluster模式和 client模式有什么区别
- spark运行原理,从提交一个jar到最后返回结果,整个过程
- spark的stage是如何划分的
- spark的rpc: spark2.0为什么放弃了akka 而用netty?
- spark的各种HA, master/worker/executor/driver/task的ha
- spark的内存管理机制,spark 1.6前后分析对比, spark2.0 做出来哪些优化
- 讲一下spark 中的广播变量
- 什么是数据倾斜,怎样去处理数据倾斜
- 分析一下一段spark代码中哪些部分在Driver端执行,哪些部分在Worker端执行
四、Flink
五、HBase
- 讲一下 Hbase 架构
- hbase 如何设计 rowkey
- 讲一下hbase的存储结构,这样的存储结构有什么优缺点
- hbase的HA实现,zookeeper在其中的作用
- HMaster宕机的时候,哪些操作还能正常工作
- 讲一下hbase的写数据的流程
- 讲一下hbase读数据的流程