设为首页|收藏本站|
开启左侧

[职场] 比客大数据面试题

[复制链接]
83379 1
奇怪的感觉 发表于 2020-11-26 01:22:40 | 只看该作者 打印 上一主题 下一主题
 
比客面试


比客大数据面试题 第1张图片

学长1

比客的面试:你写了什么就问什么,不写他不问,还是看你简历

(1)Java的熟不熟,常见的Java集合说一下

(2)spark streaming消费kafka,怎么样保证数据消费唯一性,举一个例子说明一下

(3)说一个你熟悉的spark实时指标(我说了黑名单的实时指标,我说最后把数据放到redis中,然后问我为什么设置这样的格式存储,你手写一下具体的实现过程,写完后,他说,你公司的广告有几千个吧,日活有100万,每天每个用户点击的每个广告都统计,至少是亿级别的吧,你们存放到redis中不会挂)

然后我就说了一句不会,我们用redis cluster,然后就没问了

(4)hdfs读写原理,spark shuffle过程,zk的写原理(我简历写了),spark常用的算子

(5)kafka的leader挂了怎么样吧,kafka消费数据堆积怎么样处理

(6)spark数据倾斜,hive调优

(7)随便写了几个字段,叫你分析一下,每个部门的员工薪资top3

(8)你了解hbase,说一下写流程,读写流程谁快
学长2

PKFARE比客 2019.11

1)技术部分

(1)用canal同步mysql发送到kafka,发送订单状态表,状态一直在变化,怎么知道状态的时间顺序?比如加购订单支付这三个状态来的时间不一样,怎么判断谁先谁后?怎么不消费状态错误的数据?

(2)怎么证明你从kafka消费的数据没有丢失?导入的每张表的数据都是正确的?如果有100张表,不可能每张表都去写模拟数据测。(不是埋点测数据量这个答案,是要每张表都能保证数据正确)

(3)dws层主要做什么?为什么要有dws层?你们宽表怎么建模的?你有没有建过模?所以你就是负责写hql?。。。

(4)flink的指标spark streaming做不到吗?说低延迟的话,会问这个指标的实时性好像也没有要求这么高吧?

(5)他们用druid和kylin很多。。。

(6)用oozie调度任务,假设说我有一张ads层的表不想导了,要自动把前三层跟这张表相关的那些表也停止不导了,怎么做?

(7)最近看什么书?为什么离职?前公司情况?对公司的期望?

2)二轮人事面

3)三轮总监面,非科班会质疑你怎么学习大数据的,还有给一些场景问要怎么解决

4)四轮老板面要等老板有空再安排


下一篇:客服工作人员 Part-time type
@



1.西兔生活网 CTLIVES 内容全部来自网络;
2.版权归原网站或原作者所有;
3.内容与本站立场无关;
4.若涉及侵权或有疑义,请点击“举报”按钮,其他联系方式或无法及时处理。
 

精彩评论1

正序浏览
跳转到指定楼层
沙发
岱宝宝 发表于 2020-11-26 01:23:17 | 只看该作者
 
转发了
回复 支持 反对

使用道具 举报

 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

排行榜
活跃网友
返回顶部快速回复上一主题下一主题返回列表APP下载手机访问
Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2024-6-17 14:27