比客大数据面试题

奇怪的感觉 · 发表于 2020-11-26 01:22:40

比客面试题

学长1

比客的面试:你写了什么就问什么，不写他不问，还是看你简历

（1）Java的熟不熟，常见的Java集合说一下

（2）spark streaming消费kafka，怎么样保证数据消费唯一性，举一个例子说明一下

（3）说一个你熟悉的spark实时指标（我说了黑名单的实时指标，我说最后把数据放到redis中，然后问我为什么设置这样的格式存储，你手写一下具体的实现过程，写完后，他说，你公司的广告有几千个吧，日活有100万，每天每个用户点击的每个广告都统计，至少是亿级别的吧，你们存放到redis中不会挂）

然后我就说了一句不会，我们用redis cluster，然后就没问了

（4）hdfs读写原理，spark shuffle过程，zk的写原理（我简历写了），spark常用的算子

（5）kafka的leader挂了怎么样吧，kafka消费数据堆积怎么样处理

（6）spark数据倾斜，hive调优

（7）随便写了几个字段，叫你分析一下，每个部门的员工薪资top3

（8）你了解hbase，说一下写流程，读写流程谁快
学长2

PKFARE比客 2019.11

1）技术部分

（1）用canal同步mysql发送到kafka，发送订单状态表，状态一直在变化，怎么知道状态的时间顺序？比如加购订单支付这三个状态来的时间不一样，怎么判断谁先谁后？怎么不消费状态错误的数据？

（2）怎么证明你从kafka消费的数据没有丢失？导入的每张表的数据都是正确的？如果有100张表，不可能每张表都去写模拟数据测。(不是埋点测数据量这个答案，是要每张表都能保证数据正确)

（3）dws层主要做什么？为什么要有dws层？你们宽表怎么建模的？你有没有建过模？所以你就是负责写hql？。。。

（4）flink的指标spark streaming做不到吗？说低延迟的话，会问这个指标的实时性好像也没有要求这么高吧？

（5）他们用druid和kylin很多。。。

（6）用oozie调度任务，假设说我有一张ads层的表不想导了，要自动把前三层跟这张表相关的那些表也停止不导了，怎么做？

（7）最近看什么书？为什么离职？前公司情况？对公司的期望？

2）二轮人事面

3）三轮总监面，非科班会质疑你怎么学习大数据的，还有给一些场景问要怎么解决

4）四轮老板面要等老板有空再安排

下一篇：客服工作人员 Part-time type

岱宝宝 · 发表于 2020-11-26 01:23:17

转发了

白金会员	积分	兔币	帖子
白金会员, 积分 3407, 距离下一级还需 1593 积分	3407	1861	1548
在线时间：0 小时	最后登录：2023-10-16

白金会员	积分	兔币	帖子
白金会员, 积分 3360, 距离下一级还需 1640 积分	3360	1834	1526
在线时间：0 小时	最后登录：2023-10-13

[职场] 比客大数据面试题

关联主题

精彩评论1

王思聪官宣第19段新恋情，懒理“私生女”事

俄客机在北极地区紧急迫降断成两截，41人都

汪峰女儿要出道：内娱也搞世袭制？入圈的京

女明星惊人的“腰臀比”，倪妮绝、热巴艳，

中国零食榜一变了：全国门店数冲破1万，反

南水北调成功，特旱河南局部暴雨来袭！权威

丰田继续停产三款违规车型至 7 月底，预计

退金令出台，茅台跳水，经济从去地产到去金

红毯：娜扎瘦得太过，蒋勤勤发福了，离开汪

消息称苹果计划为 iPhone 17 系列开发一款

苹果迟迟不入局，折叠屏手机能否成为手机厂

一到夏天生腌海鲜就被全网安利，但我劝你别

博主：华为Mate70系列已进入最后阶段影响

杨笠加盟《非诚勿扰》，大方公开择偶标准

G7达成协议，“将导致俄罗斯最强烈报复”

王思聪官宣第19段新恋情，懒理“私生女”事

“雷总，我们早上一般吃苦”

DNF手游：四大深渊副本对比

归队！国泰航空最后一架海外封存客机返港，

传高通骁龙8 Gen 4将涨价30%，骁龙8 Gen 5

董军就台海划红线不到48小时，美27家军火商

广州300亿巨无霸旧改表决通过，周边二手房

268元引争议，《黑神话：悟空》不得不走这

被严重低估的一个产业，这是最国际的中国供

莫迪连任还没等到中国贺电，先收到了中方的

苹果迟迟不入局，折叠屏手机能否成为手机厂

他救过隋文帝，助隋炀帝夺位，为何却被处死

最低租金每月600元，济南起步区首批保障性

中国出口回暖

完美复仇！微醺的曼城，红眼的曼联，滕哈赫

财神驾到

绿林道的

一抹伤

哇哇的哭

冷香丸