> 技术文档 > 大数据技术Kafka详解 ⑥ | Kafka大厂面试题_kafka详解 kafka大厂面试题

大数据技术Kafka详解 ⑥ | Kafka大厂面试题_kafka详解 kafka大厂面试题

目录

1、为什么要使用kafka?

2、kafka消费过的消息如何再消费?

3、kafka的数据是放在磁盘上还是内存上,为什么速度会快?

4、kafka数据怎么保障不丢失?

4.1、生产者数据的不丢失

4.2、消费者数据的不丢失

4.3、kafka集群中的broker的数据不丢失

5、采集数据为什么选择kafka?

6、kafka重启是否会导致数据丢失?

7、kafka宕机了如何解决?

8、为什么kafka不支持读写分离?

9、kafka数据分区和消费者的关系?

10、kafka的数据offset读取流程

11、kafka内部如何保证顺序,结合外部组件如何保证消费者的顺序?

12、kafka消息数据积压,Kafka消费能力不足怎么处理?

13、kafka单条日志传输大小


1、为什么要使用kafka?

  • 缓冲和削峰:上游数据时有突发流量,下游可能扛不住,或者下游没有足够多的机器来保证冗余,kafka在中间可以起到一个缓冲的作用,把消息暂存在kafka中,下游服务就可以按照自己的节奏进行慢慢处理。
  • 解耦和扩展性:项目开始的时候,并不能确定具体需求。消息队列可以作为一个接口层,解耦重要的业务流程。只需要遵守约定,针对数据编程即可获取扩展能力。
  • 冗余:可以采用一对多的方式,一个生产者发布消息,可以被多个订阅topic的服务消费到,供多个毫无关联的业务使用。
  • 健壮性:消息队列可以堆积请求,所以消费端业务即使短时间死掉,也不会影响主要业务的正常进行。
  • 异步通信:很多时候,用户不想也不需要立即处理消息。消息队列提供了异步处理机制,允许用户把一个消息放入队列,但并