当前位置：首页 > 经验

带你了解什么是Kafka Kafka是什么

经验
2021-10-20

前言应一大半的同伴的门槛，在Yarn以前先来一个kafka的小插曲，轻松愉悦。

一、Kafka基本信息系统的作用

大概大部份同伴都清楚，用机油装箱举个举例

所以信息系统就是如上图我们所说的仓库，能在中间过程作为缓存，并且实现解耦合的作用。

引入一个场景，我们了解中华移动，中华联通，中华电信的日志处理，是交给外包去做大资料解析的，假设现在它们的日志都交给了你做的系统去做玩家画像解析。

根据刚刚前面提到的信息系统的作用，我们了解了信息系统其实就是一个模拟缓存，且仅仅是起到了缓存的作用而并不是真正的缓存，资料依然是存储在磁盘上面而不是内存。

1.Topic 主题kafka学习了资料库里面的设计，在里面设计了topic（主题），这种东西类似于关系型资料库的表

此时此刻我需要获得中华移动的资料，那么直接监听TopicA就可以

2.Partition 分区

kafka还有一个概念叫Partition（分区），分区详细在服务器上面表现起初就是一个目录，一个主题下面有多个分区，这些分区会存储到不一样的服务器上面，或者说，其实就是在不一样的主机上建了不一样的目录。这些分区主要的消息就存在了.log文件里面。跟资料库里面的分区差不多，是为了提升性能。

至于为什么提升了性能，很简单，多个分区多个线程，多个线程并行处理肯定会比单线程好得多

Topic和partition像是HBASE里的table和region的概念，table只是一个逻辑上的概念，真正存储资料的是region，这些region会分布式地存储在各个服务器上面，对应于kafka，也是一样，Topic也是逻辑概念，而partition就是分布式存储单元。这种设计是保证了无穷资料处理的基本。我们可以比较一下，如果HDFS没有block的设计，一个100T的文件也就只能单独放在一个服务器上面，那么直接占满整个服务器了，引入block后，大文件可以分散存储在不一样的服务器上。

小心：1.分区会有单点故障问题，所以我们会为每一个分区设置副本数

2.分区的编号是从0开始的

3.Producer - 生产者

往信息系统里面发送资料的就是生产者

4.Consumer - 花钱者

从kafka里读取资料的就是花钱者

5.Message - 信息

kafka里面的我们处理的资料叫做信息

二、kafka的集群架构创建一个TopicA的主题，3个分区分别存储在不一样的服务器，也就是broker下面。Topic是一个逻辑上的概念，并不可以直接在图中把Topic的有关单元画出

需要小心：kafka在0.8版本曾经是没有副本机制的，所以在面对服务器宕机的突发状态时会丢弃资料，所以尽量避免使用这种版本以前的kafka

Replica - 副本

kafka中的partition为了保证资料安全，所以每一个partition可以设置多个副本。

此时此刻我们对分区0,1,2分别设置3个副本（其实设置两个副本是比较适合的）

而且其实每一个副本都是有角色之分的，它们会选取一个副本作为leader，而其余的作为follower，我们的生产者在发送资料的时候，是直接发送到leader partition里面，之后跟着follower partition会去leader那里自行同时资料，花钱者花钱资料的时候，也是从leader那去花钱资料的。

Consumer Group - 花钱者组

我们在花钱资料时会在代码里面指定一个group.id,这种id代表的是花钱组的名字，而且这种group.id就算不设置，系统也会默认设置

conf.setProperty("group.id","tellYourDream")我们所熟知的有的信息系统往往一般来说会这样设计，就是只要有一个花钱者去花钱了信息系统里面的资料，那么其余任何的花钱者都不可以再去花钱这种资料。可是kafka并不是这样,例如现在consumerA去花钱了一个topicA里面的资料。

consumerA: group.id = aconsumerB: group.id = a consumerC: group.id = bconsumerD: group.id = b再让consumerB也去花钱TopicA的资料，它是花钱不到了，但是我们在consumerC中从头开始指定一个另外的group.id，consumerC是可以花钱到topicA的资料的。而consumerD也是花钱不到的，所以在kafka中，不一样组可有唯一的一个花钱者去花钱同一主题的资料。

所以花钱者组就是让多个花钱者并行花钱消息而存在的，而且它们不会花钱到同一个信息，如下，consumerA，B，C是不会互相干涉的

consumer group:a consumerA consumerB consumerC

如图，因为前面提到过了花钱者会直接和leader建立联系，所以它们分别花钱了三个leader，所以一个分区不会让花钱者组里面的多个花钱者去花钱，但是在花钱者不饱和的状态下，一个花钱者是可以去花钱多个分区的资料的。

Controller

熟知一个规律：在大资料分布式文件系统里面，95%的都是主从式的架构，个别是对等式的架构，例如ElasticSearch。

kafka也是主从式的架构，主节点就叫controller，其余的为从节点，controller是需要和zookeeper进行搭配管理整个kafka集群。

kafka和zookeeper怎么样搭配事情

kafka加重依赖于zookeeper集群（所以以前的zookeeper文章还是有那么一点用的）。任何的broker在启动的时候都会往zookeeper进行注册，目的就是选举出一个controller，这种选举过程非常简单粗鲁，就是一个谁先谁当的过程，不涉及什么算法问题。

那变成controller之后要做啥呢，它会监听zookeeper里面的多个目录，比如有一个目录/brokers/，很多从节点往这种目录上**注册（就是往这种目录上创建属于自己的子目录而已）**自己，这时命名规则往往一般是它们的id编号，例如/brokers/0,1,2

注册时各个节点必定会暴露自己的主机名，端口号等等的消息，此时此刻controller就要去读取注册上来的从节点的资料（通过监听机制），生成集群的元资料消息，之后把这些消息都分发给很多的服务器，让很多服务器能感知到集群中其它成员的存在。

此时此刻模拟一个场景，我们创建一个主题（其实就是在zookeeper上/topics/topicA这样创建一个目录而已），kafka会把分区方案生成在这种目录中，此时此刻controller就监听到了这一变化，它会去同时这种目录的元消息，之后跟着一样下放给它的从节点，通过这种途径让整个集群都得知这种分区方案，此时此刻从节点就各自创建好目录等待创建分区副本就可以。这也是整个集群的管理机制。

加餐时光

1.Kafka性能好在那个地方？

① 顺序编辑

操作面板系统每当从磁盘读编辑资料的时候，需要先寻址，也就是先要寻找资料在磁盘上的物理地点，之后跟着再进行资料读编辑，如果是机械硬盘，寻址就需要较长的时光。 kafka的设计中，资料其实是存储在磁盘上面，往往一般来说，会把资料存储在内存上面性能才会好。但是kafka用的是顺序编辑，追加资料是追加到最后，磁盘顺序编辑的性能极高，在磁盘个数一定，转数达到一定的状态下，基础和内存速度一致

随机编辑的话是在文件的某个地点改写资料，性能会较低。

② 零拷贝

先来观望非零拷贝的状态

可以观看到的资料的拷贝从内存拷贝到kafka服务进程那块，又拷贝到socket缓存那块，整个过程耗费的时光比较高，kafka使用了Linux的sendFile技术（NIO），省去了进程更换和一次资料拷贝，让性能变得更好。

2.日志分段存储

Kafka规定了一个分区内的.log文件最重要为1G，做这种压制目的是为了方便把.log加载到内存去操作

00000000000000000000.index00000000000000000000.log00000000000000000000.timeindex00000000000005367851.index00000000000005367851.log00000000000005367851.timeindex00000000000009936472.index00000000000009936472.log00000000000009936472.timeindex这种9936472之类的数字，就是代表了这种日志段文件里包含的起始offset，也就说明这种分区里至少都编辑入了靠近1000万条资料了。Kafka broker有一个参数，log.segment.bytes，限定了每一个日志段文件的大小，最重要就是1GB，一个日志段文件满了，就全自动开一个新的日志段文件来编辑入，避免单个文件过大，波及文件的读编辑性能，这种过程叫做log rolling，正在被编辑入的那个日志段文件，叫做active log segment。

如果各位有就这样看前面的两篇有关于HDFS的文章时，就会发现NameNode的edits log也会做出压制，所以这些框架都是会思考到这些问题。

3.Kafka的互联网设计kafka的互联网设计和Kafka的调优有关，这也是为什么它能接受高并发的原因

首先软件发送请求全部会先发送给一个Acceptor，broker里面会存在3个线程（默认是3个），这3个线程都是叫做processor，Acceptor不会对软件的请求做所有的处理，直接封装成一个个socketChannel发送给这些processor形成一个队列，发送的方法是轮询，就是先给第一个processor发送，之后跟着再给第二个，第三个，之后跟着又回到第一个。花钱者线程去花钱这些socketChannel时，会获得一个个request请求，这些request请求中就会伴随着资料。

线程池里面默认有8个线程，这些线程是用来处理request的，分析请求，如果request是编辑请求，就编辑到磁盘里。读的话返回结果。 processor会从response中读取响应资料，之后跟着再返回给软件。这其实就是Kafka的互联网三层架构。

所以如果我们需要对kafka进行增强调优，增加processor并增加线程池里面的处理线程，就可以达到效果。request和response那一块部分其实就是起到了一个缓存的效果，是思考到processor们生成请求太快，线程数不够不可以及时处理的问题。

所以这其实就是一个强力版的reactor互联网线程模型。

finally

集群的搭建会再找时光去提及。这篇简单地从角色到有的设计的方面描述了Kafka的有的基本，在之后的更新中会继续逐步推进，进行更加深入浅出的教学。

作者：说出你的愿望吧丷链接：

声明：此文信息来源于网络，登载此文只为提供信息参考，并不用于任何商业目的。如有侵权，请及时联系我们：fendou3451@163.com

点击展开全文

标签：

微信分享