从 Elastic 到 ClickHouse：日志系统性能与成本优化之路

技术文档

文章目录

- 需求背景
- 需求目的
- 计划完成时间
- 阶段
- 调研内容
- - 日志写入链路
  - 方案设计
  - - 表结构设计
    - - 落地表（ReplicatedMergeTree）
      - 分布式表
      - Kafka 引擎表
      - 物化视图
    - 保留策略
    - 前端选型
    - - 配置ClickHouse连接信息与索引白名单
      - 配置需要切换到ClickHouse的index
  - 常见问题与解决方案
  - - 1. `offset out of range`
    - 2. 消费延迟过高
  - 成果展示
  - 实际插入情况
- 亮点
- 不足

需求背景

当前系统日志主要存 ElasticSearch，存在以下问题：

查询效率较低，尤其在高并发场景下性能瓶颈明显；
存储成本较高，部分日志存储冗余，压缩效果不佳；
查询维度较弱，难以支持多维分析与快速聚合。

ClickHouse 作为高性能列式 OLAP 引擎，在日志存储和分析方面具备显著优势，能够支持大吞吐量、高压缩比及亚秒级查询延迟。因此，计划将关键日志数据接入 ClickHouse 进行统一分析、降本增效。

需求目的

实现日志写入 ClickHouse，提升查询性能与响应速度；
支持常见的日志检索、聚合分析；
兼容现有日志收集流程；
降本增效；

计划完成时间

2025-07-31

阶段

Clickhouse结合日志存储调研，是否自建表？补充字段如何处理？
分布式集群搭建
性能优化
结合监控数据展示及告警
前端组件调研使用
自动清理旧数据

调研内容

日志写入链路

Filebeat / Logstash ↓ Kafka ↓ ClickHouse（Kafka 引擎表 → MergeTree 表）

Kafka 消费：ClickHouse 原生支持 Kafka 引擎，无需额外消费者；
数据转换：通过 Materialized View 进行字段映射与结构清洗；
落盘存储：使用 MergeTree 表优化查询性能与数据保留策略。

方案设计

表结构设计

落地表（ReplicatedMergeTree）

CREATE TABLE IF NOT EXISTS default.ycloud_log_local( `message` String, `host` String, `@timestamp` UInt64, `port` Int64, `secondFacility` String, `traceId` String, `logtime` String, `linenum` String,`procedure` String,`peerAddr` String, `level` String, `ck_assembly_extension` String, `orderId` String,`username` String,`spanId` String,`version` String, INDEX timestamp_index `@timestamp` TYPE minmax GRANULARITY 8192)ENGINE = ReplicatedMergeTree(\'/clickhouse/tables/{shard}/ycloud_log_local\', \'{replica}\')PARTITION BY (toYYYYMMDD(toDateTime(`@timestamp` / 1000, \'Asia/Shanghai\')), toHour(toDateTime(`@timestamp` / 1000, \'Asia/Shanghai\')))ORDER BY (intHash64(`@timestamp`))SAMPLE BY intHash64(`@timestamp`)TTL toDateTime(`@timestamp` / 1000) + INTERVAL 120 DAY DELETESETTINGS in_memory_parts_enable_wal = 0, index_granularity = 8192;

分布式表

CREATE TABLE IF NOT EXISTS default.ycloud_log_all AS default.ycloud_log_localENGINE = Distributed(\'gs_clickhouse_cluster\', default, ycloud_log_local, rand());

Kafka 引擎表

CREATE TABLE default.ycloud_log_kafka( `raw_json` String)ENGINE = KafkaSETTINGS kafka_broker_list = \'192.168.100.10:9092,192.168.100.20:9092,192.168.100.30:9092\', kafka_topic_list = \'ycloud\', kafka_group_name = \'ycloud_test_group\', kafka_format = \'JSONAsString\', kafka_num_consumers = 10, kafka_max_block_size = 1048576;

物化视图

CREATE MATERIALIZED VIEW IF NOT EXISTS default.ycloud_log_mvTO default.ycloud_log_localASSELECT JSONExtractString(raw_json, \'message\') AS message, JSONExtractString(raw_json, \'host\') AS host, toUnixTimestamp64Milli(parseDateTime64BestEffort(JSONExtractString(raw_json, \'logtime\'))) AS `@timestamp`, toInt64OrNull(JSONExtractString(raw_json, \'port\'))  AS port, JSONExtractString(raw_json, \'secondFacility\') AS secondFacility, JSONExtractString(raw_json, \'traceId\') AS traceId, JSONExtractString(raw_json, \'logtime\') AS logtime, JSONExtractString(raw_json, \'linenum\') AS linenum, JSONExtractString(raw_json, \'procedure\') AS procedure, JSONExtractString(raw_json, \'peerAddr\') AS peerAddr, JSONExtractString(raw_json, \'level\') AS level, raw_json  AS ck_assembly_extension, JSONExtractString(raw_json, \'orderId\')  AS orderId, JSONExtractString(raw_json, \'username\')  AS username, JSONExtractString(raw_json, \'spanId\')  AS spanId, JSONExtractString(raw_json, \'version\')  AS versionFROM default.ycloud_log_kafka;

保留策略

热数据：120 天内的日志使用主表存储；
清理机制：定期使用 TTL 策略清理过期分区。

前端选型

Ckibana + kibana

踩坑 Ckibana不支持8.0以上版本，官方文档写着支持Ckibana。使用时获取不到正确的时间戳字段。

部署方式采用自定义 Helm Charts，kibana 依赖Ckibana

spring: application: name: ckibanaserver: port: 8080logging: config: classpath:logback-spring.xml file: path: logsmetadata-config: hosts: 192.168.100.10:9200 headers: Authorization: ApiKey TzQ4N0VaZ0JjQWg3YWgzdw==

配置ClickHouse连接信息与索引白名单

设置ClickHouse连接信息:

curl --location --request POST \'localhost:8080/config/updateCk?url=ckUrl&user=default&pass=default&defaultCkDatabase=ops\'

配置需要切换到ClickHouse的index

curl --location --request POST \'localhost:8080/config/updateWhiteIndexList?list=index1,index2\'

⚡️: 实际使用 ES + Kibana 方式一致

常见问题与解决方案

1. `offset out of range`

日志：

offset reset to offset BEGINNING: fetch failed due to requested offset not available on the broker

原因：Kafka 中记录的 offset 已被删除，ClickHouse 自动回退到 earliest；

处理建议：

设置 kafka_auto_offset_reset = \'latest\' 避免历史 offset 回退；
定期清理消费组；
设置合理的 Kafka 数据保留时间。

2. 消费延迟过高

原因：Kafka TPS 高时 ClickHouse 消费不及时；主要出现在更添加INDEX时，TOPIC存储周期长，数据量大导致。

方案：

增加消费者副本（表配置 kafka_num_consumers）；
将大表进行拆分；
提前清洗复杂字段，避免落地时频繁 JSON 解析。

3.常用操作

toUnixTimestamp64Milli(now64(3)) 用于获取当前时间的 Unix 毫秒级时间戳。

## 添加字段ALTER TABLE default.gsnormal_log_local ADD COLUMN facility String AFTER level;## 删除字段ALTER TABLE default.gsnormal_log_local DROP COLUMN port;

成果展示

目标项目标值实际达成值差值分析查询效率 P95 ≤ 3s p95 1 s 性能超出预期，ClickHouse 列式存储和分区裁剪发挥了优势，查询明显更快写入性能 QPS ≥ 10 万 QPS 实测峰值约 15 万写入性能超额完成，Kafka 消费 + 批量 insert 提升了写入能力存储成本降低 ≥ 50% 实际约降低 60% 替换 ELK，去除副本冗余和冷热分层后，存储成本进一步下降

实际插入情况

从 Elastic 到 ClickHouse：日志系统性能与成本优化之路

亮点

提前规划固定字段（如 traceId、logtime、level 等）与原始 JSON 扩展字段（ck_assembly_extension）分开存储，保留日志灵活性，后期可快速应对字段变动需求，无需频繁修改表结构。
引入 ClickHouse TTL 自动清理策略，保障长期稳定运行。
使用 ReplicatedMergeTree 实现多副本同步，自动 failover 提升可用性，保证日志数据持久可靠。

不足

性能还需进一步加强，对极端写入压力的承载验证不足

七大队汽车俱乐部

从 Elastic 到 ClickHouse：日志系统性能与成本优化之路

文章目录

需求背景

需求目的

计划完成时间

阶段

调研内容

日志写入链路

方案设计

表结构设计

落地表（ReplicatedMergeTree）

分布式表

Kafka 引擎表

物化视图

保留策略

前端选型

配置ClickHouse连接信息与索引白名单

配置需要切换到ClickHouse的index

常见问题与解决方案

1. `offset out of range`

2. 消费延迟过高

成果展示

实际插入情况

亮点

不足

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

从 Elastic 到 ClickHouse：日志系统性能与成本优化之路

文章目录

需求背景

需求目的

计划完成时间

阶段

调研内容

日志写入链路

方案设计

表结构设计

落地表（ReplicatedMergeTree）

分布式表

Kafka 引擎表

物化视图

保留策略

前端选型

配置ClickHouse连接信息与索引白名单

配置需要切换到ClickHouse的index

常见问题与解决方案

1. offset out of range

2. 消费延迟过高

成果展示

实际插入情况

亮点

不足

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

1. `offset out of range`