Apache InLong：构建10万亿级数据管道的全场景集成框架

技术文档

一、关于 InLong

二、特性

1.简单易用

2.稳定可靠

3.功能完善

4.服务集成

5.灵活扩展

三、架构

四、模块

五、基本概念

行业解决方案矩阵

六、总结：

核心优势对比

三大技术支柱

一、关于 InLong

Apache InLong（应龙）是一站式、全场景的海量数据集成框架，同时支持数据接入、数据同步和数据订阅，提供自动、安全、可靠和高性能的数据传输能力，方便业务构建基于流式的数据分析、建模和应用。 InLong 项目原名 TubeMQ ，专注于高性能、低成本的消息队列服务。为了进一步释放 TubeMQ 周边的生态能力，我们将项目升级为 InLong，专注打造一站式、全场景海量数据集成框架。 Apache InLong 依托 10 万亿级别的数据接入和处理能力，整合了数据采集、汇聚、存储、分拣数据处理全流程，拥有简单易用、灵活扩展、稳定可靠等特性。该项目最初于 2019 年 11 月由腾讯大数据团队捐献到 Apache 孵化器，2022 年 6 月正式毕业成为 Apache 顶级项目。目前 InLong 正广泛应用于广告、支付、社交、游戏、人工智能等各个行业领域，为多领域客户提供高效化便捷化服务。

二、特性

1.简单易用

基于 SaaS 模式对外服务，用户只需要按主题发布和订阅数据即可完成数据的上报，传输和分发工作

2.稳定可靠

系统源于实际的线上系统，服务上十万亿级的高性能及上千亿级的高可靠数据数据流量，系统稳定可靠

3.功能完善

支持各种类型的数据接入方式，多种不同类型的 MQ 集成，以及基于配置规则的实时数据 ETL 和数据分拣落地，并支持以可插拔方式扩展系统能力

4.服务集成

支持统一的系统监控、告警，以及细粒度的数据指标呈现，对于管道的运行情况，以数据主题为核心的数据运营情况，汇总在统一的数据指标平台，并支持通过业务设置的告警信息进行异常告警提醒

5.灵活扩展

全链条上的各个模块基于协议以可插拔方式组成服务，业务可根据自身需要进行组件替换和功能扩展

三、架构

标准架构：包含 InLong Agent、Manager、MQ、Sort、Dashboard 等所有 InLong 组件，同时支持`数据接入`、`数据同步`和`数据订阅`。

四、模块

Apache InLong 服务于数据采集到落地的整个生命周期，按数据的不同阶段提供不同的处理模块，主要包括：

inlong-agent，数据采集服务，包括文件采集、DB 采集等。
inlong-dataproxy，一个基于 Flume-ng 的 Proxy 组件，支持数据发送阻塞和落盘重发，拥有将接收到的数据转发到不同 MQ（消息队列）的能力。
inlong-tubemq，腾讯自研的消息队列服务，专注于大数据场景下海量数据的高性能存储和传输，在海量实践和低成本方面有着良好的核心优势。
inlong-sort，对从不同的 MQ 消费到的数据进行 ETL 处理，然后汇聚并写入 Hive、ClickHouse、HBase、Iceberg、Hudi 等存储系统。
inlong-manager，提供完整的数据服务管控能力，包括元数据、任务流、权限，OpenAPI 等。
inlong-dashboard，用于管理数据集成任务的前端页面，简化整个 InLong 管控平台的使用。
inlong-audit，对 InLong 系统的 Agent、DataProxy、Sort 模块的入流量、出流量进行实时审计对账。

目前支持数据节点：

五、基本概念

行业解决方案矩阵

行业典型场景 InLong价值 金融科技 实时风控数据管道毫秒级延迟保障交易安全 社交平台 用户行为分析中台日处理PB级日志，节省60%带宽 IoT物联网 百万设备数据汇聚 MQTT协议原生支持 广告监测 跨渠道点击流归因精准去重率>99.99%

六、总结：

核心优势对比

维度 InLong Kafka+Flink Pulsar 端到端体验 开箱即用多组件集成需定制开发 运维成本 可视化管控台跨系统协调专业团队维护 传输成本 $0.23/GB $1.7/GB $0.9/GB 协议支持 ★★★★☆ (20+) ★★★☆☆ (10+) ★★★★☆ (15+)

三大技术支柱

支柱能力说明关键技术实现 TubeMQ引擎 千万级QPS消息队列零拷贝传输/分层存储/动态负载均衡 统一接入层 支持20+数据源与目的地 SDK/Agent/Sidecar多模式植入 可视化管控台 全链路可观测性数据血缘追踪/智能预警/流量热力图

定位：一站式、全场景的海量数据集成操作系统
使命：为企业构建高吞吐、低延迟、低成本的数据流通管道
核心理念：Connect Once, Serve Everywhere（一次接入，全场景服务）

Apache InLong 是数据洪流时代的\"应龙\"，以腾讯10万亿级实战经验为基石，通过TubeMQ引擎突破性能瓶颈，凭借全栈式集成能力简化数据工程复杂度。其价值不仅在于技术指标的领先性，更在于重新定义了企业构建数据管道的成本范式——让每GB数据的流动成本降低一个数量级，为实时智能业务提供底层引擎动力。

Apache InLong：构建10万亿级数据管道的全场景集成框架

一、关于 InLong