> 技术文档 > datax-web使用手册_datax web用户手册

datax-web使用手册_datax web用户手册


📘 DataX-Web 使用手册(完整版)


一、简介

DataX-Web 是基于阿里巴巴开源项目 DataX 构建的可视化数据同步平台。它提供了一个 Web 管理界面,便于用户配置、调度、监控 DataX 的同步任务。

通过 DataX-Web,你可以:

  • 在 Web 界面配置同步任务
  • 支持多种数据库和数据源
  • 支持任务调度、手动执行
  • 查看任务日志、执行状态
  • 支持失败重试、邮件报警等

二、访问地址

默认访问地址为:

http://:9527

默认账号密码:

  • 用户名:admin
  • 密码:123456

⚠️ 首次登录后建议修改默认密码。


三、使用流程图

添加数据源 → 创建同步任务 → 配置调度策略 → 执行任务 → 查看日志

四、详细操作指南

1️⃣ 添加数据源

步骤:
  1. 点击左侧菜单 【数据源管理】
  2. 点击 【新增】
  3. 填写数据源信息:
字段 说明 名称 例如:mysql-source 数据库类型 选择 MySQL、Oracle、Hive、MongoDB 等 JDBC URL 如:jdbc:mysql://192.168.1.10:3306/test 用户名 数据库用户名 密码 数据库密码 测试连接 确认连接成功
  1. 点击 保存

✅ 支持的数据库:MySQL、Oracle、PostgreSQL、SQL Server、Hive、HDFS、HBase、MongoDB、ClickHouse、StarRocks、Kafka 等。


2️⃣ 创建同步任务

方法一:图形化配置任务(推荐)
  1. 点击左侧菜单 【任务管理】 > 【任务列表】
  2. 点击 【新增】
  3. 选择源数据源和目标数据源。
  4. 配置同步字段(可全选或自定义字段)。
  5. 系统自动生成 DataX 的 JSON 配置。
  6. 点击 保存
方法二:手动编辑 JSON(高级)
  1. 点击【自定义任务】。
  2. 手动输入 DataX 任务 JSON 配置(格式参考 DataX 官方文档)。
  3. 点击保存。

💡 示例:MySQL 到 Hive 的 JSON 任务配置,可向我提出,我将为您生成。


3️⃣ 配置任务调度

  1. 回到 【任务列表】
  2. 点击 【调度】 按钮。
  3. 填写调度参数:
参数 说明 调度时间 使用 Cron 表达式,如:0 0 1 * * ?(每天 1 点) 失败重试次数 如 3 次 报警方式 可配置邮件、钉钉、企业微信等通知方式
  1. 点击 【调度启动】

⚠️ 请确保已部署并启动调度中心(如 Xxl-Job),否则调度不会生效。


4️⃣ 执行任务 & 查看日志

执行方式:
  • 点击 【执行一次】:手动执行一次任务
  • 或等待调度器触发定时执行
查看日志:
  1. 点击左侧 【任务管理】 > 【执行日志】
  2. 选择任务,点击 【查看】
  3. 查看以下信息:
内容 说明 读取条数 DataX 从源数据库读取的记录数 写入条数 写入目标数据库的记录数 任务状态 成功 / 失败 错误信息 如有异常会显示错误日志 执行时间 开始时间和结束时间

5️⃣ 监控与报警

监控功能:
  • 【执行日志】 页面查看实时任务状态
  • 【调度日志】 页面查看调度历史
报警设置:
  1. 点击任务详情页的 【报警配置】
  2. 填写报警方式:
    • 邮件地址
    • 钉钉 Webhook
    • 企业微信 Webhook
  3. 选择报警条件:
    • 任务失败时报警
    • 任务超时时报警

五、高级功能(可选)

1️⃣ 权限管理(可选模块)

  • 可基于角色分配任务查看、执行权限
  • 需在后台配置用户和角色权限

2️⃣ 多节点部署

  • Executor 可部署多个节点,支持分布式执行
  • 在 Web 端选择不同执行器运行任务

3️⃣ 增量同步

  • 在同步字段中添加 WHERE 条件,实现增量同步
  • 示例:where id > 10000

4️⃣ 多表批量同步

  • 可通过脚本或批量导入的方式,快速创建多个任务

六、常见问题与解决方法

问题 可能原因 解决办法 任务执行失败 数据源连接异常、字段类型不匹配 查看执行日志,检查连接、字段、SQL 调度不生效 调度中心未启动或任务未绑定 检查 Xxl-Job 是否启动,任务是否调度 DataX 插件缺失 插件未正确安装 检查 datax-web/executor/datax/plugins 目录 任务卡住无日志 资源不足、脚本错误 检查执行节点资源,如内存、CPU 执行器不在线 Executor 未启动 登录执行器节点检查是否运行成功

七、任务 JSON 配置模板(示例)

示例一:MySQL → MySQL 同步

{ \"job\": { \"content\": [ { \"reader\": { \"name\": \"mysqlreader\", \"parameter\": { \"username\": \"root\", \"password\": \"123456\", \"connection\": [  { \"jdbcUrl\": \"jdbc:mysql://192.168.1.10:3306/source_db\", \"table\": [\"source_table\"]  } ] } }, \"writer\": { \"name\": \"mysqlwriter\", \"parameter\": { \"username\": \"root\", \"password\": \"123456\", \"connection\": [  { \"jdbcUrl\": \"jdbc:mysql://192.168.1.11:3306/target_db\", \"table\": \"target_table\"  } ], \"column\": [\"*\"], \"preSql\": [\"TRUNCATE target_table\"], \"writeMode\": \"replace\" } } } ], \"setting\": { \"speed\": { \"channel\": 3 } } }}

八、其他建议

  • 数据一致性:建议使用主键或时间戳字段进行增量同步
  • 并发控制:根据服务器性能设置合适的 channel 数量
  • 定期备份任务配置:防止误删

九、联系方式 & 社区支持

  • 项目地址:https://github.com/your-repo/datax-web
  • 交流群:加入钉钉群、微信群
  • 邮箱支持:datax-web@yourcompany.com

如您需要我为您生成特定任务模板(如 MySQL 到 Hive、HDFS 到 HBase 等),请告诉我源和目标类型,我将为您生成 JSON 配置文件。