docker搭建ray集群
1. 安装docker 已安装过docker 没安装流程
启动 Docker 服务:
sudo systemctl start dockersudo systemctl enable docker # 设置开机即启动docker
验证 Docker 是否安装成功:
docker --version
2. 部署ray
# 先停止docker服务systemctl stop docker # 编辑 Docker 的配置文件 更改docker 镜像保存的路径 以防默认目录存储空间不足 vim /etc/docker/daemon.json{ \"data-root\": \"/data/docker\" # 自己存储空间大的目录}# 再次启动docker服务 使上面的配置文件生效systemctl start docker # 拉取镜像到本地docker pull **镜像名称:版本** # 查看镜像docker images # --network host参数 使docker环境共享宿主机IP # -v 参数使docker环境共享宿主机挂载目录 # tail -f /dev/null 参数 挂起docker 使其不中断docker run -d --name **docker环境名称 自命名即可** --network host -v /mnt1:/mnt1 -v /mnt2:/mnt2 -v /data:/data -v /mnt3:/mnt3 **镜像名称:版本** tail -f /dev/null# 查看docker环境列表docker ps#进入docker环境 执行任务docker exec -it **自命名的docker环境名称** /bin/bash # 退出docker环境exit # 停止容器docker stop ailab-data-pipelinev3 # 删除已停止的容器docker rm ailab-data-pipelinev3 # 查看ray版本 所有机器ray版本应保持一致 否则集群不能使用ray --version# head节点启动命令ray start --head --port=6379 --dashboard-host=0.0.0.0 --dashboard-port=8265 --num-cpus 96#每个work节点启动ray服务命令 请替换IP和--num-cpus数目 --num-cpus 可以是nproc的值ray start --address=\'127.0.0.0:6379\' --num-cpus 96 ray start --address=\'127.0.0.0:6379\' --num-cpus 32# 提交任务命令ray job submit --working-dir ./ray_code -- python3 ray.py