博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【干货】快速部署微软开源GPU管理利器: OpenPAI
阅读量:6242 次
发布时间:2019-06-22

本文共 2386 字,大约阅读时间需要 7 分钟。

【干货】快速部署微软开源GPU管理利器: OpenPAI

介绍

不管是机器学习的老手,还是入门的新人,都应该装备上尽可能强大的算力。除此之外,还要压榨出硬件的所有潜力来加快模型训练。OpenPAI作为GPU管理的利器,不管是一块GPU,还是上千块GPU,都能够做好调度,帮助加速机器学习的模型训练过程。

关于什么是OpenPAI,请参考。

本文提供了简化的OpenPAI安装步骤。如果有更复杂的安装要求或部署环境,请参考。

准备工作

环境要求如下:

  1. 推荐Ubuntu 16.04 LTS(暂不支持CentOS等其它Linux系统)。
  2. 静态IP地址。
  3. 能够访问外网,可下载Docker Hub的镜像文件。
  4. 为集群中每台机器提供统一的用户名密码,并有sudo权限。
  5. 有统一的时间同步服务(默认即可)。
  6. 推荐干净环境进行安装。如果已经安装了Docker,API版本必须大于等于1.26。
  7. 各台计算机之间网络可达。

安装过程

1. 安装用于配置的docker

即管理、安装整个OpenPAI的docker(在官方文档中称为dev-box)。以后的管理、配置工作都会在这个docker中进行。

登录进某台计算机(可选用集群中的机器),确保有sudo权限。然后按顺序执行下列命令。

安装docker,如果安装有更新的版本可跳过。

sudo apt-get -y install docker.io
# 拉取,并启动dev-boxsudo docker run -itd -e COLUMNS=$COLUMNS -e LINES=$LINES -e TERM=$TERM -v /var/lib/docker:/var/lib/docker -v /var/run/docker.sock:/var/run/docker.sock -v /pathHadoop:/pathHadoop -v /pathConfiguration:/cluster-configuration  --pid=host --privileged=true --net=host --name=dev-box docker.io/openpai/dev-box# 登录dev-boxsudo docker exec -it dev-box /bin/bash

2. 配置安装环境

以下脚本需要修改一下安装环境相关的信息。machines表示GPU集群的服务器IP,ssh-username和ssh-password分别代表登录这些服务器要用到的用户名、密码。

注意:第一台会作为master节点,其余节点作为worker。关于master/worker可参考视频介绍。暂时推荐不要用GPU服务器做master角色,或将worker角色部署到master上,因为这样可能会造成资源紧张,从而造成master进程的内存不够用。所以,master节点可以用没有GPU的服务器,推荐8核16G或以上配置。

cd /pai/pai-managementcat << EOF > quick-start.yamlmachines:  - 192.168.1.2  - 192.168.1.3ssh-username: 
<用户名>
ssh-password:
<密码>
EOFCONFIG_PATH=/cluster-configurationrm $CONFIG_PATH/*

3. 安装节点

根据quick-start的基本信息,在/cluster-configuration目录中生成配置文件。配置文件的具体内容可参考github,这里就不详细介绍了。

python paictl.py cluster generate-configuration -i quick-start.yaml -o $CONFIG_PATH

安装kubenetes

python paictl.py cluster k8s-bootup -p $CONFIG_PATH

安装并启动OpenPAI相关服务

python paictl.py service start -p $CONFIG_PATH

运行最后一步时,如果网速很慢或服务器很多,有可能会花一天。完成后,即可在浏览器中试着访问第一台服务器的web地址。因为服务器还需要启动一会儿,可能并不能马上看到结果。等一会儿,或者多试几次即可。

默认的用户名、密码如下,可点击右上方的login连接登录。建议第一时间改掉。

adminadmin-password

好了!大功告成!

可以参考github中的来配置自己的任务模板。也可以看看Github中的文档来探索更多高级功能。接下来就可以看看前面的介绍视频来学习如何从Tools for AI来提交任务了。

如果集群比较小,可以给集群去掉end-to-end测试用例,从而节省资源。(参考常见问答)

常见问题

遇到问题,可在官网。

如何删除end-to-end测试任务?

如果没有足够的服务器资源,建议在部署过程中删除掉end-to-end测试。否则,它会定期进入队列,以测试系统是否可用。在dev-box中运行:

python paictl.py service delete -p $CONFIG_PATH -n end-to-end-test

安装过程中出现 ... is not ready yet. Please wait for a moment!,该怎么办?

这种一般是网络问题造成的,可以进入以下网址(注意替换master IP),将出现pull image错误的pods删掉,加快Kubernetes重新pull的速度。

:9090/#!/pod?namespace=default

转载地址:http://gkpia.baihongyu.com/

你可能感兴趣的文章
glog 使用中存在的问题
查看>>
WCF, the Service attribute value in the ServiceHost directive could not be found.
查看>>
Scriptcase价格调整(五折销售)
查看>>
【转】 编写C#调用的C++DLL
查看>>
Programming Concepts
查看>>
【Linux】用grep在文档中查找内容
查看>>
音视频编码格式和封装格式的关系和区别是什么?
查看>>
ORACLE 表空间使用率查询
查看>>
cadence制作封装要素
查看>>
Web实时通信
查看>>
dump java
查看>>
VTK中获取STL模型点的坐标以及对其进行变换
查看>>
Sql Server内置函数实现MD5加密
查看>>
2017-2018-1 期中教学检查教师自查表
查看>>
Attention[Content]
查看>>
docker下部署spring boot
查看>>
【Android Studio安装部署系列】十九、Android studio使用SVN
查看>>
java 按概率产生
查看>>
设计模式(26)-----创建型模式-----建造者模式
查看>>
excel读写技术-:ADO.NET 如何读取 Excel
查看>>