admin管理员组

文章数量:1531731

第一次配置云GPU环境,踩了许多坑,特在此总结记录一下。

坑点1:阿里云不会提醒地区内实例的占用情况。若该区拥挤,则停止实例后由于区域GPU资源不足无法启用,带来不必要的损失;它也根本不会提醒你哪些地方还有相同配置的实例可用,完全需要自己逐个确认。

坑点2:注意安装操作系统的版本,阿里云ubuntu只有14.04和16.04,跑深度学习的话要选择64位的操作系统;(这个是配置过程许多包所要求的)

坑点3:docker配置,项目需要。这个在后文详述。

坑点4:Linux系统和Windows系统换行符不同。单把这个知识点提出来时很简单,但是真正部署到实际中时却忘得一干二净;

 

下面是操作过程的记录

1. 实例选取

        我选用的Tesla P4 GPU,16GB内存 4vCPU配置。该型号GPU最便宜是一个因素,更关键的是第一次配置肯定会踩坑,减少损失。

该型号只有张家口和杭州地区有,在张家口不到8元一小时,杭州的则接近10元。优先选择张家口。

        选择安装GPU驱动。我选择的是预装CUDA8.0,GPU驱动选择384.125。这是因为驱动啊,软件啊,最好都不要直接选择最新的版本,防止兼容性问题。

 

2. 实例操作

快照和镜像:非常重要的功能!!每次停止实例前最好要创建镜像,不要给数据丢失任何机会!

每个快照每小时0.014元࿰

本文标签: 阿里GPU附坑点