docker集装箱中是否提供NCCL2?

我将要构build一个infiniband GPU集群以进行深度学习。 由于有几个主机,我想通过使用nvidia-docker(Dockerfile)来简化部署。 许多深度学习框架都有自己的官方容器(Dockerfile),所以我认为很多人都认为它是很自然的。

我知道如何将预先下载的NCCL2库复制到docker容器中,但我从来没有尝试过/testing在两个在不同主机上设置的docker容器之间是否有GPUDirect RDMA传输。 而且我也找不到任何有人试图用NCCL2实现这种Dockerfile进行分布式深度学习的资源。

有没有人尝试使用NCCL2来分发深层次的Docker容器?

Interesting Posts