如何使用nvidia-docker在Docker Swarm中创build服务

如何使用nvidia-docker在docker操作的swarm模式下创build服务。 我试图在这个群networking中训练一个张量stream模型来进行分布式学习。 我发现一种方法可能是在不同的机器上运行不同容器的群集networking,并在每台机器上使用GPU进行分布式培训 。 如果在群模式下不可能,有没有办法完成上述任务?

docker service create –name tensorflow –network overnet saikishor / tfm:test azt0tczwkxaqpkh9yaea4laq1

由于未指定–detach = false,任务将在后台创build。

在将来的版本中,–detach = false将成为默认值

但在docker服务ls下,我有这个

ID名称模式REPLICAS图像端口

uf6jgp3tm6dp tensorflow replicated 0/1 saikishor / tfm:test

截至目前,nvidia-docker不支持docker swarm。 所以,现在是不可能的。 我们需要创build一个外部networking来将它们连接在一起。