通过docker图像nvcr.io/nvidia/torch训练例程慢了41%

我通过NVidia docker image nvcr.io/nvidia/torch训练DNN。 除了在我的机器上执行的训练时间要慢得多(+ 41%)之外,一切正常。 一个批处理执行需要大约410ms,而不是裸机上的290ms。

我的nvidia-docker运行命令:

nvidia-docker run -it --network=host --ipc=host -v /mnt/data1:/mnt/data1 my-custom-image bash 

我的自定义图像基于nvcr.io/nvidia/torch。 我只添加我的培训脚本(.lua)并安装luajit。 所有结果都写在/ mnt / data1中,而不是在容器内。

这是正常的还是我做错了什么? 我怎样才能调查浪费的时间来自哪里?

更新:我加倍检查,在培训期间没有任何东西写在容器内。 所有数据都写在/ mnt / data1上。

Update2:我尝试了容器内的推理例程,它不需要比裸机安装更多的时间。