torch训练例程慢了41％

我通过NVidia docker image nvcr.io/nvidia/torch训练DNN。除了在我的机器上执行的训练时间要慢得多（+ 41％）之外，一切正常。一个批处理执行需要大约410ms，而不是裸机上的290ms。

我的nvidia-docker运行命令：

nvidia-docker run -it --network=host --ipc=host -v /mnt/data1:/mnt/data1 my-custom-image bash

我的自定义图像基于nvcr.io/nvidia/torch。我只添加我的培训脚本（.lua）并安装luajit。所有结果都写在/ mnt / data1中，而不是在容器内。

这是正常的还是我做错了什么？我怎样才能调查浪费的时间来自哪里？

更新：我加倍检查，在培训期间没有任何东西写在容器内。所有数据都写在/ mnt / data1上。

Update2：我尝试了容器内的推理例程，它不需要比裸机安装更多的时间。