Tag: 重复性研究

使用docker的数据量的图像

我对可复制的数据科学工作非常感兴趣。 为此,我现在正在探索Docker作为一个能够捆绑代码,数据和环境设置的平台。 我的第一个简单的尝试是一个Docker镜像,它包含了它需要的数据( 链接 )。 但是,这只是第一步,在这个例子中,数据是图像的一部分,因此当图像被加载到容器中时,数据已经在那里。 我的下一个目标是解耦分析和数据的代码。 据我所知,这意味着有两个容器,一个是代码( code ),另一个是数据( data )。 对于code我使用一个简单的Dockerfile : FROM continuumio/miniconda3 RUN conda install ipython 并为data : FROM atlassian/ubuntu-minimal COPY data.csv /tmp data.csv是我正在复制到图像的数据文件。 build立这两个图像后,我可以按照这个解决scheme中的描述运行它们: docker run -i -t –name code –net=data-testing –net-alias=code drorata/minimal-python /bin/bash docker run -i -t –name data –net=data-testing –net-alias=data drorata/data-image /bin/bash 启动networking后: docker network create data-testing 完成这些步骤之后,我可以从另一个容器中ping一个容器,也可能从code访问data.csv […]