在具有大型数据集的Docker中工作

我有几个Docker镜像可以和几个大数据集一起工作。 我喜欢把图像看作是获取数据集和输出信息的函数。

每个图像在“消耗”之前必须格式化数据集。 我想我应该在实例化图像之前在主机上进行这种格式化。

有没有帮助我pipe理这些数据集的工具? 或者我应该自己实施?

Interesting Posts