Docker /虚拟化和HDFS

我目前正在使用的项目使用一个小型的Hadoop集群来迭代大约300GB的数据。 这些数据经过分析后填补了我们系统稍后使用的mongoDb。

现在Hadoop集群运行在4台物理机(旧的Dell Precision t3500)上。 为了testing这是一个很好的设置,因为我可以轻松地与机器进行交互,安装和testing。 但是,当程序发布时显然这是不太需要的。 对于这一步,最希望的结果是将Hadoop虚拟化。 将其展开到一组可以在群集中运行的Docker容器。

在search互联网时,很快就明白,Hadoop可以在这样的环境中运行。 大多数search结果都是关于Yarn和实际的hadoop实例,以及如何启动它们。 这很好,但我想知道:HDFS会发生什么。

在我目前的testing设置中,HDFS包含300GB数据,以三重方式存储(以防止数据丢失)。 当系统投入使用时,这个数据集每天将增长大约250MB。 将所有这些file upload到HDFS需要一段时间。

现在来看看我的问题:

当docker工人启动或停止某些容器时,HDFS将如何操作? 它可以保证它不会丢失任何数据。 而不需要很长时间来重新同步一个新的节点? 另外,我从错误的angular度看待这个问题的可能性很大。 我从来没有这样做过,所以如果我走错了路,请让我知道。

ps:如果这是一个长期/模糊的问题,我很抱歉。 但就像我说的,这对我来说是一个未知的领域,所以我正在寻找可以指引我正确方向的事情,Google只让我觉得不够,但把它的信息限制在YARN和Hadoop自己