Docker /虚拟化和HDFS

我目前正在使用的项目使用一个小型的Hadoop集群来迭代大约300GB的数据。这些数据经过分析后填补了我们系统稍后使用的mongoDb。

现在Hadoop集群运行在4台物理机（旧的Dell Precision t3500）上。为了testing这是一个很好的设置，因为我可以轻松地与机器进行交互，安装和testing。但是，当程序发布时显然这是不太需要的。对于这一步，最希望的结果是将Hadoop虚拟化。将其展开到一组可以在群集中运行的Docker容器。

在search互联网时，很快就明白，Hadoop可以在这样的环境中运行。大多数search结果都是关于Yarn和实际的hadoop实例，以及如何启动它们。这很好，但我想知道：HDFS会发生什么。

在我目前的testing设置中，HDFS包含300GB数据，以三重方式存储（以防止数据丢失）。当系统投入使用时，这个数据集每天将增长大约250MB。将所有这些file upload到HDFS需要一段时间。

现在来看看我的问题：

当docker工人启动或停止某些容器时，HDFS将如何操作？它可以保证它不会丢失任何数据。而不需要很长时间来重新同步一个新的节点？另外，我从错误的angular度看待这个问题的可能性很大。我从来没有这样做过，所以如果我走错了路，请让我知道。

ps：如果这是一个长期/模糊的问题，我很抱歉。 但就像我说的，这对我来说是一个未知的领域，所以我正在寻找可以指引我正确方向的事情，Google只让我觉得不够，但把它的信息限制在YARN和Hadoop自己

Docker /虚拟化和HDFS

jaas基本authenticationjetty-runner

Docker端口映射：三方握手，尽pipe没有任何听力

在Docker构build之前，ASP.NET Core运行angular构build

Docker提交问题

删除所有停止的容器：“docker rm”至less需要1个参数

bash：configuration/ etc / hosts接受子网中的多个IP地址

如何将docker-compose升级到2.0？

docker中HOST和NONEnetworking的用途是什么？

jenkinspipe道DOCKER_HOST

如何创build一个可变端口的selenium/独立铬图像（4444）