带有Docker的多节点Hadoop集群

我在基于Docker的环境中处于多节点Hadoop集群的规划阶段。 所以它应该基于一个轻量级易用的虚拟化系统。 当前体系结构(关于文档)包含1个主节点和3个从节点。 该主机使用HDFS文件系统和KVM进行虚拟化。 整个云由Cloudera Manager 。 这个群集上安装了几个Hadoop模块。 还有一个NodeJS数据上传服务。 这一次,我应该使架构的Docker基础。 我已经阅读了几个教程,并有一些意见,但也提出了一些问题。

答:您认为, https://github.com/Lewuathe/docker-hadoop-cluster是我的项目的良好基础? 我也发现了一个官方的形象 ,但它是单节点。

B.如果我想在一个容器中做这个,系统需求如何改变? 这将是很好的,因为这个架构应该在不同的位置工作,所以变化可以很容易地在这些位置之间转移。 这些所谓的克隆之间的同步将是重要的。

C.你有其他的想法,也许最好的做法?

为了解决您的问题C ,您可能需要查看BlueData的软件平台: http : //www.bluedata.com/blog/2015/06/docker-containers-big-data-clusters

它旨在在基于Docker的环境中运行多节点Hadoop集群,并提供可供下载的免费版本(您也可以在AWS EC2实例中运行该版本)。

其实这个工作已经完成了,

https://hub.docker.com/r/cloudera/clusterdock/

它包括预先打包的多节点CDH群集,Cloudera Manager作为群集pipe理的可选组件等。