带有Docker的多节点Hadoop集群
我在基于Docker
的环境中处于多节点Hadoop
集群的规划阶段。 所以它应该基于一个轻量级易用的虚拟化系统。 当前体系结构(关于文档)包含1个主节点和3个从节点。 该主机使用HDFS
文件系统和KVM
进行虚拟化。 整个云由Cloudera Manager
。 这个群集上安装了几个Hadoop模块。 还有一个NodeJS
数据上传服务。 这一次,我应该使架构的Docker
基础。 我已经阅读了几个教程,并有一些意见,但也提出了一些问题。
答:您认为, https://github.com/Lewuathe/docker-hadoop-cluster是我的项目的良好基础? 我也发现了一个官方的形象 ,但它是单节点。
B.如果我想在一个容器中做这个,系统需求如何改变? 这将是很好的,因为这个架构应该在不同的位置工作,所以变化可以很容易地在这些位置之间转移。 这些所谓的克隆之间的同步将是重要的。
C.你有其他的想法,也许最好的做法?
为了解决您的问题C ,您可能需要查看BlueData的软件平台: http : //www.bluedata.com/blog/2015/06/docker-containers-big-data-clusters
它旨在在基于Docker的环境中运行多节点Hadoop集群,并提供可供下载的免费版本(您也可以在AWS EC2实例中运行该版本)。
截至2016年9月,没有快速的答案。
https://github.com/Lewuathe/docker-hadoop-cluster似乎不是一个好的开始,因为它应该是通用的你的B.选项
密切关注https://github.com/sequenceiq/hadoop-docker和https://github.com/kiwenlau/hadoop-cluster-docker
其实这个工作已经完成了,
https://hub.docker.com/r/cloudera/clusterdock/
它包括预先打包的多节点CDH群集,Cloudera Manager作为群集pipe理的可选组件等。