Docker容器中的Hadoop更快/值得吗?

我有一个基于Hadoop的环境。 我在这个系统中使用了FlumeHueCassandra 。 现在Docker有一个很大的炒作,所以想研究一下Docker在这种情况下的优缺点。 我认为它应该更便携,但可以使用Cloudera Manager进行设置,只需点击几下鼠标即可。 这可能是更快或为什么值得吗? 有什么好处? 也许应该只有多节点Cassandra集群dockerized?

这可能是更快或为什么值得吗?

这听起来像你已经有一个Hadoop集群。 所以你必须问自己,复制这个环境需要多长时间? 你多久需要重现这个环境?

如果您不需要重复重复环境的方法,并且包含可能与主机上的其他应用程序发生冲突的依赖性,那么我还没有看到一个用例。

有什么好处?

如果您在可能需要混合Java版本的环境中运行Hadoop,那么将其作为容器运行可能会将主机系统的依赖关系(在本例中为Java)隔离开来。 在某些情况下,它会让你更容易重现的神器移动和设置。 但Java应用程序已经非常简单,包含在JAR中的所有依赖关系。

也许应该只有多节点Cassandra集群dockerized?

我不认为这是否是一个多节点环境。 归结到它解决的问题。 这听起来并不像你在部署或复制Hadoop环境时有任何痛苦,所以我不认为有必要将某些东西“dockerize”,只是因为它是块上最新的东西。

如果您确实需要轻松地重现Hadoop环境,则可以查看Docker中的一些编排和pipe理工具(Kubernetes,Rancher等),这些工具使覆盖networking上的应用程序集群部署和pipe理更加美观只是普通的Docker。 Docker只是我眼中的工具。 当你可以利用一些整洁的覆盖多主机networking,发现和编排其他软件包build立在它上面时,它真的开始发光。