在Docker容器上使用Hadoop和Spark

我想为我的工作使用大数据分析。 我已经实现了所有在容器中创build容器的docker东西。 我是大数据新手,但是我已经知道在Hadoop上使用Hadoop for HDFS和使用Spark而不是MapReduce本身是网站和应用程序在速度问题上的最好方式(是吗?)。 这将在我的Docker容器上工作吗? 如果有人能够指引我学习更多东西,这将是非常有帮助的。

您可以尝试使用Cloudera QuickStart Docker Image来开始。 请看https://hub.docker.com/r/cloudera/quickstart/ 。 此Docker镜像支持Cloudera的Hadoop平台和Cloudera Manager的单节点部署。 这个docker图像也支持火花。