Tag: bigdata

在Docker容器上使用Hadoop和Spark: 我想为我的工作使用大数据分析。我已经实现了所有在容器中创build容器的docker东西。我是大数据新手，但是我已经知道在Hadoop上使用Hadoop for HDFS和使用Spark而不是MapReduce本身是网站和应用程序在速度问题上的最好方式（是吗？）。这将在我的Docker容器上工作吗？如果有人能够指引我学习更多东西，这将是非常有帮助的。

HDFS作为cloudera快速入门docker中的卷: 对于hadoop和docker我都是新手。我一直在努力扩展cloudera / quickstart docker镜像docker文件，并希望挂载一个目录表单主机并将其映射到hdfs位置，以便提高性能并保持数据在本地保存。当我用-v /localdir:/someDir在任何地方挂载音量时，一切正常，但这不是我的目标。但是当我做-v /localdir:/var/lib/hadoop-hdfs datanode和namenode都无法启动，我得到：“cd / var / lib / hadoop-hdfs：Permission denied”。当我做-v /localdir:/var/lib/hadoop-hdfs/cache没有权限但datanode和namenode，或者其中之一无法启动泊坞窗图像，我无法find任何有用的信息在日志关于这个原因的文件。 Mayby有人遇到这个问题，或者有其他的解决scheme把hdfs放在docker集装箱外面？

如何安排监控CPU，内存，磁盘等工作: 我的问题是我有一个专用的服务器，但资源仍然有限，即IO，内存，CPU等，我需要每天运行大量的工作。一些工作是密集型的，有些工作是计算密集型的。有没有办法来监控当前的状态，并决定何时从我的工作池开始一个新的工作。例如，当它知道当前正在运行的工作是密集型的时，它可以在一个不能继续工作的工作中吃饭。或者它可以select一个正在使用大量磁盘io的正在运行的作业，停止它，稍后重新安排它。我提出了docker的解决scheme，因为它可以监视进程，但是我不知道在Docker之上构build这样的调度器。谢谢