Tag: bigdata

在Docker容器上使用Hadoop和Spark

我想为我的工作使用大数据分析。 我已经实现了所有在容器中创build容器的docker东西。 我是大数据新手,但是我已经知道在Hadoop上使用Hadoop for HDFS和使用Spark而不是MapReduce本身是网站和应用程序在速度问题上的最好方式(是吗?)。 这将在我的Docker容器上工作吗? 如果有人能够指引我学习更多东西,这将是非常有帮助的。

HDFS作为cloudera快速入门docker中的卷

对于hadoop和docker我都是新手。 我一直在努力扩展cloudera / quickstart docker镜像docker文件,并希望挂载一个目录表单主机并将其映射到hdfs位置,以便提高性能并保持数据在本地保存。 当我用-v /localdir:/someDir在任何地方挂载音量时,一切正常,但这不是我的目标。 但是当我做-v /localdir:/var/lib/hadoop-hdfs datanode和namenode都无法启动,我得到:“cd / var / lib / hadoop-hdfs:Permission denied”。 当我做-v /localdir:/var/lib/hadoop-hdfs/cache没有权限但datanode和namenode,或者其中之一无法启动泊坞窗图像,我无法find任何有用的信息在日志关于这个原因的文件。 Mayby有人遇到这个问题,或者有其他的解决scheme把hdfs放在docker集装箱外面?

如何安排监控CPU,内存,磁盘等工作

我的问题是我有一个专用的服务器,但资源仍然有限,即IO,内存,CPU等,我需要每天运行大量的工作。 一些工作是密集型的,有些工作是计算密集型的。 有没有办法来监控当前的状态,并决定何时从我的工作池开始一个新的工作。 例如,当它知道当前正在运行的工作是密集型的时,它可以在一个不能继续工作的工作中吃饭。 或者它可以select一个正在使用大量磁盘io的正在运行的作业,停止它,稍后重新安排它。 我提出了docker的解决scheme,因为它可以监视进程,但是我不知道在Docker之上构build这样的调度器。 谢谢