Tag: hadoop

调用从quickstart.cloudera / 172.17.0.2到quickstart.cloudera：8020连接exception失败：java.net.ConnectException：连接被拒绝: 我对Docker和Hadoop系统很陌生。我已经在Ubuntu 16.04中安装了Docker，并在新的Docker容器中运行Cloudera中的Hadoop镜像。但是当我尝试在hdfs中运行任何命令时，错误消息显示为： Call From quickstart.cloudera/172.17.0.2 to quickstart.cloudera:8020 failed on connection exception: java.net.ConnectException: Connection refused; 我无法弄清楚如何解决这个问题。我期望得到善意的帮助。

如何让我的hdfsdocker客户端运行？: 我正在启动一个hdfs服务器： docker run -d sequenceiq/hadoop-docker:2.6.0 我正在观察正在运行的docker进程 docker ps 得到以下结果： 6bfa4f2fd3b5 sequenceiq/hadoop-docker:2.6.0 "/etc/bootstrap.sh -d" 31 minutes ago Up 31 minutes 22/tcp, 8030-8033/tcp, 8040/tcp, 8042/tcp, 8088/tcp, 49707/tcp, 50010/tcp, 50020/tcp, 50070/tcp, 50075/tcp, 50090/tcp kind_hawking 我试图通过hdfs连接到我的docker集装箱： sudo docker run -ti davvdg/hdfs-client hadoop fs -fs hdfs://localhost:50075 -ls / 这给出了以下结果： ls: Call From a48f81b8e1bb/172.17.0.3 to localhost:50075 failed on connection exception: […]

用Docker优雅地closuresHDFS: 我正在玩Docker和一个简单的HDFS集群。目前是单个节点群集。以下脚本用于启动群集。 SequenceIQdocker图像在阅读Docker的更多信息时，似乎对于closures，它会调用进程ID为1的SIGQUIT。这对hdfs文件系统有何影响？不知道SIGQUIT是否会传播给subprocess。 root 1 0 0 08:49 ? 00:00:00 /bin/bash /etc/bootstrap.sh -bash root 23 1 0 08:49 ? 00:00:00 /usr/sbin/sshd root 138 1 9 08:49 ? 00:00:04 /usr/java/default/bin/java -Dproc_namenode -Xmx1000m – Djava.net.preferIPv4Sta root 269 1 9 08:49 ? 00:00:04 /usr/java/default/bin/java -Dproc_datanode -Xmx1000m -Djava.net.preferIPv4Sta root 451 1 8 08:49 ? 00:00:03 /usr/java/default/bin/java […]

Cloudera quickstart vm docker，我怎样才能有hdfs数据存储在一个安装点？: 使用Cloudera quickstart虚拟机我想处理多个数据的演出。不过，我需要不时地把Docker容器放下来，改变它（我正在玩这个configuration）。我希望这个“大量的”数据被保存在主机上，并且在我重新装上容器的时候安装。我认为挂载一个到/ var / lib / hadoop-hdfs的主机path会起到一些作用，但似乎已经有了一些初始的文件系统结构。还有另一个更深的道路，我可以使用的安装点？任何其他的想法如何做到这一点？

Docker intercontainer通信: 我想运行Hadoop和Flume dockerized。我有一个标准的Hadoop图像的所有默认值。我看不出这些服务如何相互沟通放置在分开的容器中。 Flume的Dockerfile看起来像这样： FROM ubuntu:14.04.4 RUN apt-get update && apt-get install -q -y –no-install-recommends wget RUN mkdir /opt/java RUN wget –no-check-certificate –header "Cookie: oraclelicense=accept-securebackup-cookie" -qO- \ https://download.oracle.com/otn-pub/java/jdk/8u20-b26/jre-8u20-linux-x64.tar.gz \ | tar zxvf – -C /opt/java –strip 1 RUN mkdir /opt/flume RUN wget -qO- http://archive.apache.org/dist/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz \ | tar zxvf – -C /opt/flume –strip 1 ADD […]

是否有可能使用docker启动多物理节点hadoop clustster？: 我已经看到了在多台物理机器上启动Docker并将它们连接到hadoop集群的方法，到目前为止我只find了在一台机器上本地启动集群的方法。有没有办法做到这一点？

如何configurationSpark和OpenMPI在集群上共存的优先级？: 我们有一个运行Spark的小群集来执行面向公众的Web应用程序的作业。这里使用Spark的目标是为Web应用程序提供一个高效的延迟，因此提交作业时，需要尽快从集群中进行响应。但是大部分时间都是空闲的。所以当需要的时候，Spark需要很快，但是当不需要的时候，我们想要使用这些计算资源。例如，我们有一些模拟运行使用OpenMP进行本地线程和OpenMPI来在整个集群中分配处理。这需要一些时间来运行，我们只想在Spark不需要的时候使用集群。是否有可能configurationSpark具有非常高的优先级和淘汰或饿死其他程序？从Spark的configuration中，我可以看到有关限制内存和内核使用的几个选项，但与赋予Spark更高的优先级没有多大关系。我们正在考虑使用Torque来控制OpenMPI模拟的作业队列。我们正在考虑在Docker容器中运行它们，以便更新它们，因为它们正在开发中。这个想法是发出一个Torque命令，它将基本上拖动一个Docker镜像，在每台机器上启动它，并触发OpenMPI应用程序。这太复杂吗？任何其他build议？我们可以放弃Torque并直接使用Spark来控制OpenMPI作业吗？如果一个Spark工作具有更高的优先级，可以打断另一个工作吗目前一切正在运行在Fedora上。 TL;博士更大的问题在于，如何在群集上启动长时间运行的计算密集型分布式作业，同时仍然能够确保在同一硬件上共存的Spark实例的良好延迟？ **这篇文章可能会背叛我对Spark的相对陌生。

使用Docker运行Hadoop（适用于DEV和PROD环境）: 什么是最简单的方法（适用于开发人员和真实环境）使用Docker运行Hadoop？那对于本地开发环境和真实环境的区别应该只是目标机器。 PS有关 Docker容器中的Hadoop更快/值得吗？在Docker容器上使用Hadoop和Spark 在Docker容器上运行hadoop集群如何在Docker Swarm中设置Hadoop？是否有可能使用docker启动多物理节点hadoop clustster？带有Docker的多节点Hadoop集群和许多https://stackoverflow.com/questions/tagged/hadoop+docker

拥有Docker群集的Hadoop集群: 我试图在多个主机的docker swarm中设置一个hadoop集群，每个docker节点上的datanode都有一个挂载的卷。我做了一些testing，工作正常，但是当数据节点死亡然后返回时，问题就来了。我同时重启2台主机，当容器再次运行时，他们得到一个新的IP。问题是名称模式给出一个错误，因为它认为它是另一个datanode。 ERROR org.apache.hadoop.hdfs.StateChange: BLOCK* NameSystem.getDatanode: Data node 10.0.0.13:50010 is attempting to report storage ID 3a7b556f-7364-460e-beac-173132d77503. Node 10.0.0.9:50010 is expected to serve this storage. 是可以防止docker分配一个新的IP，而是保持重新启动后的最后一个IP？或者有任何Hadoopconfiguration的选项来解决这个问题？

Docker中的Hadoopconfiguration – Datanode不能连接: 我正在尝试构build一个dockerized hadoop系统。我目前有问题，datanode的将不会连接到namenode。对于一些背景：每个docker镜像都运行hadoopangular色和一个free-ipa客户端，并且所有的dns都使用免费的ipa。所有hdfs服务正在hdfs用户uid：6001 gid：6001组：hadoop下运行。这是我在namenode上看到的错误： 2014-10-16 15:52:28,066 WARN [IPC Server handler 4 on 8020] blockmanagement.DatanodeManager (DatanodeManager.java:registerDatanode(738)) – Unresolved datanode registration from 172.31.1.166 2014-10-16 15:52:28,067 ERROR [IPC Server handler 4 on 8020] security.UserGroupInformation (UserGroupInformation.java:doAs(1494)) – PriviledgedActionException as:hdfs (auth:SIMPLE) cause:org.apache.hadoop.hdfs.server.protocol.DisallowedDatanodeException: Datanode denied communication with namenode: DatanodeRegistration(0.0.0.0, storageID=DS-300514933-172.31.1.166-50010-1413489147639, infoPort=50075, ipcPort=50020, storageInfo=lv=-47;cid=CID-41426277-e1f8-4154-8189-a0b556231333;nsid=900398376;c=0) 2014-10-16 15:52:28,068 INFO [IPC Server […]