Tag: hadoop

调用从quickstart.cloudera / 172.17.0.2到quickstart.cloudera:8020连接exception失败:java.net.ConnectException:连接被拒绝

我对Docker和Hadoop系统很陌生。 我已经在Ubuntu 16.04中安装了Docker,并在新的Docker容器中运行Cloudera中的Hadoop镜像。 但是当我尝试在hdfs中运行任何命令时,错误消息显示为: Call From quickstart.cloudera/172.17.0.2 to quickstart.cloudera:8020 failed on connection exception: java.net.ConnectException: Connection refused; 我无法弄清楚如何解决这个问题。 我期望得到善意的帮助。

如何让我的hdfsdocker客户端运行?

我正在启动一个hdfs服务器 : docker run -d sequenceiq/hadoop-docker:2.6.0 我正在观察正在运行的docker进程 docker ps 得到以下结果: 6bfa4f2fd3b5 sequenceiq/hadoop-docker:2.6.0 "/etc/bootstrap.sh -d" 31 minutes ago Up 31 minutes 22/tcp, 8030-8033/tcp, 8040/tcp, 8042/tcp, 8088/tcp, 49707/tcp, 50010/tcp, 50020/tcp, 50070/tcp, 50075/tcp, 50090/tcp kind_hawking 我试图通过hdfs连接到我的docker集装箱: sudo docker run -ti davvdg/hdfs-client hadoop fs -fs hdfs://localhost:50075 -ls / 这给出了以下结果: ls: Call From a48f81b8e1bb/172.17.0.3 to localhost:50075 failed on connection exception: […]

用Docker优雅地closuresHDFS

我正在玩Docker和一个简单的HDFS集群。 目前是单个节点群集。 以下脚本用于启动群集。 SequenceIQdocker图像 在阅读Docker的更多信息时,似乎对于closures,它会调用进程ID为1的SIGQUIT。这对hdfs文件系统有何影响? 不知道SIGQUIT是否会传播给subprocess。 root 1 0 0 08:49 ? 00:00:00 /bin/bash /etc/bootstrap.sh -bash root 23 1 0 08:49 ? 00:00:00 /usr/sbin/sshd root 138 1 9 08:49 ? 00:00:04 /usr/java/default/bin/java -Dproc_namenode -Xmx1000m – Djava.net.preferIPv4Sta root 269 1 9 08:49 ? 00:00:04 /usr/java/default/bin/java -Dproc_datanode -Xmx1000m -Djava.net.preferIPv4Sta root 451 1 8 08:49 ? 00:00:03 /usr/java/default/bin/java […]

Cloudera quickstart vm docker,我怎样才能有hdfs数据存储在一个安装点?

使用Cloudera quickstart虚拟机我想处理多个数据的演出。 不过,我需要不时地把Docker容器放下来,改变它(我正在玩这个configuration)。 我希望这个“大量的”数据被保存在主机上,并且在我重新装上容器的时候安装。 我认为挂载一个到/ var / lib / hadoop-hdfs的主机path会起到一些作用,但似乎已经有了一些初始的文件系统结构。 还有另一个更深的道路,我可以使用的安装点? 任何其他的想法如何做到这一点?

Docker intercontainer通信

我想运行Hadoop和Flume dockerized。 我有一个标准的Hadoop图像的所有默认值。 我看不出这些服务如何相互沟通放置在分开的容器中。 Flume的Dockerfile看起来像这样: FROM ubuntu:14.04.4 RUN apt-get update && apt-get install -q -y –no-install-recommends wget RUN mkdir /opt/java RUN wget –no-check-certificate –header "Cookie: oraclelicense=accept-securebackup-cookie" -qO- \ https://download.oracle.com/otn-pub/java/jdk/8u20-b26/jre-8u20-linux-x64.tar.gz \ | tar zxvf – -C /opt/java –strip 1 RUN mkdir /opt/flume RUN wget -qO- http://archive.apache.org/dist/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz \ | tar zxvf – -C /opt/flume –strip 1 ADD […]

是否有可能使用docker启动多物理节点hadoop clustster?

我已经看到了在多台物理机器上启动Docker并将它们连接到hadoop集群的方法,到目前为止我只find了在一台机器上本地启动集群的方法。 有没有办法做到这一点?

如何configurationSpark和OpenMPI在集群上共存的优先级?

我们有一个运行Spark的小群集来执行面向公众的Web应用程序的作业。 这里使用Spark的目标是为Web应用程序提供一个高效的延迟,因此提交作业时,需要尽快从集群中进行响应。 但是大部分时间都是空闲的。 所以当需要的时候,Spark需要很快,但是当不需要的时候,我们想要使用这些计算资源。 例如,我们有一些模拟运行使用OpenMP进行本地线程和OpenMPI来在整个集群中分配处理。 这需要一些时间来运行,我们只想在Spark不需要的时候使用集群。 是否有可能configurationSpark具有非常高的优先级和淘汰或饿死其他程序? 从Spark的configuration中,我可以看到有关限制内存和内核使用的几个选项,但与赋予Spark更高的优先级没有多大关系。 我们正在考虑使用Torque来控制OpenMPI模拟的作业队列。 我们正在考虑在Docker容器中运行它们,以便更新它们,因为它们正在开发中。 这个想法是发出一个Torque命令,它将基本上拖动一个Docker镜像,在每台机器上启动它,并触发OpenMPI应用程序。 这太复杂吗? 任何其他build议? 我们可以放弃Torque并直接使用Spark来控制OpenMPI作业吗? 如果一个Spark工作具有更高的优先级,可以打断另一个工作吗 目前一切正在运行在Fedora上。 TL;博士 更大的问题在于,如何在群集上启动长时间运行的计算密集型分布式作业,同时仍然能够确保在同一硬件上共存的Spark实例的良好延迟? **这篇文章可能会背叛我对Spark的相对陌生。

使用Docker运行Hadoop(适用于DEV和PROD环境)

什么是最简单的方法(适用于开发人员和真实环境)使用Docker运行Hadoop? 那对于本地开发环境和真实环境的区别应该只是目标机器。 PS有关 Docker容器中的Hadoop更快/值得吗? 在Docker容器上使用Hadoop和Spark 在Docker容器上运行hadoop集群 如何在Docker Swarm中设置Hadoop? 是否有可能使用docker启动多物理节点hadoop clustster? 带有Docker的多节点Hadoop集群 和许多https://stackoverflow.com/questions/tagged/hadoop+docker

拥有Docker群集的Hadoop集群

我试图在多个主机的docker swarm中设置一个hadoop集群,每个docker节点上的datanode都有一个挂载的卷。我做了一些testing,工作正常,但是当数据节点死亡然后返回时,问题就来了。 我同时重启2台主机,当容器再次运行时,他们得到一个新的IP。 问题是名称模式给出一个错误,因为它认为它是另一个datanode。 ERROR org.apache.hadoop.hdfs.StateChange: BLOCK* NameSystem.getDatanode: Data node 10.0.0.13:50010 is attempting to report storage ID 3a7b556f-7364-460e-beac-173132d77503. Node 10.0.0.9:50010 is expected to serve this storage. 是可以防止docker分配一个新的IP,而是保持重新启动后的最后一个IP? 或者有任何Hadoopconfiguration的选项来解决这个问题?

Docker中的Hadoopconfiguration – Datanode不能连接

我正在尝试构build一个dockerized hadoop系统。 我目前有问题,datanode的将不会连接到namenode。 对于一些背景:每个docker镜像都运行hadoopangular色和一个free-ipa客户端,并且所有的dns都使用免费的ipa。 所有hdfs服务正在hdfs用户uid:6001 gid:6001组:hadoop下运行。 这是我在namenode上看到的错误: 2014-10-16 15:52:28,066 WARN [IPC Server handler 4 on 8020] blockmanagement.DatanodeManager (DatanodeManager.java:registerDatanode(738)) – Unresolved datanode registration from 172.31.1.166 2014-10-16 15:52:28,067 ERROR [IPC Server handler 4 on 8020] security.UserGroupInformation (UserGroupInformation.java:doAs(1494)) – PriviledgedActionException as:hdfs (auth:SIMPLE) cause:org.apache.hadoop.hdfs.server.protocol.DisallowedDatanodeException: Datanode denied communication with namenode: DatanodeRegistration(0.0.0.0, storageID=DS-300514933-172.31.1.166-50010-1413489147639, infoPort=50075, ipcPort=50020, storageInfo=lv=-47;cid=CID-41426277-e1f8-4154-8189-a0b556231333;nsid=900398376;c=0) 2014-10-16 15:52:28,068 INFO [IPC Server […]