Tag: hadoop

火花提交到docker集装箱: 我使用这个存储库和相关的README.md文件创build了Spark Cluster。现在我试图通过spark-submit来执行一个作业到Spark Master的docker容器，所以我使用的命令是类似的： /path/bin/spark-submit –class uk.ac.ncl.NGS_SparkGATK.Pipeline \ –master spark://spark-master:7077 NGS-SparkGATK.jar HelloWorld 现在的问题是，我收到Failed to connect to master spark-master:7077 我试过任何组合：容器IP，容器ID，容器名称，本地主机，0.0.0.0,127.0.0.1，但我总是收到相同的错误。而如果我使用 – –master local[*]的工作。我错过了什么？

错误：scheme没有FileSystem：hdfs（Docker）: 我正在收到错误： No FileSystem for scheme: hdfs在Docker容器中试图运行hadoop fs -ls 我卷本地计算机的/etc/hadoop/conf目录，所以configuration是相同的。我没有问题在我的本地机器上运行hadooop fs -ls命令。类似的答案没有帮助，因为它们没有解决主机/docker问题。我在CentOS 7上运行。

运行在Docker容器内的纱线容器: 在Docker容器中运行yarn nodemanagers时，我有一些关于资源分配的问题。 docker和yarn都使用cgroups来pipe理cpu资源。我的理解是， cgroups不会将cpus专用于进程，而是将cpu时间用于进程。如果一个纱线集装箱在docker集装箱内运行，则有2个limits 。一个用于纱线容器，另一个用于docker集装箱。由于我们正在处理的时间段，而不是专门的计划，有可能内部limit和外部limit是相互不同步的？还是内部容器可以直接访问节点内核，并可以分配自己的CPU limit 。任何关于此的文档将不胜感激，因为我无法在网上find任何东西。我担心的是，如果在docker集装箱上有6个硬件CPU limit ，那么运行分配3个虚拟CPU的单个纱线容器实际上并不会获得3个虚拟CPU资源，因为时隙在内部和外部外部容器。

无法通过Ambari中pipe理员的默认login凭证进行login: 两个星期前，我在一台带有8GB RAM的机器的linode云服务器上安装了hortonworks沙箱。我通过Putty访问Linode的这个节点。一切工作正常。另外，我可以通过默认的login凭证（如“maria_dev”，“raj_ops”，“holger_gov”和“amy_ds”）loginAmbari。但是我无法通过admin的默认login凭据login。我想我忘记了密码。由于我是这个框架的新手，我无法恢复密码。在命令行中，我尝试了以下命令： ambari-server重新启动 ambaripipe理员密码重置但每一次，我得到的命令未find错误。有人可以帮我恢复密码吗？或帮助我通过pipe理员的login凭据login？

是否有可能在docker文件的中间执行CMD？: 我正在使用docker安装hadoop-0.20.2。我有两个文件一个用于Java安装，另一个用于hadoop安装。我正在使用CMD命令启动服务 cmd ["path/to/start-all.sh"] 现在，我想写第三个dockerfile执行一个示例Map-Reduce作业。但问题是第三个docker文件依赖于第二个hadoop-docker文件。例如： FROM sec_doc_file RUN /bin/hadoop fs -mkdir input 它需要hadoop服务。但hadoop服务只有在运行第二个docker文件后才能启动。但是我想在启动MR作业之前将它作为第三个docker文件的一部分运行？可能吗？如果是这样，请举个例子。如果不是，其他的可能性是什么？ #something like From sec_doc_file #Start_Service RUN /bin/hadoop fs -mkdir input #continue_map_reduce_job

docker问题与Hadoop + hbase设置: 我为hadoop和hbase设置了Docker容器，没有问题。我现在试图把它们放在一起，并使用docker-compose按顺序运行它们。 version: '2' services: hadoop: image: hadoop:2.6 container_name: hadoop-compose ports: – "50070:50070" hbase: image: hbase:0.98 container_name: hbase-compose ports: – "9000:9000" command: bash -c "while ! nc -v -z -w 3 172.17.0.2 50070; do echo waiting for hadoop; sleep 5; done; sh /opt/hbase-server.sh" depends_on: – hadoop links: – hadoop 我希望hbase在hadoop完成后初始化。为此，我定义了一个简单的命令来ping Hadoop容器，如果成功，就继续运行hbase-server脚本。我不明白为什么hbase容器不能ping Hadoop，而是抛出这个错误 nc：连接到172.17.0.2端口50070（tcp）超时：正在进行操作 […]

用纱线进行火花聚类: 我想用纱线进行火花聚类。我需要安装hadoop主和从属纱configuration？分别安装hadoop主站/从站和主站/从站？如果1没问题，我将使用这个docker镜像（链接）。这适合吗？

Datanode拒绝与namenode进行通信，因为主机名无法parsing: 我在kubernetes中运行了一个hadoop集群，有4个journalnode和2个namenode。有时，我的datanode不能注册到namenode。 17/06/08 07:45:32 INFO datanode.DataNode: Block pool BP-541956668-10.100.81.42-1496827795971 (Datanode Uuid null) service to hadoop-namenode-0.myhadoopcluster/10.100.81.42:8020 beginning handshake with NN 17/06/08 07:45:32 ERROR datanode.DataNode: Initialization failed for Block pool BP-541956668-10.100.81.42-1496827795971 (Datanode Uuid null) service to hadoop-namenode-0.myhadoopcluster/10.100.81.42:8020 Datanode denied communication with namenode because hostname cannot be resolved (ip=10.100.9.45, hostname=10.100.9.45): DatanodeRegistration(0.0.0.0:50010, datanodeUuid=b1babba6-9a6f-40dc-933b-08885cbd358e, infoPort=50075, infoSecurePort=0, ipcPort=50020, storageInfo=lv=-56;cid=CID-bceaa23f-ba3d-4749-a542-74cda1e82e07;nsid=177502984;c=0) at org.apache.hadoop.hdfs.server.blockmanagement.DatanodeManager.registerDatanode(DatanodeManager.java:863) […]

Docker容器中的ntpd服务已死，无法重新启动: 我正在尝试使用docker和ambari安装一个本地的hadoop集群，问题是im ambari安装检查显示NTP没有运行，并且需要知道安装了ambari的服务是否正在运行。我检查了容器中的ntpd并试图启动它们，但是失败了 [root@97ea7075ca78 ~]# service ntpd start Starting ntpd: [ OK ] [root@97ea7075ca78 ~]# service ntpd status ntpd dead but pid file exists 有没有办法在这些容器中启动ntp守护进程？

Docker容器独立运行，但在kubernetes中失败: 我有docker容器（Hadoop安装https://github.com/kiwenlau/hadoop-cluster-docker ），我可以使用sudo docker run -itd -p 50070:50070 -p 8088:8088 –name hadoop-master kiwenlau/hadoop:1.0命令没有任何问题，但是当试图将相同的映像部署到kubernetes时，pod无法启动。为了创build部署，我使用kubectl run hadoop-master –image=kiwenlau/hadoop:1.0 –port=8088 –port=50070 command 这里描述pod命令的日志 Events: FirstSeen LastSeen Count From SubObjectPath Type Reason Message ——— ——– —– —- ————- ——– —— ——- 6m 6m 1 default-scheduler Normal Scheduled Successfully assigned hadoop-master-2828539450-rnwsd to gke-mtd-cluster-default-pool-6b97d4d0-hcbt 6m 6m 1 kubelet, gke-mtd-cluster-default-pool-6b97d4d0-hcbt spec.containers{hadoop-master} Normal […]