Tag: hadoop

火花提交到docker集装箱

我使用这个存储库和相关的README.md文件创build了Spark Cluster。 现在我试图通过spark-submit来执行一个作业到Spark Master的docker容器,所以我使用的命令是类似的: /path/bin/spark-submit –class uk.ac.ncl.NGS_SparkGATK.Pipeline \ –master spark://spark-master:7077 NGS-SparkGATK.jar HelloWorld 现在的问题是,我收到Failed to connect to master spark-master:7077 我试过任何组合:容器IP,容器ID,容器名称,本地主机,0.0.0.0,127.0.0.1,但我总是收到相同的错误。 而如果我使用 – –master local[*]的工作。 我错过了什么?

错误:scheme没有FileSystem:hdfs(Docker)

我正在收到错误: No FileSystem for scheme: hdfs在Docker容器中试图运行hadoop fs -ls 我卷本地计算机的/etc/hadoop/conf目录,所以configuration是相同的。 我没有问题在我的本地机器上运行hadooop fs -ls命令。 类似的答案没有帮助,因为它们没有解决主机/docker问题。 我在CentOS 7上运行。

运行在Docker容器内的纱线容器

在Docker容器中运行yarn nodemanagers时,我有一些关于资源分配的问题。 docker和yarn都使用cgroups来pipe理cpu资源。 我的理解是, cgroups不会将cpus专用于进程,而是将cpu时间用于进程。 如果一个纱线集装箱在docker集装箱内运行,则有2个limits 。 一个用于纱线容器,另一个用于docker集装箱。 由于我们正在处理的时间段,而不是专门的计划,有可能内部limit和外部limit是相互不同步的? 还是内部容器可以直接访问节点内核,并可以分配自己的CPU limit 。 任何关于此的文档将不胜感激,因为我无法在网上find任何东西。 我担心的是,如果在docker集装箱上有6个硬件CPU limit ,那么运行分配3个虚拟CPU的单个纱线容器实际上并不会获得3个虚拟CPU资源,因为时隙在内部和外部外部容器。

无法通过Ambari中pipe理员的默认login凭证进行login

两个星期前,我在一台带有8GB RAM的机器的linode云服务器上安装了hortonworks沙箱 。 我通过Putty访问Linode的这个节点。 一切工作正常。 另外,我可以通过默认的login凭证(如“maria_dev”,“raj_ops”,“holger_gov”和“amy_ds”)loginAmbari。 但是我无法通过admin的默认login凭据login。 我想我忘记了密码。 由于我是这个框架的新手,我无法恢复密码。 在命令行中,我尝试了以下命令: ambari-server重新启动 ambaripipe理员密码重置 但每一次,我得到的命令未find错误。 有人可以帮我恢复密码吗? 或帮助我通过pipe理员的login凭据login?

是否有可能在docker文件的中间执行CMD?

我正在使用docker安装hadoop-0.20.2。 我有两个文件一个用于Java安装,另一个用于hadoop安装。 我正在使用CMD命令启动服务 cmd ["path/to/start-all.sh"] 现在,我想写第三个dockerfile执行一个示例Map-Reduce作业。 但问题是 第三个docker文件依赖于第二个hadoop-docker文件。 例如: FROM sec_doc_file RUN /bin/hadoop fs -mkdir input 它需要hadoop服务。 但hadoop服务只有在运行第二个docker文件后才能启动。 但是我想在启动MR作业之前将它作为第三个docker文件的一部分运行? 可能吗? 如果是这样,请举个例子。 如果不是,其他的可能性是什么? #something like From sec_doc_file #Start_Service RUN /bin/hadoop fs -mkdir input #continue_map_reduce_job

docker问题与Hadoop + hbase设置

我为hadoop和hbase设置了Docker容器,没有问题。 我现在试图把它们放在一起,并使用docker-compose按顺序运行它们。 version: '2' services: hadoop: image: hadoop:2.6 container_name: hadoop-compose ports: – "50070:50070" hbase: image: hbase:0.98 container_name: hbase-compose ports: – "9000:9000" command: bash -c "while ! nc -v -z -w 3 172.17.0.2 50070; do echo waiting for hadoop; sleep 5; done; sh /opt/hbase-server.sh" depends_on: – hadoop links: – hadoop 我希望hbase在hadoop完成后初始化。 为此,我定义了一个简单的命令来ping Hadoop容器,如果成功,就继续运行hbase-server脚本。 我不明白为什么hbase容器不能ping Hadoop,而是抛出这个错误 nc:连接到172.17.0.2端口50070(tcp)超时:正在进行操作 […]

用纱线进行火花聚类

我想用纱线进行火花聚类。 我需要 安装hadoop主和从属纱configuration? 分别安装hadoop主站/从站和主站/从站? 如果1没问题,我将使用这个docker镜像( 链接 )。 这适合吗?

Datanode拒绝与namenode进行通信,因为主机名无法parsing

我在kubernetes中运行了一个hadoop集群,有4个journalnode和2个namenode。 有时,我的datanode不能注册到namenode。 17/06/08 07:45:32 INFO datanode.DataNode: Block pool BP-541956668-10.100.81.42-1496827795971 (Datanode Uuid null) service to hadoop-namenode-0.myhadoopcluster/10.100.81.42:8020 beginning handshake with NN 17/06/08 07:45:32 ERROR datanode.DataNode: Initialization failed for Block pool BP-541956668-10.100.81.42-1496827795971 (Datanode Uuid null) service to hadoop-namenode-0.myhadoopcluster/10.100.81.42:8020 Datanode denied communication with namenode because hostname cannot be resolved (ip=10.100.9.45, hostname=10.100.9.45): DatanodeRegistration(0.0.0.0:50010, datanodeUuid=b1babba6-9a6f-40dc-933b-08885cbd358e, infoPort=50075, infoSecurePort=0, ipcPort=50020, storageInfo=lv=-56;cid=CID-bceaa23f-ba3d-4749-a542-74cda1e82e07;nsid=177502984;c=0) at org.apache.hadoop.hdfs.server.blockmanagement.DatanodeManager.registerDatanode(DatanodeManager.java:863) […]

Docker容器中的ntpd服务已死,无法重新启动

我正在尝试使用docker和ambari安装一个本地的hadoop集群,问题是im ambari安装检查显示NTP没有运行,并且需要知道安装了ambari的服务是否正在运行。 我检查了容器中的ntpd并试图启动它们,但是失败了 [root@97ea7075ca78 ~]# service ntpd start Starting ntpd: [ OK ] [root@97ea7075ca78 ~]# service ntpd status ntpd dead but pid file exists 有没有办法在这些容器中启动ntp守护进程?

Docker容器独立运行,但在kubernetes中失败

我有docker容器(Hadoop安装https://github.com/kiwenlau/hadoop-cluster-docker ),我可以使用sudo docker run -itd -p 50070:50070 -p 8088:8088 –name hadoop-master kiwenlau/hadoop:1.0命令没有任何问题,但是当试图将相同的映像部署到kubernetes时,pod无法启动。 为了创build部署,我使用kubectl run hadoop-master –image=kiwenlau/hadoop:1.0 –port=8088 –port=50070 command 这里描述pod命令的日志 Events: FirstSeen LastSeen Count From SubObjectPath Type Reason Message ——— ——– —– —- ————- ——– —— ——- 6m 6m 1 default-scheduler Normal Scheduled Successfully assigned hadoop-master-2828539450-rnwsd to gke-mtd-cluster-default-pool-6b97d4d0-hcbt 6m 6m 1 kubelet, gke-mtd-cluster-default-pool-6b97d4d0-hcbt spec.containers{hadoop-master} Normal […]