Tag: apache spark

火花工人的WebUI访问: 我们有一个由docker swarm构build的集群，由1个Manager 3 Worker节点组成。可以看出：我们在集群上运行Apache Spark。它由一个主人和四个工人组成。它被视为在主networking用户界面上问题是我不能访问工作节点的细节。它想连接到一个IP（10.0.0.5:8081）。但是我无法从我的本地机器访问链接。

在Windows 7上运行Hydrosphere Mist Docker: 我是新来的docker，我正在尝试通过Docker Toolbox命名为Hydrosphere Mist这个实用工具。我已经启动了下面的链接下面的容器运行火花2.1.1的薄雾泊坞窗 utkarsh.saraf@P5-GL2KXXX MINGW64 ~ $ docker ps CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES c499be9d26ae hydrosphere/mist:0.13.3-2.1.1 "/docker-entrypoin…" 9 minutes ago Up 9 minutes 0.0.0.0:2004->2004/tcp awesome_mestorf docker的属性如下： utkarsh.saraf@P5-XXXXXXX MINGW64 ~ $ env | grep DOCKER DOCKER_MACHINE_NAME=default DOCKER_CERT_PATH=C:\Users\utkarsh.saraf\.docker\machine\machines\default DOCKER_TLS_VERIFY=1 DOCKER_HOST=tcp://XXX.XXX.XX.XXX:XXXX DOCKER_TOOLBOX_INSTALL_PATH=C:\Program Files\Docker Toolbox 如上所述，当我尝试在Internet Explorer中访问URL时，没有输出。 http：// localhost：2004 。我在这里错过了什么？

Docker容器上的Spark包: 我正在构build一个连接到HBase的Docker化Spark集群。我想使用Hortonwork shc软件包来pipe理连接。我可以通过使用带有必要的–repository标志的–packages标志来包含这个包（这个插件不在sbt中）。这工作正常，但每当容器重新启动时重新下载包。非理想。 –packages上的–packages标志在哪里下载jar和依赖关系？下载后拍快照并没有工作，我怀疑是因为我需要使用–classpath添加jar。

火花提交到docker集装箱: 我使用这个存储库和相关的README.md文件创build了Spark Cluster。现在我试图通过spark-submit来执行一个作业到Spark Master的docker容器，所以我使用的命令是类似的： /path/bin/spark-submit –class uk.ac.ncl.NGS_SparkGATK.Pipeline \ –master spark://spark-master:7077 NGS-SparkGATK.jar HelloWorld 现在的问题是，我收到Failed to connect to master spark-master:7077 我试过任何组合：容器IP，容器ID，容器名称，本地主机，0.0.0.0,127.0.0.1，但我总是收到相同的错误。而如果我使用 – –master local[*]的工作。我错过了什么？

运行在Docker容器内的纱线容器: 在Docker容器中运行yarn nodemanagers时，我有一些关于资源分配的问题。 docker和yarn都使用cgroups来pipe理cpu资源。我的理解是， cgroups不会将cpus专用于进程，而是将cpu时间用于进程。如果一个纱线集装箱在docker集装箱内运行，则有2个limits 。一个用于纱线容器，另一个用于docker集装箱。由于我们正在处理的时间段，而不是专门的计划，有可能内部limit和外部limit是相互不同步的？还是内部容器可以直接访问节点内核，并可以分配自己的CPU limit 。任何关于此的文档将不胜感激，因为我无法在网上find任何东西。我担心的是，如果在docker集装箱上有6个硬件CPU limit ，那么运行分配3个虚拟CPU的单个纱线容器实际上并不会获得3个虚拟CPU资源，因为时隙在内部和外部外部容器。

用纱线进行火花聚类: 我想用纱线进行火花聚类。我需要安装hadoop主和从属纱configuration？分别安装hadoop主站/从站和主站/从站？如果1没问题，我将使用这个docker镜像（链接）。这适合吗？

以dock swarm模式通过docker-compose部署Spark集群: 我正在尝试使用docker-compose文件在这里定义的docker swarm模式下工作的机器部署我的apache spark集群。我正在调用docker stack deploy -c compose-file.yml spark_cluster在我的dockerswarmpipe理器机器部署我的服务定义，但我得到以下情况时，我打docker stack ps spark_cluster ： ID NAME IMAGE NODE DESIRED STATE CURRENT STATE ERROR PORTS iy255fvx5ub8 spark_cluster_master.1 sauloricci/docker-spark:latest manager-swarm Running Running 20 seconds ago mrr6p9dmodh5 \_ spark_cluster_master.1 sauloricci/docker-spark:latest worker2-swarm Shutdown Rejected 35 seconds ago "invalid mount config for type " u1daipeekanv \_ spark_cluster_master.1 sauloricci/docker-spark:latest worker2-swarm Shutdown Rejected […]

docker-compose v3 + apache spark，端口7077拒绝连接: 我不确定这是100％编程还是系统pipe理员相关的问题。我正在尝试在docker-swarm版本3中设置一个docker-compose文件，docker version 1.13为我的本地工作streamtestingspark。不幸的是，端口7077只会绑定到我的swarm集群上的本地主机，因此无法从外部世界访问，我的星际应用程序试图连接到它。有没有人有一个想法，如何得到docker组成群模式绑定到所有接口？我发布我的端口，这工作正常说8080，但不是7070。 nmap输出： Starting Nmap 7.01 ( https://nmap.org ) at 2017-03-02 11:27 PST Nmap scan report for localhost (127.0.0.1) Host is up (0.000096s latency). Other addresses for localhost (not scanned): ::1 Not shown: 994 closed ports PORT STATE SERVICE 22/tcp open ssh 80/tcp open http 443/tcp open https 8080/tcp open […]

docker集装箱映射到相同的端口: 我试图设置一个火花集群使用这个链接 – https://github.com/actionml/docker-spark 当我创build我的容器（2-worker和1-master）时，我看到所有的端口映射到主机上的相同端口。我想知道如何访问我的主networking用户界面的火花？ CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES b54c5fd1442c actionml/spark "/entrypoint.sh wo…" 2 minutes ago Up 2 minutes 4040/tcp, 6066/tcp, 7001-7006/tcp, 7077/tcp, 8080-8081/tcp spark-worker1 2c987a057223 actionml/spark "/entrypoint.sh wo…" 3 minutes ago Up 3 minutes 4040/tcp, 6066/tcp, 7001-7006/tcp, 7077/tcp, 8080-8081/tcp spark-worker0 b1d34441507e actionml/spark "/entrypoint.sh ma…" 9 minutes ago Up 9 minutes […]

从运行Spark的另一个Docker容器写入Docker中运行的HDFS: 我有一个spark + jupyter的docker镜像（ https://github.com/zipfian/spark-install ）我有另外一个hadoop的docker镜像。（ https://github.com/kiwenlau/hadoop-cluster-docker ）我在Ubuntu上面的2个镜像中运行2个容器。对于第一个容器：我能够成功启动jupyter并运行python代码： import pyspark sc = pyspark.sparkcontext('local[*]') rdd = sc.parallelize(range(1000)) rdd.takeSample(False,5) 对于第二个容器：在主机Ubuntu操作系统，我能够成功地去 web浏览器localhost：8088：然后浏览Hadoop的所有应用程序 localhost：50070：并浏览HDFS文件系统。现在我想从jupyter（运行在第一个容器中）写入HDFS文件系统（在第二个容器中运行）。所以我添加额外的行 rdd.saveAsTextFile("hdfs:///user/root/input/test") 我得到的错误： HDFS URI，无主机：hdfs：/// user / root / input / test 我不正确地给hdfspath？我的理解是，我应该能够与另一个运行spark的容器运行hdfs的docker容器通信。我错过了什么？谢谢你的时间。我还没有尝试docker撰写。