Tag: apache spark

火花工人的WebUI访问

我们有一个由docker swarm构build的集群,由1个Manager 3 Worker节点组成。 可以看出: 我们在集群上运行Apache Spark。 它由一个主人和四个工人组成。 它被视为在主networking用户界面上 问题是我不能访问工作节点的细节。 它想连接到一个IP(10.0.0.5:8081)。 但是我无法从我的本地机器访问链接。

在Windows 7上运行Hydrosphere Mist Docker

我是新来的docker,我正在尝试通过Docker Toolbox命名为Hydrosphere Mist这个实用工具。我已经启动了下面的链接下面的容器 运行火花2.1.1的薄雾泊坞窗 utkarsh.saraf@P5-GL2KXXX MINGW64 ~ $ docker ps CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES c499be9d26ae hydrosphere/mist:0.13.3-2.1.1 "/docker-entrypoin…" 9 minutes ago Up 9 minutes 0.0.0.0:2004->2004/tcp awesome_mestorf docker的属性如下: utkarsh.saraf@P5-XXXXXXX MINGW64 ~ $ env | grep DOCKER DOCKER_MACHINE_NAME=default DOCKER_CERT_PATH=C:\Users\utkarsh.saraf\.docker\machine\machines\default DOCKER_TLS_VERIFY=1 DOCKER_HOST=tcp://XXX.XXX.XX.XXX:XXXX DOCKER_TOOLBOX_INSTALL_PATH=C:\Program Files\Docker Toolbox 如上所述,当我尝试在Internet Explorer中访问URL时,没有输出。 http:// localhost:2004 。 我在这里错过了什么?

Docker容器上的Spark包

我正在构build一个连接到HBase的Docker化Spark集群。 我想使用Hortonwork shc软件包来pipe理连接。 我可以通过使用带有必要的–repository标志的–packages标志来包含这个包(这个插件不在sbt中)。 这工作正常,但每当容器重新启动时重新下载包。 非理想。 –packages上的–packages标志在哪里下载jar和依赖关系? 下载后拍快照并没有工作,我怀疑是因为我需要使用–classpath添加jar。

火花提交到docker集装箱

我使用这个存储库和相关的README.md文件创build了Spark Cluster。 现在我试图通过spark-submit来执行一个作业到Spark Master的docker容器,所以我使用的命令是类似的: /path/bin/spark-submit –class uk.ac.ncl.NGS_SparkGATK.Pipeline \ –master spark://spark-master:7077 NGS-SparkGATK.jar HelloWorld 现在的问题是,我收到Failed to connect to master spark-master:7077 我试过任何组合:容器IP,容器ID,容器名称,本地主机,0.0.0.0,127.0.0.1,但我总是收到相同的错误。 而如果我使用 – –master local[*]的工作。 我错过了什么?

运行在Docker容器内的纱线容器

在Docker容器中运行yarn nodemanagers时,我有一些关于资源分配的问题。 docker和yarn都使用cgroups来pipe理cpu资源。 我的理解是, cgroups不会将cpus专用于进程,而是将cpu时间用于进程。 如果一个纱线集装箱在docker集装箱内运行,则有2个limits 。 一个用于纱线容器,另一个用于docker集装箱。 由于我们正在处理的时间段,而不是专门的计划,有可能内部limit和外部limit是相互不同步的? 还是内部容器可以直接访问节点内核,并可以分配自己的CPU limit 。 任何关于此的文档将不胜感激,因为我无法在网上find任何东西。 我担心的是,如果在docker集装箱上有6个硬件CPU limit ,那么运行分配3个虚拟CPU的单个纱线容器实际上并不会获得3个虚拟CPU资源,因为时隙在内部和外部外部容器。

用纱线进行火花聚类

我想用纱线进行火花聚类。 我需要 安装hadoop主和从属纱configuration? 分别安装hadoop主站/从站和主站/从站? 如果1没问题,我将使用这个docker镜像( 链接 )。 这适合吗?

以dock swarm模式通过docker-compose部署Spark集群

我正在尝试使用docker-compose文件在这里定义的docker swarm模式下工作的机器部署我的apache spark集群。 我正在调用docker stack deploy -c compose-file.yml spark_cluster在我的dockerswarmpipe理器机器部署我的服务定义,但我得到以下情况时,我打docker stack ps spark_cluster : ID NAME IMAGE NODE DESIRED STATE CURRENT STATE ERROR PORTS iy255fvx5ub8 spark_cluster_master.1 sauloricci/docker-spark:latest manager-swarm Running Running 20 seconds ago mrr6p9dmodh5 \_ spark_cluster_master.1 sauloricci/docker-spark:latest worker2-swarm Shutdown Rejected 35 seconds ago "invalid mount config for type " u1daipeekanv \_ spark_cluster_master.1 sauloricci/docker-spark:latest worker2-swarm Shutdown Rejected […]

docker-compose v3 + apache spark,端口7077拒绝连接

我不确定这是100%编程还是系统pipe理员相关的问题。 我正在尝试在docker-swarm版本3中设置一个docker-compose文件,docker version 1.13为我的本地工作streamtestingspark。 不幸的是,端口7077只会绑定到我的swarm集群上的本地主机,因此无法从外部世界访问,我的星际应用程序试图连接到它。 有没有人有一个想法,如何得到docker组成群模式绑定到所有接口? 我发布我的端口,这工作正常说8080,但不是7070。 nmap输出: Starting Nmap 7.01 ( https://nmap.org ) at 2017-03-02 11:27 PST Nmap scan report for localhost (127.0.0.1) Host is up (0.000096s latency). Other addresses for localhost (not scanned): ::1 Not shown: 994 closed ports PORT STATE SERVICE 22/tcp open ssh 80/tcp open http 443/tcp open https 8080/tcp open […]

docker集装箱映射到相同的端口

我试图设置一个火花集群使用这个链接 – https://github.com/actionml/docker-spark 当我创build我的容器(2-worker和1-master)时,我看到所有的端口映射到主机上的相同端口。 我想知道如何访问我的主networking用户界面的火花? CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES b54c5fd1442c actionml/spark "/entrypoint.sh wo…" 2 minutes ago Up 2 minutes 4040/tcp, 6066/tcp, 7001-7006/tcp, 7077/tcp, 8080-8081/tcp spark-worker1 2c987a057223 actionml/spark "/entrypoint.sh wo…" 3 minutes ago Up 3 minutes 4040/tcp, 6066/tcp, 7001-7006/tcp, 7077/tcp, 8080-8081/tcp spark-worker0 b1d34441507e actionml/spark "/entrypoint.sh ma…" 9 minutes ago Up 9 minutes […]

从运行Spark的另一个Docker容器写入Docker中运行的HDFS

我有一个spark + jupyter的docker镜像( https://github.com/zipfian/spark-install ) 我有另外一个hadoop的docker镜像。 ( https://github.com/kiwenlau/hadoop-cluster-docker ) 我在Ubuntu上面的2个镜像中运行2个容器。 对于第一个容器:我能够成功启动jupyter并运行python代码: import pyspark sc = pyspark.sparkcontext('local[*]') rdd = sc.parallelize(range(1000)) rdd.takeSample(False,5) 对于第二个容器: 在主机Ubuntu操作系统,我能够成功地去 web浏览器localhost:8088:然后浏览Hadoop的所有应用程序 localhost:50070:并浏览HDFS文件系统。 现在我想从jupyter(运行在第一个容器中)写入HDFS文件系统(在第二个容器中运行)。 所以我添加额外的行 rdd.saveAsTextFile("hdfs:///user/root/input/test") 我得到的错误: HDFS URI,无主机:hdfs:/// user / root / input / test 我不正确地给hdfspath? 我的理解是,我应该能够与另一个运行spark的容器运行hdfs的docker容器通信。 我错过了什么? 谢谢你的时间。 我还没有尝试docker撰写。