Tag: apache spark

有没有适用于多节点集群部署的Apache Spark 2.0.0公共Docker镜像？: 寻找Apache Spark 2.0.0 Docker镜像可以从任何公共的repo中获取，支持集群。

禁用Spark master检查主机名是否相等: 我有一个在Docker容器中运行的Spark-master，而该容器又在远程服务器上执行。在Spark-master旁边，在同一个Docker主机上有运行Spark-Slave的容器。 Server <—> Docker Host <—> Docker Container 为了让从服务器find主服务器，我在Docker SPARKMASTER设置了一个主服务器主机名，从服务器用来连接主服务器。到现在为止还挺好。我使用SPARK_MASTER_IP环境variables让主人绑定到这个名字。我还将Spark端口7077暴露给Docker主机，并在物理服务器主机上转发此端口。港口是开放的和可用的。现在在我的机器上，我可以使用它的IP连接到服务器，比如192.168.1.100。当我的Spark程序连接到端口7077上的服务器时，我得到一个连接，这个连接与主服务器分离： 15/10/09 17:13:47 INFO AppClient$ClientEndpoint: Connecting to master spark://192.168.1.100:7077… 15/10/09 17:13:47 WARN ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkMaster@192.168.1.100:7077] has failed, address is now gated for [5000] ms. Reason: [Disassociated] 我已经知道这个断开的原因是主机IP 192.168.1.100与主机名SPARKMASTER不匹配。我可以添加一个主机到我的/ etc / hosts文件，这可能会工作。但我不想这样做。有没有办法可以完全禁用这个检查主机名相等？

Windows中的Neo4j Mazerunner的逐步安装指南: 我想通过Mazerunner使用可用于Neo4j的Spark-graphX软件包，但是我是分析师，而不是软件人员。我在我的笔记本电脑和Neo4j 2.3.0上运行Windows 7，并且想要一步一步地解释如何为社区和企业设置Mazerunner。有很多提及docker和容器，我不知道这是什么，或者如何设置它们。简单的指示将会非常有帮助！ 🙂

在Spark独立模式下运行Spark作业服务器时出现exception: 我正在尝试Spark作业服务器 – 特别是泊坞窗容器选项。我能够以spark本地模式运行WordCountExample应用程序。不过，当我试图将应用程序指向远程Spark主机时，我遇到了一个exception。以下是我用来运行WordCountExample应用程序的命令： 1. sudo docker run -d -p 8090:8090 -e SPARK_MASTER=spark://10.501.502.503:7077 velvia/spark-jobserver:0.6.0 2. sbt job-server-tests/package 3. curl –data-binary @job-server-tests/target/scala-2.10/job-server-tests_2.10-0.6.2-SNAPSHOT.jar localhost:8090/jars/test 4. curl -d "input.string = abcab see" 'localhost:8090/jobs?appName=test&classPath=spark.jobserver.WordCountExample' 以下是我在上面运行第4步时遇到的exception情况： { "status": "ERROR", "result": { "message": "Futures timed out after [15 seconds]", "errorClass": "java.util.concurrent.TimeoutException", "stack": ["scala.concurrent.impl.Promise$DefaultPromise.ready(Promise.scala:219)", "scala.concurrent.impl.Promise$DefaultPromise.result(Promise.scala:223)", "scala.concurrent.Await$$anonfun$result$1.apply(package.scala:107)", "akka.dispatch.MonitorableThreadFactory$AkkaForkJoinWorkerThread$$anon$3.block(ThreadPoolBuilder.scala:169)", "scala.concurrent.forkjoin.ForkJoinPool.managedBlock(ForkJoinPool.java:3640)", "akka.dispatch.MonitorableThreadFactory$AkkaForkJoinWorkerThread.blockOn(ThreadPoolBuilder.scala:167)", "akka.dispatch.BatchingExecutor$Batch.blockOn(BatchingExecutor.scala:101)", […]

在Docker上拒绝Spark的连接: 我在OSX El Capitan上使用Docker 1.9和Docker Machine，我试图使用下面的命令运行一个spark容器： docker run -d -p 8090:8090 -p 9999:9999 -p 6001-6006:6001-6006 -p 4040:4040 –name sjs –restart=always –net="host" -e SPARK_MASTER=local[4] -e DEFAULT_CORES_PER_CONTEXT=4 -e DEFAULT_MEM_PER_CONTEXT=512m vfiump/spark-jobserver 问题：我无法使用给定的IP访问火花Web UI。当我尝试远程login到docker机器和端口8090的IP时，它发出连接拒绝错误。 docker restart sjs只是卡住没有反应。请注意，ping IP是成功的。 “docker ps”显示容器已经打开。这也发生在Cassandra图像上。我对Docker有点新鲜。那么我在这里错过了什么？

我怎样才能在DockerFile中定义我的ENVvariables，并将其传递给由supervisord托pipe脚本提交的spark图像？: 我正在构build一些Docker Spark图像，对于如何将DockerFile中定义的环境（ENV）variables一直向下传递到容器，通过“run -e”进入supervisord，然后进入spark，我有点困惑- 提交shell，而不必在supervisord.conf文件中再次对它们进行硬编码（这似乎是在这里有点类似的build议： supervisord环境variables设置应用程序）。为了帮助解释，想象下面的组件： DockerFile（包含大约20个环境variables“ENV FOO1 bar1”等） run.sh（docker run -d -e my_spark_program） conf / supervisord.conf（[program：my_spark_program] command = sh /opt/spark/sbin/submit_my_spark_program.sh等） submit_my_spark_program.sh（包含我想运行的jar的spark提交 – 可能还需要类似–files•–conf'spark.executor.extraJavaOptions = -Dconfig.resource = app'•–conf'spark。 driver.extraJavaOptions = -Dconfig.resource = app'，但是这看起来不太合适？）我想我想在DockerFile中定义我的ENVvariables一次，并且我认为应该可以通过使用“-e”开关的run.sh将它们传递到容器中，但是我似乎无法了解如何将它们从那里传递到supervisord和超出spark-submit shell（submit_my_spark_program.sh），以便它们最终可用于我的spark提交的jar文件。这似乎有点过度devise，所以也许我在这里失去了一些东西…？

Spark Docker – 无法访问资源pipe理器的Web UI – Mac PC: 无法访问资源pipe理器Web UI – Spark Docker容器 – Mac PC 这些是我做的步骤： docker拉序列号/火花：1.6.0 docker run -it -p 8088：8088 -p 8042：8042 -p 4040：4040 -h sandbox sequenceiq / spark：1.6.0 bash 我使用这个testing:(运行良好）运行火花shell 火花shell\ – 主纱客户端\ – 驱动程序内存1克\ –executor内存1克\ –executor核心1 执行下面的命令应该返回1000 scala> sc.parallelize（1 to 1000）.count（）但是不能访问web ui：我试过了：一个。：8088 b： http：// sandbox：8088 / proxy / application_1458858022274_0002 / A c：localhost：8088 没有任何作品..任何帮助？ […]

docker parquet error中的Spark未find预定义的模式: 我有一个基于https://github.com/gettyimages/docker-spark的本地火花testing集群，其中包括R.特别是，这个图像被使用： https : //hub.docker.com/r/possibly/spark/ 尝试使用sparkR读取parquet文件时，会发生此exception。读取地板文件在本地火花设备上没有任何问题。 myData.parquet <- read.parquet(sqlContext, "/mappedFolder/myFile.parquet") 16/03/29 20:36:02 ERROR RBackendHandler: parquet on 4 failed Fehler in invokeJava(isStatic = FALSE, objId$id, methodName, …) : java.lang.AssertionError: assertion failed: No predefined schema found, and no Parquet data files or summary files found under file:/mappedFolder/myFile.parquet. at scala.Predef$.assert(Predef.scala:179) at org.apache.spark.sql.execution.datasources.parquet.ParquetRelation$MetadataCache.org$apache$spark$sql$execution$datasources$parquet$ParquetRelation$MetadataCache$$readSchema(ParquetRelation.scala:512) at org.apache.spark.sql.execution.datasources.parquet.ParquetRelation$MetadataCache$$anonfun$12.apply(ParquetRelation.scala:421) at org.apache.spark.sql.execution.datasources.parquet.ParquetRelation$MetadataCache$$anonfun$12.apply(ParquetRelation.scala:421) at scala.Option.orElse(Option.scala:257) […]

我可以在docker中设置一个远程的spark服务器，以便我可以在本地进行通信吗？: 我已经在Amazon EC2上安装了Docker镜像： sudo apt-get update sudo apt-get install apt-transport-https ca-certificates sudo apt-key adv –keyserver hkp://p80.pool.sks-keyservers.net:80 –recv-keys 58118E89F3A912897C070ADBF76221572C52609D sudo sh -c 'echo "deb https://apt.dockerproject.org/repo ubuntu-trusty main" > /etc/apt/sources.list.d/docker.list' sudo apt-get update sudo apt-get purge lxc-docker sudo apt-get install linux-image-extra-$(uname -r) sudo apt-get install apparmor sudo apt-get install docker-engine sudo service docker start sudo docker pull sequenceiq/spark […]

在Zeppelin中看不到Docker的文件: 我正在使用Docker进行关于Spark的课程。我已经build立了像这样的环境： docker pull bigdatauniversity/spark2 docker run -it –name bdu_spark2 -P -p 4040:4040 -p 4041:4041 -p 8080:8080 -p 8081:8081 bigdatauniversity/spark2:latest /etc/bootstrap.sh -bash 然后我退出了Docker并运行： docker start bdu_spark2 docker attach bdu_spark2 现在，当我进入齐柏林时，我无法find课程的文件。我试着找出是否有另一个Zeppelin进程运行在另一个端口，所以我在Docker控制台中运行： docker ps 但是，命令docker不被识别： bash: docker: command not found 我也尝试运行docker exec -it docker ps但是得到了同样的结果。那么我怎样才能在Zeppelin看到Docker容器中的文件呢？