Tag: apache spark

有没有适用于多节点集群部署的Apache Spark 2.0.0公共Docker镜像?

寻找Apache Spark 2.0.0 Docker镜像可以从任何公共的repo中获取,支持集群。

禁用Spark master检查主机名是否相等

我有一个在Docker容器中运行的Spark-master,而该容器又在远程服务器上执行。 在Spark-master旁边,在同一个Docker主机上有运行Spark-Slave的容器。 Server <—> Docker Host <—> Docker Container 为了让从服务器find主服务器,我在Docker SPARKMASTER设置了一个主服务器主机名,从服务器用来连接主服务器。 到现在为止还挺好。 我使用SPARK_MASTER_IP环境variables让主人绑定到这个名字。 我还将Spark端口7077暴露给Docker主机,并在物理服务器主机上转发此端口。 港口是开放的和可用的。 现在在我的机器上,我可以使用它的IP连接到服务器,比如192.168.1.100。 当我的Spark程序连接到端口7077上的服务器时,我得到一个连接,这个连接与主服务器分离: 15/10/09 17:13:47 INFO AppClient$ClientEndpoint: Connecting to master spark://192.168.1.100:7077… 15/10/09 17:13:47 WARN ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkMaster@192.168.1.100:7077] has failed, address is now gated for [5000] ms. Reason: [Disassociated] 我已经知道这个断开的原因是主机IP 192.168.1.100与主机名SPARKMASTER不匹配。 我可以添加一个主机到我的/ etc / hosts文件,这可能会工作。 但我不想这样做。 有没有办法可以完全禁用这个检查主机名相等?

Windows中的Neo4j Mazerunner的逐步安装指南

我想通过Mazerunner使用可用于Neo4j的Spark-graphX软件包,但是我是分析师,而不是软件人员。 我在我的笔记本电脑和Neo4j 2.3.0上运行Windows 7,并且想要一步一步地解释如何为社区和企业设置Mazerunner。 有很多提及docker和容器,我不知道这是什么,或者如何设置它们。 简单的指示将会非常有帮助! 🙂

在Spark独立模式下运行Spark作业服务器时出现exception

我正在尝试Spark作业服务器 – 特别是泊坞窗容器选项。 我能够以spark本地模式运行WordCountExample应用程序。 不过,当我试图将应用程序指向远程Spark主机时,我遇到了一个exception。 以下是我用来运行WordCountExample应用程序的命令: 1. sudo docker run -d -p 8090:8090 -e SPARK_MASTER=spark://10.501.502.503:7077 velvia/spark-jobserver:0.6.0 2. sbt job-server-tests/package 3. curl –data-binary @job-server-tests/target/scala-2.10/job-server-tests_2.10-0.6.2-SNAPSHOT.jar localhost:8090/jars/test 4. curl -d "input.string = abcab see" 'localhost:8090/jobs?appName=test&classPath=spark.jobserver.WordCountExample' 以下是我在上面运行第4步时遇到的exception情况: { "status": "ERROR", "result": { "message": "Futures timed out after [15 seconds]", "errorClass": "java.util.concurrent.TimeoutException", "stack": ["scala.concurrent.impl.Promise$DefaultPromise.ready(Promise.scala:219)", "scala.concurrent.impl.Promise$DefaultPromise.result(Promise.scala:223)", "scala.concurrent.Await$$anonfun$result$1.apply(package.scala:107)", "akka.dispatch.MonitorableThreadFactory$AkkaForkJoinWorkerThread$$anon$3.block(ThreadPoolBuilder.scala:169)", "scala.concurrent.forkjoin.ForkJoinPool.managedBlock(ForkJoinPool.java:3640)", "akka.dispatch.MonitorableThreadFactory$AkkaForkJoinWorkerThread.blockOn(ThreadPoolBuilder.scala:167)", "akka.dispatch.BatchingExecutor$Batch.blockOn(BatchingExecutor.scala:101)", […]

在Docker上拒绝Spark的连接

我在OSX El Capitan上使用Docker 1.9和Docker Machine,我试图使用下面的命令运行一个spark容器: docker run -d -p 8090:8090 -p 9999:9999 -p 6001-6006:6001-6006 -p 4040:4040 –name sjs –restart=always –net="host" -e SPARK_MASTER=local[4] -e DEFAULT_CORES_PER_CONTEXT=4 -e DEFAULT_MEM_PER_CONTEXT=512m vfiump/spark-jobserver 问题: 我无法使用给定的IP访问火花Web UI。 当我尝试远程login到docker机器和端口8090的IP时,它发出连接拒绝错误。 docker restart sjs只是卡住没有反应。 请注意,ping IP是成功的。 “docker ps”显示容器已经打开。 这也发生在Cassandra图像上。 我对Docker有点新鲜。 那么我在这里错过了什么?

我怎样才能在DockerFile中定义我的ENVvariables,并将其传递给由supervisord托pipe脚本提交的spark图像?

我正在构build一些Docker Spark图像,对于如何将DockerFile中定义的环境(ENV)variables一直向下传递到容器,通过“run -e”进入supervisord,然后进入spark,我有点困惑- 提交shell,而不必在supervisord.conf文件中再次对它们进行硬编码(这似乎是在这里有点类似的build议: supervisord环境variables设置应用程序 )。 为了帮助解释,想象下面的组件: DockerFile(包含大约20个环境variables“ENV FOO1 bar1”等) run.sh(docker run -d -e my_spark_program) conf / supervisord.conf([program:my_spark_program] command = sh /opt/spark/sbin/submit_my_spark_program.sh等) submit_my_spark_program.sh(包含我想运行的jar的spark提交 – 可能还需要类似–files•–conf'spark.executor.extraJavaOptions = -Dconfig.resource = app'•–conf'spark。 driver.extraJavaOptions = -Dconfig.resource = app',但是这看起来不太合适?) 我想我想在DockerFile中定义我的ENVvariables一次,并且我认为应该可以通过使用“-e”开关的run.sh将它们传递到容器中,但是我似乎无法了解如何将它们从那里传递到supervisord和超出spark-submit shell(submit_my_spark_program.sh),以便它们最终可用于我的spark提交的jar文件。 这似乎有点过度devise,所以也许我在这里失去了一些东西…?

Spark Docker – 无法访问资源pipe理器的Web UI – Mac PC

无法访问资源pipe理器Web UI – Spark Docker容器 – Mac PC 这些是我做的步骤: docker拉序列号/火花:1.6.0 docker run -it -p 8088:8088 -p 8042:8042 -p 4040:4040 -h sandbox sequenceiq / spark:1.6.0 bash 我使用这个testing:(运行良好) 运行火花shell 火花shell\ – 主纱客户端\ – 驱动程序内存1克\ –executor内存1克\ –executor核心1 执行下面的命令应该返回1000 scala> sc.parallelize(1 to 1000).count() 但是不能访问web ui: 我试过了: 一个。 :8088 b: http:// sandbox:8088 / proxy / application_1458858022274_0002 / A c:localhost:8088 没有任何作品..任何帮助? […]

docker parquet error中的Spark未find预定义的模式

我有一个基于https://github.com/gettyimages/docker-spark的本地火花testing集群,其中包括R.特别是,这个图像被使用: https : //hub.docker.com/r/possibly/spark/ 尝试使用sparkR读取parquet文件时,会发生此exception。 读取地板文件在本地火花设备上没有任何问题。 myData.parquet <- read.parquet(sqlContext, "/mappedFolder/myFile.parquet") 16/03/29 20:36:02 ERROR RBackendHandler: parquet on 4 failed Fehler in invokeJava(isStatic = FALSE, objId$id, methodName, …) : java.lang.AssertionError: assertion failed: No predefined schema found, and no Parquet data files or summary files found under file:/mappedFolder/myFile.parquet. at scala.Predef$.assert(Predef.scala:179) at org.apache.spark.sql.execution.datasources.parquet.ParquetRelation$MetadataCache.org$apache$spark$sql$execution$datasources$parquet$ParquetRelation$MetadataCache$$readSchema(ParquetRelation.scala:512) at org.apache.spark.sql.execution.datasources.parquet.ParquetRelation$MetadataCache$$anonfun$12.apply(ParquetRelation.scala:421) at org.apache.spark.sql.execution.datasources.parquet.ParquetRelation$MetadataCache$$anonfun$12.apply(ParquetRelation.scala:421) at scala.Option.orElse(Option.scala:257) […]

我可以在docker中设置一个远程的spark服务器,以便我可以在本地进行通信吗?

我已经在Amazon EC2上安装了Docker镜像: sudo apt-get update sudo apt-get install apt-transport-https ca-certificates sudo apt-key adv –keyserver hkp://p80.pool.sks-keyservers.net:80 –recv-keys 58118E89F3A912897C070ADBF76221572C52609D sudo sh -c 'echo "deb https://apt.dockerproject.org/repo ubuntu-trusty main" > /etc/apt/sources.list.d/docker.list' sudo apt-get update sudo apt-get purge lxc-docker sudo apt-get install linux-image-extra-$(uname -r) sudo apt-get install apparmor sudo apt-get install docker-engine sudo service docker start sudo docker pull sequenceiq/spark […]

在Zeppelin中看不到Docker的文件

我正在使用Docker进行关于Spark的课程。 我已经build立了像这样的环境: docker pull bigdatauniversity/spark2 docker run -it –name bdu_spark2 -P -p 4040:4040 -p 4041:4041 -p 8080:8080 -p 8081:8081 bigdatauniversity/spark2:latest /etc/bootstrap.sh -bash 然后我退出了Docker并运行: docker start bdu_spark2 docker attach bdu_spark2 现在,当我进入齐柏林时,我无法find课程的文件。 我试着找出是否有另一个Zeppelin进程运行在另一个端口,所以我在Docker控制台中运行: docker ps 但是,命令docker不被识别: bash: docker: command not found 我也尝试运行docker exec -it docker ps但是得到了同样的结果。 那么我怎样才能在Zeppelin看到Docker容器中的文件呢?