Tag: apache spark

在火花集群模式下运行齐柏林飞艇

我在Docker容器中使用这个教程Spark模式的纱线模式来在纱线模式下在Spark集群中启动Zeppelin。 然而,我卡在第4步。我找不到conf / zeppelin-env.sh在我的docker容器进行进一步的configuration。 我试图把这些configuration文件夹的齐柏林飞船,但现在成功了。 除此之外,齐柏林笔记本电脑也不在localhost:9001上运行。 我对分布式系统非常陌生,如果有人可以帮我在纱线模式下启动Spark Spark上的Zeppelin,那将是非常棒的。 这里是我的docker-compose文件,用来启用与spark集群的zeppelin对话。 version: '2' services: sparkmaster: build: . container_name: sparkmaster ports: – "8080:8080" – "7077:7077" – "8888:8888" – "8081:8081" – "8082:8082" – "5050:5050" – "5051:5051" – "4040:4040" zeppelin: image: dylanmei/zeppelin container_name: zeppelin-notebook env_file: – ./hadoop.env environment: ZEPPELIN_PORT: 9001 CORE_CONF_fs_defaultFS: "hdfs://namenode:8020" HADOOP_CONF_DIR_fs_defaultFS: "hdfs://namenode:8020" SPARK_MASTER: "spark://spark-master:7077" MASTER: "yarn-client" SPARK_HOME: spark-master […]

docker中的纱线 – __spark_libs__.zip不存在

我已经看了这个 StackOverflow后,但他们没有帮助我很多。 我正试图让纱线在现有的集群上工作。 到目前为止,我们一直使用火花独立pipe理器作为我们的资源分配器,并且一直按预期工作。 这是我们架构的基本概述。 在白色框中的所有东西都在docker容器中运行。 在master-machine我可以在yarn resource manager容器中运行以下命令,并运行使用yarn的spark-shell: ./pyspark –master yarn –driver-memory 1G –executor-memory 1G –executor-cores 1 –conf "spark.yarn.am.memory=1G" 但是,如果我尝试从jupyter容器内的client-machine运行相同的命令,我在YARN-UI中出现以下错误 。 Application application_1512999329660_0001 failed 2 times due to AM Container for appattempt_1512999329660_0001_000002 exited with exitCode: -1000 For more detailed output, check application tracking page:http://master-machine:5000/proxy/application_1512999329660_0001/Then, click on links to logs of each attempt. Diagnostics: File […]

Spark Job Server是否必须与Spark Master部署在同一台主机上?

我想在不同的主机上将Spark Job Server (在Docker容器中)部署到Spark Master。 但是, server_start.sh脚本似乎假设它正在与Spark Master在同一台机器上运行。 例如: if [ -z "$SPARK_CONF_DIR" ]; then SPARK_CONF_DIR=$SPARK_HOME/conf fi # Pull in other env vars in spark config, such as MESOS_NATIVE_LIBRARY . $SPARK_CONF_DIR/spark-env.sh 根据架构部分,它说: 作业服务器旨在作为一个或多个独立的进程运行,与Spark集群分离(虽然很可能与主节点同步)。 有谁知道如何使server_start.sh脚本能够像在Spark Job Server上另一台机器上托pipe的Spark Master那样工作?

如何从本地机器(mac)加载csv到Spark-Neo4j docker?

我在Mac中使用Docker创build了一个Spark-Neo4j VM,并能够成功加载http://192.168.99.100:7474/browser 。 我也能够运行正常的查询。 我有一个dataset.csv,我想加载创buildgraphics数据库,但我得到“无法加载外部资源:file:/neo4j/community/code/data-3.csv”。 我可以在我的本地Neo4j服务器上运行这个文件,但是想用Spark来试试。 我该如何直接从本地机器设置path,或者有什么方法可以将数据集传输到docker?

docker停止从退出火花容器

我知道docker只听pid 1,如果pid退出(或变成守护进程),它认为程序退出,容器closures。 当apache-spark启动时,./ ./start-master.sh脚本如何保持容器运行? 我不认为: while true; do sleep 1000; while true; do sleep 1000; 做是一个适当的解决scheme。 例如,我用command: sbin/start-master.sh启动主。 但是它一直在closures。 如何使用docker-compose启动时保持运行?

无法在Spark上运行Docker上的Cassandra

我有一个在Docker上运行的Zeppelin笔记本。 我有以下代码使用Cassandra: import org.apache.spark.sql.cassandra._ val cqlContext = new CassandraSQLContext(sc) cqlContext.sql("select * from demo.table").collect.foreach(println) 但是,我得到这个错误: import org.apache.spark.sql.cassandra._ cqlContext: org.apache.spark.sql.cassandra.CassandraSQLContext = org.apache.spark.sql.cassandra.CassandraSQLContext@395e28a8 com.google.common.util.concurrent.UncheckedExecutionException: java.lang.IllegalArgumentException: Cannot build a cluster without contact points at com.google.common.cache.LocalCache$Segment.get(LocalCache.java:2199) at com.google.common.cache.LocalCache.get(LocalCache.java:3932) at com.google.common.cache.LocalCache.getOrLoad(LocalCache.java:3936) at com.google.common.cache.LocalCache$LocalLoadingCache.get(LocalCache.java:4806) at org.apache.spark.sql.cassandra.CassandraCatalog.lookupRelation(CassandraCatalog.scala:28) at org.apache.spark.sql.cassandra.CassandraSQLContext$$anon$2.org$apache$spark$sql$catalyst$analysis$OverrideCatalog$$super$lookupRelation(CassandraSQLContext.scala:219) at org.apache.spark.sql.catalyst.analysis.OverrideCatalog$$anonfun$lookupRelation$3.apply(Catalog.scala:137) at org.apache.spark.sql.catalyst.analysis.OverrideCatalog$$anonfun$lookupRelation$3.apply(Catalog.scala:137) at scala.Option.getOrElse(Option.scala:120) at org.apache.spark.sql.catalyst.analysis.OverrideCatalog$class.lookupRelation(Catalog.scala:137) at org.apache.spark.sql.cassandra.CassandraSQLContext$$anon$2.lookupRelation(CassandraSQLContext.scala:219) at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations$$anonfun$apply$5.applyOrElse(Analyzer.scala:143) at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations$$anonfun$apply$5.applyOrElse(Analyzer.scala:138) […]

连接火花大师通过docker组成火花奴隶

我使用gettyimages作为spark主容器,同时我有一个将要启动一个slave节点的spark图像。 这是我相应的docker文件。 FROM debian:jessie RUN apt-get update \ && apt-get install -y locales \ && dpkg-reconfigure -f noninteractive locales \ && locale-gen C.UTF-8 \ && /usr/sbin/update-locale LANG=C.UTF-8 \ && echo "en_US.UTF-8 UTF-8" >> /etc/locale.gen \ && locale-gen \ && apt-get clean \ && rm -rf /var/lib/apt/lists/* # Users with other locales should set this in […]

用dockerlogin到zeppelin的问题

我已经下载了许多zeppeling / spark图像,并且所有这些图像都无法login到笔记本中。 这是容器中的shiro.ini文件: … admin = password1 user1 = password2 user2 = password3 # Sample LDAP configuration, for user Authentication, currently tested for single Realm [main] #ldapRealm = org.apache.shiro.realm.ldap.JndiLdapRealm #ldapRealm.userDnTemplate = cn={0},cn=engg,ou=testdomain,dc=testdomain,dc=com #ldapRealm.contextFactory.url = ldap://ldaphost:389 #ldapRealm.contextFactory.authenticationMechanism = SIMPLE [urls] # anon means the access is anonymous. # authcBasic means Basic Auth Security # To […]

在“docker run”命令中,“sandbox”是什么意思?

我正在用Apache Spark运行Docker镜像 : docker run -i -t -h sandbox sequenceiq/spark:1.2.1-ubuntu /etc/bootstrap.sh -bash 执行“ docker run –help ”命令后,可以知道“ -i ”,“- -t ”和“ -h ”的含义。 但是我怎么能在这里解释“ sandbox ”呢? 这是“ docker run ”命令的选项吗? 我无法在“ docker run –help ”的输出中find它。

Mesos上的Spark集群模式:如何将configuration传递给执行器?

我正在testing使用Docker在MESOS上执行Sparkalgorithm。 我设法在客户端模式下执行Spark内部的执行者,但我想走得更远,也有我的驱动程序运行到Docker容器。 在这里,我遇到了一个我不太确定的行为,让我试着解释一下。 我使用如下命令通过MesosClusterDispatcher提交我的Spark应用程序: $ ./bin/spark-submit –class org.apache.spark.examples.SparkPi –master mesos://spark-master-1:7077 –deploy-mode cluster –conf spark.mesos.executor.docker.image=myuser/myimage:0.0.2 https://storage.googleapis.com/some-bucket/spark-examples-1.5.2-hadoop2.6.0.jar 10 我的司机在Docker容器内运行良好,但执行者失败: "sh: /some/spark/home/bin/spark-class: No such file or directory" 看着MESOS奴隶日志,我认为执行者不会在docker.cpp:775] No container info found, skipping launch运行:“ docker.cpp:775] No container info found, skipping launch ”。 由于我的Mesos奴隶没有安装火花,它失败了。 看起来,我在第一次提交spark-submit时的sparkconfiguration文件,在Docker容器中启动时,并不会传递给Driver提交的conf文件。 我发现唯一的解决方法是修改我的Docker图像,以便在其spark属性中定义spark.mesos.executor.docker.image属性。 这样一来,我的执行者就可以很好地运行,并在Mesos的Docker中启动。 这似乎有点复杂,我觉得configuration传递给早期的spark-submit应该传递给Driver提交… 所以我的问题是: 难道我做错了什么? 有没有更好的解决scheme,通过驱动程序将mesos-dispatcher之前的火花configuration传递给执行程序?