Tag: apache spark

在火花集群模式下运行齐柏林飞艇: 我在Docker容器中使用这个教程Spark模式的纱线模式来在纱线模式下在Spark集群中启动Zeppelin。然而，我卡在第4步。我找不到conf / zeppelin-env.sh在我的docker容器进行进一步的configuration。我试图把这些configuration文件夹的齐柏林飞船，但现在成功了。除此之外，齐柏林笔记本电脑也不在localhost：9001上运行。我对分布式系统非常陌生，如果有人可以帮我在纱线模式下启动Spark Spark上的Zeppelin，那将是非常棒的。这里是我的docker-compose文件，用来启用与spark集群的zeppelin对话。 version: '2' services: sparkmaster: build: . container_name: sparkmaster ports: – "8080:8080" – "7077:7077" – "8888:8888" – "8081:8081" – "8082:8082" – "5050:5050" – "5051:5051" – "4040:4040" zeppelin: image: dylanmei/zeppelin container_name: zeppelin-notebook env_file: – ./hadoop.env environment: ZEPPELIN_PORT: 9001 CORE_CONF_fs_defaultFS: "hdfs://namenode:8020" HADOOP_CONF_DIR_fs_defaultFS: "hdfs://namenode:8020" SPARK_MASTER: "spark://spark-master:7077" MASTER: "yarn-client" SPARK_HOME: spark-master […]

docker中的纱线 – __spark_libs__.zip不存在: 我已经看了这个 StackOverflow后，但他们没有帮助我很多。我正试图让纱线在现有的集群上工作。到目前为止，我们一直使用火花独立pipe理器作为我们的资源分配器，并且一直按预期工作。这是我们架构的基本概述。在白色框中的所有东西都在docker容器中运行。在master-machine我可以在yarn resource manager容器中运行以下命令，并运行使用yarn的spark-shell： ./pyspark –master yarn –driver-memory 1G –executor-memory 1G –executor-cores 1 –conf "spark.yarn.am.memory=1G" 但是，如果我尝试从jupyter容器内的client-machine运行相同的命令，我在YARN-UI中出现以下错误。 Application application_1512999329660_0001 failed 2 times due to AM Container for appattempt_1512999329660_0001_000002 exited with exitCode: -1000 For more detailed output, check application tracking page:http://master-machine:5000/proxy/application_1512999329660_0001/Then, click on links to logs of each attempt. Diagnostics: File […]

Spark Job Server是否必须与Spark Master部署在同一台主机上？: 我想在不同的主机上将Spark Job Server （在Docker容器中）部署到Spark Master。但是， server_start.sh脚本似乎假设它正在与Spark Master在同一台机器上运行。例如： if [ -z "$SPARK_CONF_DIR" ]; then SPARK_CONF_DIR=$SPARK_HOME/conf fi # Pull in other env vars in spark config, such as MESOS_NATIVE_LIBRARY . $SPARK_CONF_DIR/spark-env.sh 根据架构部分，它说：作业服务器旨在作为一个或多个独立的进程运行，与Spark集群分离（虽然很可能与主节点同步）。有谁知道如何使server_start.sh脚本能够像在Spark Job Server上另一台机器上托pipe的Spark Master那样工作？

如何从本地机器（mac）加载csv到Spark-Neo4j docker？: 我在Mac中使用Docker创build了一个Spark-Neo4j VM，并能够成功加载http://192.168.99.100:7474/browser 。我也能够运行正常的查询。我有一个dataset.csv，我想加载创buildgraphics数据库，但我得到“无法加载外部资源：file：/neo4j/community/code/data-3.csv”。我可以在我的本地Neo4j服务器上运行这个文件，但是想用Spark来试试。我该如何直接从本地机器设置path，或者有什么方法可以将数据集传输到docker？

docker停止从退出火花容器: 我知道docker只听pid 1，如果pid退出（或变成守护进程），它认为程序退出，容器closures。当apache-spark启动时，./ ./start-master.sh脚本如何保持容器运行？我不认为： while true; do sleep 1000; while true; do sleep 1000; 做是一个适当的解决scheme。例如，我用command: sbin/start-master.sh启动主。但是它一直在closures。如何使用docker-compose启动时保持运行？

无法在Spark上运行Docker上的Cassandra: 我有一个在Docker上运行的Zeppelin笔记本。我有以下代码使用Cassandra： import org.apache.spark.sql.cassandra._ val cqlContext = new CassandraSQLContext(sc) cqlContext.sql("select * from demo.table").collect.foreach(println) 但是，我得到这个错误： import org.apache.spark.sql.cassandra._ cqlContext: org.apache.spark.sql.cassandra.CassandraSQLContext = org.apache.spark.sql.cassandra.CassandraSQLContext@395e28a8 com.google.common.util.concurrent.UncheckedExecutionException: java.lang.IllegalArgumentException: Cannot build a cluster without contact points at com.google.common.cache.LocalCache$Segment.get(LocalCache.java:2199) at com.google.common.cache.LocalCache.get(LocalCache.java:3932) at com.google.common.cache.LocalCache.getOrLoad(LocalCache.java:3936) at com.google.common.cache.LocalCache$LocalLoadingCache.get(LocalCache.java:4806) at org.apache.spark.sql.cassandra.CassandraCatalog.lookupRelation(CassandraCatalog.scala:28) at org.apache.spark.sql.cassandra.CassandraSQLContext$$anon$2.org$apache$spark$sql$catalyst$analysis$OverrideCatalog$$super$lookupRelation(CassandraSQLContext.scala:219) at org.apache.spark.sql.catalyst.analysis.OverrideCatalog$$anonfun$lookupRelation$3.apply(Catalog.scala:137) at org.apache.spark.sql.catalyst.analysis.OverrideCatalog$$anonfun$lookupRelation$3.apply(Catalog.scala:137) at scala.Option.getOrElse(Option.scala:120) at org.apache.spark.sql.catalyst.analysis.OverrideCatalog$class.lookupRelation(Catalog.scala:137) at org.apache.spark.sql.cassandra.CassandraSQLContext$$anon$2.lookupRelation(CassandraSQLContext.scala:219) at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations$$anonfun$apply$5.applyOrElse(Analyzer.scala:143) at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations$$anonfun$apply$5.applyOrElse(Analyzer.scala:138) […]

连接火花大师通过docker组成火花奴隶: 我使用gettyimages作为spark主容器，同时我有一个将要启动一个slave节点的spark图像。这是我相应的docker文件。 FROM debian:jessie RUN apt-get update \ && apt-get install -y locales \ && dpkg-reconfigure -f noninteractive locales \ && locale-gen C.UTF-8 \ && /usr/sbin/update-locale LANG=C.UTF-8 \ && echo "en_US.UTF-8 UTF-8" >> /etc/locale.gen \ && locale-gen \ && apt-get clean \ && rm -rf /var/lib/apt/lists/* # Users with other locales should set this in […]

用dockerlogin到zeppelin的问题: 我已经下载了许多zeppeling / spark图像，并且所有这些图像都无法login到笔记本中。这是容器中的shiro.ini文件： … admin = password1 user1 = password2 user2 = password3 # Sample LDAP configuration, for user Authentication, currently tested for single Realm [main] #ldapRealm = org.apache.shiro.realm.ldap.JndiLdapRealm #ldapRealm.userDnTemplate = cn={0},cn=engg,ou=testdomain,dc=testdomain,dc=com #ldapRealm.contextFactory.url = ldap://ldaphost:389 #ldapRealm.contextFactory.authenticationMechanism = SIMPLE [urls] # anon means the access is anonymous. # authcBasic means Basic Auth Security # To […]

在“docker run”命令中，“sandbox”是什么意思？: 我正在用Apache Spark运行Docker镜像： docker run -i -t -h sandbox sequenceiq/spark:1.2.1-ubuntu /etc/bootstrap.sh -bash 执行“ docker run –help ”命令后，可以知道“ -i ”，“- -t ”和“ -h ”的含义。但是我怎么能在这里解释“ sandbox ”呢？这是“ docker run ”命令的选项吗？我无法在“ docker run –help ”的输出中find它。

Mesos上的Spark集群模式：如何将configuration传递给执行器？: 我正在testing使用Docker在MESOS上执行Sparkalgorithm。我设法在客户端模式下执行Spark内部的执行者，但我想走得更远，也有我的驱动程序运行到Docker容器。在这里，我遇到了一个我不太确定的行为，让我试着解释一下。我使用如下命令通过MesosClusterDispatcher提交我的Spark应用程序： $ ./bin/spark-submit –class org.apache.spark.examples.SparkPi –master mesos://spark-master-1:7077 –deploy-mode cluster –conf spark.mesos.executor.docker.image=myuser/myimage:0.0.2 https://storage.googleapis.com/some-bucket/spark-examples-1.5.2-hadoop2.6.0.jar 10 我的司机在Docker容器内运行良好，但执行者失败： "sh: /some/spark/home/bin/spark-class: No such file or directory" 看着MESOS奴隶日志，我认为执行者不会在docker.cpp:775] No container info found, skipping launch运行：“ docker.cpp:775] No container info found, skipping launch ”。由于我的Mesos奴隶没有安装火花，它失败了。看起来，我在第一次提交spark-submit时的sparkconfiguration文件，在Docker容器中启动时，并不会传递给Driver提交的conf文件。我发现唯一的解决方法是修改我的Docker图像，以便在其spark属性中定义spark.mesos.executor.docker.image属性。这样一来，我的执行者就可以很好地运行，并在Mesos的Docker中启动。这似乎有点复杂，我觉得configuration传递给早期的spark-submit应该传递给Driver提交… 所以我的问题是：难道我做错了什么？有没有更好的解决scheme，通过驱动程序将mesos-dispatcher之前的火花configuration传递给执行程序？