Tag: docker pyspark

spark-submit job.py不能使用sparkConf传递configuration参数: 我使用bin / spark-submit脚本提交我的python作业。我想通过SparkConf＆SparkContext类在python代码中configuration参数。我尝试在SparkConf对象中设置appName，master，spark.cores.max和spark.scheduler.mode，并将其作为参数（conf）传递给SparkContext。事实certificate，这个工作并没有发送到我设置的独立集群（它只是在本地运行，单击以查看localhost：4040 / environment /的截图）的主服务器。通过下面的打印语句，很明显看到我传递给SparkContext的SparkConf具有所有4个configuration（），但来自SparkContext对象的confvariables没有任何更新，尽pipe默认情况下是conf。对于其他方法，我尝试使用conf/spark-defaults.conf或–properties-file my-spark.conf –master spark://spark-master:7077 。它的工作原理。我也尝试使用主参数分别设置主 sc = pyspark.SparkContext(master="spark://spark-master:7077", conf=conf) 而且它也起作用： SparkContextConf: [ ('spark.app.name', 'test.py'), ('spark.rdd.compress', 'True'), ('spark.driver.port', '41147'), ('spark.app.id', 'app-20170403234627-0001'), ('spark.master','spark://spark-master:7077'), ('spark.serializer.objectStreamReset', '100'), ('spark.executor.id', 'driver'), ('spark.submit.deployMode', 'client'), ('spark.files', 'file:/mnt/scratch/yidi/docker-volume/test.py'), ('spark.driver.host', '10.0.0.5') ] 所以似乎只有conf参数不能正确地被SparkContext拥塞。星火工作代码： import operator import pyspark def main(): '''Program entry […]

在Mac上查找$ YOUR_DOCKER_HOST IP: 我已经启动了一个容器（来自docker hub的公共图像之一）来运行我的火花程序。要打开火花Web UI，我需要去http：//：8080。任何人都可以告诉我如何打开此webUI？

如何启用Spark-Mesos作业从Docker容器中启动？: 概要：是否有可能从一个Docker容器内的Mesos上提交一个Spark作业，这个容器有一个Mesos master（没有Zookeeper）和一个Mesos代理，每个都在单独的Docker容器中运行（现在在同一台主机上）？在http://mesos.apache.org/documentation/latest/container-image/中描述的Mesos Containerizer似乎适用于Mesos应用程序简单地封装在Docker容器中并运行的情况。我的Docker应用程序更具交互性，在运行时基于用户input实例化多个PySpark Mesos作业。 Docker容器中的驱动程序本身不是作为Mesos应用程序运行的。只有用户发起的作业请求被作为PySpark Mesos应用程序处理。具体细节：我有3个基于centos：7 linux的Docker容器，现在在同一台主机上运行：运行Mesos Master的容器“Master”。运行Mesos Agent的容器“Agent”。使用Spark和Mesos安装容器“testing”，在其中运行bash shell并从命令行启动以下PySparktesting程序。 from pyspark import SparkContext, SparkConf from operator import add # Configure Spark sp_conf = SparkConf() sp_conf.setAppName("spark_test") sp_conf.set("spark.scheduler.mode", "FAIR") sp_conf.set("spark.dynamicAllocation.enabled", "false") sp_conf.set("spark.driver.memory", "500m") sp_conf.set("spark.executor.memory", "500m") sp_conf.set("spark.executor.cores", 1) sp_conf.set("spark.cores.max", 1) sp_conf.set("spark.mesos.executor.home", "/usr/local/spark-2.1.0") sp_conf.set("spark.executor.uri", "file://usr/local/spark-2.1.0-bin-without-hadoop.tgz") sc = SparkContext(conf=sp_conf) # […]

docker显示 – 现场的运行火花不能到达: 我是新来的docker工人，使用端口8888在docker工人运行cloudera快速入门。 docker run –hostname=quickstart.cloudera –privileged=true -t -i -p 8888:8888 -p 8800:8800 -p 7180:7180 cloudera/quickstart /usr/bin/docker-quickstart 我需要运行另一个docker容器来运行spark。我find的Docker命令是 docker run -d -p 8888:8888 -v $PWD:/home/jovyan/work –name dockerspark jupyter/pyspark-notebook 由于我已经在使用端口8888，我将端口改为7777.该命令执行时没有任何错误。但是当我去http：// localhost：7777 ，它的显示 The site cannot be reached 是不是可以更改端口？如何在docker中运行spark而不影响我的cloudera。 “docker ps”的输出 CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES bcfce4ba3bc6 jupyter/pyspark-notebook "tini — start-notebo" About a […]

我可以在docker中设置一个远程的spark服务器，以便我可以在本地进行通信吗？: 我已经在Amazon EC2上安装了Docker镜像： sudo apt-get update sudo apt-get install apt-transport-https ca-certificates sudo apt-key adv –keyserver hkp://p80.pool.sks-keyservers.net:80 –recv-keys 58118E89F3A912897C070ADBF76221572C52609D sudo sh -c 'echo "deb https://apt.dockerproject.org/repo ubuntu-trusty main" > /etc/apt/sources.list.d/docker.list' sudo apt-get update sudo apt-get purge lxc-docker sudo apt-get install linux-image-extra-$(uname -r) sudo apt-get install apparmor sudo apt-get install docker-engine sudo service docker start sudo docker pull sequenceiq/spark […]

如何使用Apache Spark（pyspark）和Docker分发类: 我正在build立一个全新的数据科学栈，供数据科学家和数据分析师在我们的工作环境中使用。基本上我的结构如下： CDH安装在群集中的所有节点上（裸机）在CDH发行中的Spark＆YARN 具有多个组件的Docker容器映像：Anaconda，Python3，Spark（PySpark），Jupyter Notebook 现在，我最初的想法是在所有的工作节点上分配这个docker镜像的Python依赖关系，还包括在这个容器内部运行Spark作业所需的自定义库（例如：xgboost，numpy等）。在Jupyter中进行交互式分析时，我的工作stream程如下：创buildJupyter笔记本初始化SparkContext并将主点指向YARN 使用自定义Python库代码运行Spark作业现在，我想知道两件事情： Spark（在容器外部运行）将如何在所有工作节点上访问我自定义的Python库（Docker容器中的自定义代码）。我如何分配这些自定义的图书馆和其他复杂的依赖关系？我知道我们可以使用像sc.addPyFile（'/ path / to / BoTree.py'）或一个完整的.zip压缩文件，但是Docker有没有更简单的方法？我没有使用Anaconda集群，所以我需要另一种方式来做到这一点。谢谢