Tag: docker pyspark

spark-submit job.py不能使用sparkConf传递configuration参数

我使用bin / spark-submit脚本提交我的python作业。 我想通过SparkConf&SparkContext类在python代码中configuration参数。 我尝试在SparkConf对象中设置appName,master,spark.cores.max和spark.scheduler.mode,并将其作为参数(conf)传递给SparkContext。 事实certificate,这个工作并没有发送到我设置的独立集群(它只是在本地运行, 单击以查看localhost:4040 / environment /的截图 )的主服务器。 通过下面的打印语句,很明显看到我传递给SparkContext的SparkConf具有所有4个configuration(),但来自SparkContext对象的confvariables没有任何更新,尽pipe默认情况下是conf。 对于其他方法,我尝试使用conf/spark-defaults.conf或–properties-file my-spark.conf –master spark://spark-master:7077 。 它的工作原理。我也尝试使用主参数分别设置主 sc = pyspark.SparkContext(master="spark://spark-master:7077", conf=conf) 而且它也起作用: SparkContextConf: [ ('spark.app.name', 'test.py'), ('spark.rdd.compress', 'True'), ('spark.driver.port', '41147'), ('spark.app.id', 'app-20170403234627-0001'), ('spark.master','spark://spark-master:7077'), ('spark.serializer.objectStreamReset', '100'), ('spark.executor.id', 'driver'), ('spark.submit.deployMode', 'client'), ('spark.files', 'file:/mnt/scratch/yidi/docker-volume/test.py'), ('spark.driver.host', '10.0.0.5') ] 所以似乎只有conf参数不能正确地被SparkContext拥塞。 星火工作代码: import operator import pyspark def main(): '''Program entry […]

在Mac上查找$ YOUR_DOCKER_HOST IP

我已经启动了一个容器(来自docker hub的公共图像之一)来运行我的火花程序。 要打开火花Web UI,我需要去http://:8080。 任何人都可以告诉我如何打开此webUI?

如何启用Spark-Mesos作业从Docker容器中启动?

概要: 是否有可能从一个Docker容器内的Mesos上提交一个Spark作业,这个容器有一个Mesos master(没有Zookeeper)和一个Mesos代理,每个都在单独的Docker容器中运行(现在在同一台主机上)? 在http://mesos.apache.org/documentation/latest/container-image/中描述的Mesos Containerizer似乎适用于Mesos应用程序简单地封装在Docker容器中并运行的情况。 我的Docker应用程序更具交互性,在运行时基于用户input实例化多个PySpark Mesos作业。 Docker容器中的驱动程序本身不是作为Mesos应用程序运行的。 只有用户发起的作业请求被作为PySpark Mesos应用程序处理。 具体细节: 我有3个基于centos:7 linux的Docker容器,现在在同一台主机上运行: 运行Mesos Master的容器“Master”。 运行Mesos Agent的容器“Agent”。 使用Spark和Mesos安装容器“testing”,在其中运行bash shell并从命令行启动以下PySparktesting程序。 from pyspark import SparkContext, SparkConf from operator import add # Configure Spark sp_conf = SparkConf() sp_conf.setAppName("spark_test") sp_conf.set("spark.scheduler.mode", "FAIR") sp_conf.set("spark.dynamicAllocation.enabled", "false") sp_conf.set("spark.driver.memory", "500m") sp_conf.set("spark.executor.memory", "500m") sp_conf.set("spark.executor.cores", 1) sp_conf.set("spark.cores.max", 1) sp_conf.set("spark.mesos.executor.home", "/usr/local/spark-2.1.0") sp_conf.set("spark.executor.uri", "file://usr/local/spark-2.1.0-bin-without-hadoop.tgz") sc = SparkContext(conf=sp_conf) # […]

docker显示 – 现场的运行火花不能到达

我是新来的docker工人,使用端口8888在docker工人运行cloudera快速入门。 docker run –hostname=quickstart.cloudera –privileged=true -t -i -p 8888:8888 -p 8800:8800 -p 7180:7180 cloudera/quickstart /usr/bin/docker-quickstart 我需要运行另一个docker容器来运行spark。 我find的Docker命令是 docker run -d -p 8888:8888 -v $PWD:/home/jovyan/work –name dockerspark jupyter/pyspark-notebook 由于我已经在使用端口8888,我将端口改为7777.该命令执行时没有任何错误。 但是当我去http:// localhost:7777 ,它的显示 The site cannot be reached 是不是可以更改端口? 如何在docker中运行spark而不影响我的cloudera。 “docker ps”的输出 CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES bcfce4ba3bc6 jupyter/pyspark-notebook "tini — start-notebo" About a […]

我可以在docker中设置一个远程的spark服务器,以便我可以在本地进行通信吗?

我已经在Amazon EC2上安装了Docker镜像: sudo apt-get update sudo apt-get install apt-transport-https ca-certificates sudo apt-key adv –keyserver hkp://p80.pool.sks-keyservers.net:80 –recv-keys 58118E89F3A912897C070ADBF76221572C52609D sudo sh -c 'echo "deb https://apt.dockerproject.org/repo ubuntu-trusty main" > /etc/apt/sources.list.d/docker.list' sudo apt-get update sudo apt-get purge lxc-docker sudo apt-get install linux-image-extra-$(uname -r) sudo apt-get install apparmor sudo apt-get install docker-engine sudo service docker start sudo docker pull sequenceiq/spark […]

如何使用Apache Spark(pyspark)和Docker分发类

我正在build立一个全新的数据科学栈,供数据科学家和数据分析师在我们的工作环境中使用。 基本上我的结构如下: CDH安装在群集中的所有节点上(裸机) 在CDH发行中的Spark&YARN 具有多个组件的Docker容器映像:Anaconda,Python3,Spark(PySpark),Jupyter Notebook 现在,我最初的想法是在所有的工作节点上分配这个docker镜像的Python依赖关系,还包括在这个容器内部运行Spark作业所需的自定义库(例如:xgboost,numpy等)。 在Jupyter中进行交互式分析时,我的工作stream程如下: 创buildJupyter笔记本 初始化SparkContext并将主点指向YARN 使用自定义Python库代码运行Spark作业 现在,我想知道两件事情: Spark(在容器外部运行)将如何在所有工作节点上访问我自定义的Python库(Docker容器中的自定义代码)。 我如何分配这些自定义的图书馆和其他复杂的依赖关系? 我知道我们可以使用像sc.addPyFile('/ path / to / BoTree.py')或一个完整的.zip压缩文件,但是Docker有没有更简单的方法? 我没有使用Anaconda集群,所以我需要另一种方式来做到这一点。 谢谢