Tag: pyspark

无法使用docker容器中的pysparkling自动运行H2O Flow: 语境：我有一个正在运行的H2O Sparkling Water本地环境，使用docker集装箱安装。我创build了一个基于官方jupyter/all-spark-notebook图像的jupyter/all-spark-notebook来安装Hadoop和Spark的本地环境，并在其上面包含以下代码： # Install H2O pysparkling requirements RUN pip install requests && \ pip install tabulate && \ pip install six && \ pip install future && \ pip install colorama # Expose H2O Flow UI ports EXPOSE 54321 EXPOSE 54322 EXPOSE 55555 # Install H2O sparkling water RUN \ cd /home/$NB_USER […]

Pyspark：远程Hive仓库位置: 我需要从Pyspark读取/写入存储在远程Hive Server中的表。我所知道的这个远程Hive是在Docker下运行的。从Hadoop色调我find了两个网站的iris表，我尝试从中select一些数据：我有一个表metastoreurl： http://xxx.yyy.net:8888/metastore/table/mytest/iris 和表位置url： hdfs://quickstart.cloudera:8020/user/hive/warehouse/mytest.db/iris 我不知道为什么最后的url包含quickstart.cloudera:8020 。也许这是因为Hive在Docker下运行？讨论访问Hive表Pyspark教程写道： https://spark.apache.org/docs/latest/sql-programming-guide.html#hive-tables 使用Hive时，必须使用Hive支持实例化SparkSession，包括连接到持久性Hive Metastore，支持Hive serdes和Hive用户定义的函数。没有现有Hive部署的用户仍然可以启用Hive支持。当未由hive-site.xmlconfiguration时，上下文自动在当前目录中创buildmetastore_db，并创build一个由spark.sql.warehouse.dirconfiguration的目录，该目录默认为Spark应用程序当前目录中的spark-warehouse目录开始。请注意，自从Spark 2.0.0以来，hive-site.xml中的hive.metastore.warehouse.dir属性已被弃用。而是使用spark.sql.warehouse.dir来指定仓库中数据库的默认位置。您可能需要向启动Spark应用程序的用户授予写权限。在我的情况下，我设法得到hive-site.xml既没有hive.metastore.warehouse.dir也没有spark.sql.warehouse.dir属性。 Spark教程build议使用下面的代码来访问远程Hive表： from os.path import expanduser, join, abspath from pyspark.sql import SparkSession from pyspark.sql import Row // warehouseLocation points to the default location for managed databases and tables val warehouseLocation = new File("spark-warehouse").getAbsolutePath […]

Docker – 全部火花笔记本 – 从本地卷运行 – Ubuntu的: 我已经安装了全火花笔记本泊坞窗的图像，但每次我运行它，容器启动任何文件，但默认空的工作文件夹。我使用这个命令来运行它： sudo docker run -i -p 8888:8888 -v home/vaio/Documents/pyspark:/home/jovyan/work jupyter/pyspark-notebook start-notebook.sh –NotebookApp.token='' 我更喜欢使用-i而不是-d，但是在任何情况下问题依然存在我有另一台电脑，我运行相同的命令，并从选定的本地目录的文件开始。

在pyspark-notebook docker容器上运行magellan: 我正在通过jupyter/pyspark-notebook工具箱在我的Windows 7机器上运行jupyter/pyspark-notebook 。我的开始命令是： docker run -it –rm –name ds -v /c/Users/<some-folder>:/home/jovyan/work/share -p 8888:8888 jupyter/pyspark-notebook start-notebook.sh 我正在试图运行火花包magellan。在我正在运行的笔记本中： import os os.environ['PYSPARK_SUBMIT_ARGS'] = '–packages harsha2010:magellan:1.0.4-s_2.11 pyspark-shell' import pyspark sc = pyspark.SparkContext('local[*]') from magellan.types import Point, Polygon 但无法find模块magellan 。我错过了什么？

Docker – 全部火花笔记本 – 安装本地驱动器: 与docker工人和jupyter笔记本工作。 https://hub.docker.com/r/jupyter/all-spark-notebook/ 我已经成功地启动了笔记本电脑，但是在安装本地目录运行一些testing时遇到了麻烦。 docker run -d -p 8888:8888 jupyter/all-spark-notebook -v users/username/documents/work:/home/jovyan/work 似乎加载，但后来我得到 Session terminated, terminating shell…[C 13:45:24.497 NotebookApp] received signal 15, 我正在使用Mac OSX山狮。我不确定Docker在哪里看到我的根目录以及如何

如何安装一个具有所有依赖的Python包到Docker镜像中？: 我正在Ubuntu 15.10中使用Pyspark jupyter / pyspark-notebook的Docker容器。我需要安装folium所有的依赖关系，并在容器中运行一个Pyspark脚本。我成功安装了Docker，拉下了镜像，然后用命令运行 docker run -d -p 8888:8888 -p 4040:4040 -v /home/$MYUSER/$MYPROJECT:/home/jovyan/work jupyter/pyspark-notebook 然后，我执行代码示例没有任何问题 import pyspark sc = pyspark.SparkContext('local[*]') # do something to prove it works rdd = sc.parallelize(range(1000)) rdd.takeSample(False, 5) 我在/opt/conda查找了conda环境（正如它在文档中所述），但在我的/opt文件夹中没有conda环境。然后，我把miniconda3和folium作为一个普通的Python软件包安装（没有涉及到Docker）。它不起作用。当我运行该图像，并尝试导入与import folium的包它没有findfolium包： ImportErrorTraceback (most recent call last) <ipython-input-1-af6e4f19ef00> in <module>() —-> 1 import folium ImportError: No module […]

Tag: pyspark

无法使用docker容器中的pysparkling自动运行H2O Flow

Pyspark：远程Hive仓库位置

Docker – 全部火花笔记本 – 从本地卷运行 – Ubuntu的

在pyspark-notebook docker容器上运行magellan

Docker – 全部火花笔记本 – 安装本地驱动器

如何安装一个具有所有依赖的Python包到Docker镜像中？

Docker群只能在容器运行的节点上访问

连接齐柏林docker与蜂巢

从docker文件触发时获取容器ID

Ant不能在Docker容器中使用Jenkins

在容器中运行Docker脚本应用程序

Spark挂在Docker Mesos集群的身份validation上

Jenkins Docker抛出exception并开始离线

将主机envvariables用于docker远程API

使用docker ALLOWED_HOSTS部署django应用程序

连接到在Docker上运行的Oracle XE

限制docker日志

Docker Mysql链接到另一个容器

需要在python脚本中运行docker run命令

Docker无法连接到桥接器上的容器

ECS使用Docker Hub进行身份validation