Tag: pyspark

无法使用docker容器中的pysparkling自动运行H2O Flow

语境: 我有一个正在运行的H2O Sparkling Water本地环境,使用docker集装箱安装。 我创build了一个基于官方jupyter/all-spark-notebook图像的jupyter/all-spark-notebook来安装Hadoop和Spark的本地环境,并在其上面包含以下代码: # Install H2O pysparkling requirements RUN pip install requests && \ pip install tabulate && \ pip install six && \ pip install future && \ pip install colorama # Expose H2O Flow UI ports EXPOSE 54321 EXPOSE 54322 EXPOSE 55555 # Install H2O sparkling water RUN \ cd /home/$NB_USER […]

Pyspark:远程Hive仓库位置

我需要从Pyspark读取/写入存储在远程Hive Server中的表。 我所知道的这个远程Hive是在Docker下运行的。 从Hadoop色调我find了两个网站的iris表,我尝试从中select一些数据: 我有一个表metastoreurl: http://xxx.yyy.net:8888/metastore/table/mytest/iris 和表位置url: hdfs://quickstart.cloudera:8020/user/hive/warehouse/mytest.db/iris 我不知道为什么最后的url包含quickstart.cloudera:8020 。 也许这是因为Hive在Docker下运行? 讨论访问Hive表Pyspark教程写道: https://spark.apache.org/docs/latest/sql-programming-guide.html#hive-tables 使用Hive时,必须使用Hive支持实例化SparkSession,包括连接到持久性Hive Metastore,支持Hive serdes和Hive用户定义的函数。 没有现有Hive部署的用户仍然可以启用Hive支持。 当未由hive-site.xmlconfiguration时,上下文自动在当前目录中创buildmetastore_db,并创build一个由spark.sql.warehouse.dirconfiguration的目录,该目录默认为Spark应用程序当前目录中的spark-warehouse目录开始。 请注意,自从Spark 2.0.0以来,hive-site.xml中的hive.metastore.warehouse.dir属性已被弃用。 而是使用spark.sql.warehouse.dir来指定仓库中数据库的默认位置。 您可能需要向启动Spark应用程序的用户授予写权限。 在我的情况下,我设法得到hive-site.xml既没有hive.metastore.warehouse.dir也没有spark.sql.warehouse.dir属性。 Spark教程build议使用下面的代码来访问远程Hive表: from os.path import expanduser, join, abspath from pyspark.sql import SparkSession from pyspark.sql import Row // warehouseLocation points to the default location for managed databases and tables val warehouseLocation = new File("spark-warehouse").getAbsolutePath […]

Docker – 全部火花笔记本 – 从本地卷运行 – Ubuntu的

我已经安装了全火花笔记本泊坞窗的图像,但每次我运行它,容器启动任何文件,但默认空的工作文件夹。 我使用这个命令来运行它: sudo docker run -i -p 8888:8888 -v home/vaio/Documents/pyspark:/home/jovyan/work jupyter/pyspark-notebook start-notebook.sh –NotebookApp.token='' 我更喜欢使用-i而不是-d,但是在任何情况下问题依然存在 我有另一台电脑,我运行相同的命令,并从选定的本地目录的文件开始。

在pyspark-notebook docker容器上运行magellan

我正在通过jupyter/pyspark-notebook工具箱在我的Windows 7机器上运行jupyter/pyspark-notebook 。 我的开始命令是: docker run -it –rm –name ds -v /c/Users/<some-folder>:/home/jovyan/work/share -p 8888:8888 jupyter/pyspark-notebook start-notebook.sh 我正在试图运行火花包magellan。 在我正在运行的笔记本中: import os os.environ['PYSPARK_SUBMIT_ARGS'] = '–packages harsha2010:magellan:1.0.4-s_2.11 pyspark-shell' import pyspark sc = pyspark.SparkContext('local[*]') from magellan.types import Point, Polygon 但无法find模块magellan 。 我错过了什么?

Docker – 全部火花笔记本 – 安装本地驱动器

与docker工人和jupyter笔记本工作。 https://hub.docker.com/r/jupyter/all-spark-notebook/ 我已经成功地启动了笔记本电脑,但是在安装本地目录运行一些testing时遇到了麻烦。 docker run -d -p 8888:8888 jupyter/all-spark-notebook -v users/username/documents/work:/home/jovyan/work 似乎加载,但后来我得到 Session terminated, terminating shell…[C 13:45:24.497 NotebookApp] received signal 15, 我正在使用Mac OSX山狮。 我不确定Docker在哪里看到我的根目录以及如何

如何安装一个具有所有依赖的Python包到Docker镜像中?

我正在Ubuntu 15.10中使用Pyspark jupyter / pyspark-notebook的Docker容器。 我需要安装folium所有的依赖关系,并在容器中运行一个Pyspark脚本。 我成功安装了Docker,拉下了镜像,然后用命令运行 docker run -d -p 8888:8888 -p 4040:4040 -v /home/$MYUSER/$MYPROJECT:/home/jovyan/work jupyter/pyspark-notebook 然后,我执行代码示例没有任何问题 import pyspark sc = pyspark.SparkContext('local[*]') # do something to prove it works rdd = sc.parallelize(range(1000)) rdd.takeSample(False, 5) 我在/opt/conda查找了conda环境(正如它在文档中所述),但在我的/opt文件夹中没有conda环境。 然后,我把miniconda3和folium作为一个普通的Python软件包安装(没有涉及到Docker)。 它不起作用。 当我运行该图像,并尝试导入与import folium的包它没有findfolium包: ImportErrorTraceback (most recent call last) <ipython-input-1-af6e4f19ef00> in <module>() —-> 1 import folium ImportError: No module […]