从运行Spark的另一个Docker容器写入Docker中运行的HDFS

我有一个spark + jupyter的docker镜像（ https://github.com/zipfian/spark-install ）

我有另外一个hadoop的docker镜像。（ https://github.com/kiwenlau/hadoop-cluster-docker ）

我在Ubuntu上面的2个镜像中运行2个容器。对于第一个容器：我能够成功启动jupyter并运行python代码：

import pyspark sc = pyspark.sparkcontext('local[*]') rdd = sc.parallelize(range(1000)) rdd.takeSample(False,5)

对于第二个容器：

在主机Ubuntu操作系统，我能够成功地去

web浏览器localhost：8088：然后浏览Hadoop的所有应用程序
localhost：50070：并浏览HDFS文件系统。

在这里输入图像说明

现在我想从jupyter（运行在第一个容器中）写入HDFS文件系统（在第二个容器中运行）。

所以我添加额外的行

 rdd.saveAsTextFile("hdfs:///user/root/input/test")

我得到的错误：

HDFS URI，无主机：hdfs：/// user / root / input / test

我不正确地给hdfspath？

我的理解是，我应该能够与另一个运行spark的容器运行hdfs的docker容器通信。我错过了什么？

谢谢你的时间。

我还没有尝试docker撰写。

URI hdfs:///user/root/input/test缺less权限（主机名）部分和端口。要在另一个容器中写入hdfs，您需要完全指定URI并确保两个容器位于同一个networking中，并且HDFS容器具有用于名称节点和数据节点暴露的端口。

例如，您可能已经将HDFS容器的主机名设置为hdfs.container 。然后，您可以使用URI hdfs://hdfs.container:8020/user/root/input/test （假设Namenode在8020上运行）写入HDFS实例。当然，您还需要确保您要写入的path具有正确的权限。

所以要做你想做的事情：

确保您的HDFS容器具有公开的namenode和datanode端口。您可以在EXPOSE中使用EXPOSE指令（链接的容器没有这些指令），或者在调用--expose时使用--expose参数。默认端口是8020和50010（分别用于NN和DN）。
在同一个networking上启动容器。如果你只是做没有 – networkingdocker run ，他们将开始在默认networking，你会没事的。使用--name参数启动具有特定名称的HDFS容器。
现在修改你的URI以包含适当的权限（这将是你传递的docker --name参数的值）和端口，如上所述，它应该工作

从运行Spark的另一个Docker容器写入Docker中运行的HDFS

docker集装箱映射到相同的端口

docker上的文件名太长

将一个jar提交到sequenceiq docker-spark容器

Docker容器上的Spark包

具有Apache Spark的Docker容器，处于独立群集模式

运行在Docker容器内的纱线容器

连接火花大师通过docker组成火花奴隶

在zeppelin-server上，Apache-Zeppelin 0.7从源代码生成失败

在“docker run”命令中，“sandbox”是什么意思？

无法在Spark上运行Docker上的Cassandra