如何连接火花(在远程的CDH-5.8dockervms)? 我需要在容器上映射端口7077吗?

目前,我可以从我的应用程序中访问HDFS,但是我也希望(而不是运行本地的火花)使用Cloudera的火花,因为它在Cloudera Manager中启用。

现在我已经在core-site.xml中定义了HDFS,并将我的应用程序作为(–master)YARN运行。 因此,我不需要将机器地址设置为我的HDFS文件。 这样,我的SPARK作业在本地运行,而不是在“集群”中运行。 我现在不想要这个。 当我尝试设置 – 主pipe[名称节点]:[端口]它不连接。 我想知道是否正在导航到正确的端口,或者如果我必须映射此端口在docker集装箱。 或者如果我错过了有关纱线设置的东西。

另外,我一直在testingSnappyData(Inc)解决scheme作为Spark SQL内存数据库。 所以我的目标是在本地运行快速的JVM,但redirectSpark作业到VM群集。 这里的整个想法是针对一些Hadoop实现来testing一些性能。 这个解决scheme并不是最终的产品(如果运行速度是本地的,火花是“真的”远程的,我相信效率不高),但是在这种情况下,我会把精力充沛的JVM带到同一个集群中。

提前致谢!