在spark上configuration,总是在spark master web UI的job application中错误的executor_cores

我试图将mapreduce上的configurationhive 2.1.1切换到configuration单元上。 正如火花官方网站上的configuration单元所说,我在没有configuration单元的情况下构build了一个spark 1.6.0 (在蜂巢2.1.1源代码POM中引发了转速)。 Spark在submit/spark-shelltesting中工作正常。 我设定了

spark.executor.cores / spark.executor.memory

hive-site.xml ,也通过限制这两个

SPARK_WORKER_CORES / SPARK_WORKER_MEMORY

spark-env.sh 。 但是当我从configuration单元cli启动一个像select count(*)的configuration单元查询之后,spark master web UI中的作业总是被应用0个CPU核心,所以这个作业不被执行,并且hive查询在cli中一直等待。 并且在Docker环境中设置Spark集群,每个服务器都是运行在服务器上的一个Docker容器,最多可以添加160个内核/ 160g内存 。 在设置SPARK_WORKER_CORES / SPARK_WORKER_MEMORY之前,总是应用156个内核,这也导致没有足够资源的故障。 在将SPARK_WORKER_CORES / SPARK_WORKER_MEMORY限制为分配给docker集装箱的资源之后,将应用0。

我被困在这个问题上2天没有进展。 希望熟悉Docker的configuration单元或者在docker env上运行configuration单元的任何人的一些技巧。

我不认为spark执行引擎与蜂巢完全配合。 你正在尝试的hive版本与spark整合,是用spark 2.0.0而不是1.6.0来构build的 。之前已经有很多讨论过了。 在这里看到线程你最好用Tez,因为许多用户在那个线程上报告。