Tag: apache spark

在Docker容器上使用Hadoop和Spark: 我想为我的工作使用大数据分析。我已经实现了所有在容器中创build容器的docker东西。我是大数据新手，但是我已经知道在Hadoop上使用Hadoop for HDFS和使用Spark而不是MapReduce本身是网站和应用程序在速度问题上的最好方式（是吗？）。这将在我的Docker容器上工作吗？如果有人能够指引我学习更多东西，这将是非常有帮助的。

在zeppelin-server上，Apache-Zeppelin 0.7从源代码生成失败: 我安装Apache Zeppelin 0.7.0在一个Docker容器中运行在Ubuntu 14.04下，在本地模式下运行Spark时出现了一个奇怪的错误。我用这个命令build立Zeppelin（作为root）： mvn clean package -U -X -DskipTests -Pspark-2.0 -Dspark.version=2.0.2 -Phadoop-2.7 -Pyarn -Ppyspark -Psparkr -Pr -Pscala-2.11 build立到达飞艇服务器时的Bug告诉我： [WARNING] The POM for org.apache.zeppelin:zeppelin-zengine:jar:0.7.0-SNAPSHOT is missing, no dependency information available 导致以下警告： [WARNING] The requested profile "spark-2.0" could not be activated because it does not exist. [WARNING] The requested profile "hadoop-2.7" could not be activated […]

如何在Docker容器中设置执行器IP？: 最后3天，我试图设置一个Docker机器，包含3个组件：Spark Master，Spark Worker和Driver（Java）应用程序从Docker启动驱动程序OUTSIDE时，一切正常。然而，启动这三个组件都会导致port-firewall-host-nightmare 为了保持它（起初）简单，我使用docker-compose – 这是我的docker-compose.yml： driver: hostname: driver image: driverimage command: -Dexec.args="0 192.168.99.100" -Dspark.driver.port=7001 -Dspark.driver.host=driver -Dspark.executor.port=7006 -Dspark.broadcast.port=15001 -Dspark.fileserver.port=15002 -Dspark.blockManager.port=15003 -Dspark.broadcast.factory=org.apache.spark.broadcast.HttpBroadcastFactory ports: – 10200:10200 # Module REST Port – 4040:4040 # Web UI (Spark) – 7001:7001 # Driver Port (Spark) – 15001:15001 # Broadcast (Spark) – 15002:15002 # File Server (Spark) – 15003:15003 […]

参考Zeppelin到Spark Master（在Docker容器中）: 感谢您分享您的时间。我有一个Docker设置如下：一个Docker-Compose文件，启动一个Zookeeper，Solrcloud，Spark Master / Worker和Zeppelin的实例。他们都开始完美运行。 Solrcloud和Spark与Zookeeper连接。现在我想把齐柏林连接到火花大师。但它不适合我。在我的docker-compose文件中，我设置了ZEPPELIN_SPARK_MASTER: spark://spark:7077并设置了SPARK_HOME 。然而，它不工作，因为我可以在Spark UI中看到（只显示了Spark Worker）。所有的端口都打开。我停用了防火墙，仍然没有工作。 – Ubuntu 16.04 LTS

匿名UID的Apache Spark独立（无用户名）: 我正在OpenShift平台上启动Apache Spark从节点。 OpenShift内部启动泊坞窗图像作为匿名用户（用户没有名字，但只是UID）。我得到以下exception 17/07/17 16:46:53 INFO SignalUtils: Registered signal handler for INT 12 17/07/17 16:46:55 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable 13 Exception in thread "main" java.io.IOException: failure to login 14 at org.apache.hadoop.security.UserGroupInformation.loginUserFromSubject(UserGroupInformation.java:824) 15 at org.apache.hadoop.security.UserGroupInformation.getLoginUser(UserGroupInformation.java:761) 16 at org.apache.hadoop.security.UserGroupInformation.getCurrentUser(UserGroupInformation.java:634) 17 at org.apache.spark.util.Utils$$anonfun$getCurrentUserName$1.apply(Utils.scala:2391) 18 at org.apache.spark.util.Utils$$anonfun$getCurrentUserName$1.apply(Utils.scala:2391) […]

BigTop docker-hadoop.sh无法启动: 我正在使用BigTop 1.2.0stream浪租户运行良好，但是当我尝试使用Docker预configuration时显示以下错误：命令 $ ./docker-hadoop.sh -c 3 错误环境检查…检查docker：docker版本17.09.0-ce，构buildafdb6d4检查docker构成：docker构成版本1.16.1，构build6d1ac219检查ruby：ruby2.4.2p198（2017-09-14修订59899）[ NilClass（NoMethodError）-e：1：in <main>': undefined method []'为nil：NilClass（NoMethodError）x64-mingw32] -e：1：in <main>': undefined method []'缩放命令已被弃用。改为使用up命令和–scale标志。创build20171020215450r21863_bigtop_1 …创build20171020215450r21863_bigtop_2 …创build20171020215450r21863_bigtop_3 … 错误：对于20171020215450r21863_bigtop_2未提供资源ID错误：对于20171020215450r21863_bigtop_3未提供资源ID错误：对于20171020215450r21863_bigtop_1未提供资源ID 回溯（最近一次通话最后）：在第6行的文件“docker-compose”中文件“compose \ cli \ main.py”，第68行在perform_command文件“compose \ cli \ main.py”，第121行文件“compose \ cli \ main.py”，行796，按比例在_execute_convergence_start文件“compose \ service.py”，第257行，在文件“compose \ service.py”，行444，在_execute_convergence_start文件“compose \ service.py”，行395，在_execute_convergence_create文件“compose \ parallel.py”第70行，在parallel_execute docker.errors.NullResource：没有提供资源ID无法执行脚本docker-compose Docker容器启动失败！提前致谢。

Hadoop“无法为您的平台加载本地Hadoop库”错误docker火花？: 我正在使用docker-spark 。启动spark-shell ，输出： 15/05/21 04:28:22 DEBUG NativeCodeLoader: Failed to load native-hadoop with error: java.lang.UnsatisfiedLinkError:no hadoop in java.library.path 15/05/21 04:28:22 DEBUG NativeCodeLoader: java.library.path=/usr/java/packages/lib/amd64:/usr/lib64:/lib64:/lib:/usr/lib 这个spark container的环境variables是： bash-4.1# export declare -x BOOTSTRAP="/etc/bootstrap.sh" declare -x HADOOP_COMMON_HOME="/usr/local/hadoop" declare -x HADOOP_CONF_DIR="/usr/local/hadoop/etc/hadoop" declare -x HADOOP_HDFS_HOME="/usr/local/hadoop" declare -x HADOOP_MAPRED_HOME="/usr/local/hadoop" declare -x HADOOP_PREFIX="/usr/local/hadoop" declare -x HADOOP_YARN_HOME="/usr/local/hadoop" declare -x HOME="/" declare -x HOSTNAME="sandbox" declare […]

通过zeppelin从docker-hadoop-spark-workbench访问hdfs: 我已经安装了https://github.com/big-data-europe/docker-hadoop-spark-workbench 然后用docker-compose up 。我浏览了git自述文件中提到的各种URL，并且都显示出来了。然后我开始了一个本地apache zeppelin： ./bin/zeppelin.sh start 在zeppelin解释器设置中，我已经导航，然后启动解释器并更新主站点以指向安装了docker的本地群集主：从local[*]更新为spark://localhost:8080 然后我在笔记本上运行下面的代码： import org.apache.hadoop.fs.{FileSystem,Path} FileSystem.get( sc.hadoopConfiguration ).listStatus( new Path("hdfs:///")).foreach( x => println(x.getPath )) 我在zeppelin日志中得到这个exception： INFO [2017-12-15 18:06:35,704] ({pool-2-thread-2} Paragraph.java[jobRun]:362) – run paragraph 20171212-200101_1553252595 using null org.apache.zeppelin.interpreter.LazyOpenInterpreter@32d09a20 WARN [2017-12-15 18:07:37,717] ({pool-2-thread-2} NotebookServer.java[afterStatusChange]:2064) – Job 20171212-200101_1553252595 is finished, status: ERROR, exception: null, result: %text java.lang.NullPointerException at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:38) […]

使用Docker容器在独立群集上Spark SPARK_PUBLIC_DNS和SPARK_LOCAL_IP: 到目前为止，我只在Linux机器和虚拟机（桥接networking）上运行Spark，但是现在我有兴趣将更多的计算机用作从机。在计算机上分配一个Spark Slave Docker容器并将它们自动连接到一个硬编码的Spark master ip将会很方便。这个工作已经很短了，但是在从属容器上configuration正确的SPARK_LOCAL_IP（或者–start-slave.sh的–host参数）时有问题。我想我正确地configuration了SPARK_PUBLIC_DNS envvariables来匹配主机的networking可访问IP（从10.0.xx地址空间），至less它在Spark主Web UI上显示，并且可以被所有机器访问。我也按照http://sometechshit.blogspot.ru/2015/04/running-spark-standalone-cluster-in.html中的说明设置了SPARK_WORKER_OPTS和Docker端口，但在我的情况下，Spark主服务器正在运行机器，而不是在Docker里面。我从networking中的其他机器启动Spark作业，可能也运行从机本身。我试过的东西：从根本上不configurationSPARK_LOCAL_IP，从属绑定到容器的IP（如172.17.0.45），不能从主设备或驱动程序连接，计算大部分时间仍然工作，但并不总是绑定到0.0.0.0，奴隶跟主人说话，build立连接但是死了，另外一个奴隶出现，消失，继续这样循环绑定到主机IP，启动失败，因为该IP在容器内不可见，但是由于configuration了端口转发，其他人可以访问我想知道为什么在连接到从站时没有使用configuration的SPARK_PUBLIC_DNS？我以为SPARK_LOCAL_IP只会影响本地绑定，但不会被透露给外部的电脑。在https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/troubleshooting/connectivity_issues.html上，他们指示“将SPARK_LOCAL_IP设置为驱动程序，主服务器和工作进程的集群可寻址主机名”这是唯一的select？我会避免额外的DNSconfiguration，只需使用ips来configuration计算机之间的stream量。还是有一个简单的方法来实现呢？编辑：总结当前的设置： Master正在Linux上运行（使用桥接networking的Windows上的VirtualBox上的VM）驱动程序从其他Windows机器提交作业，效果很好用于启动从站的Docker映像以“saved”.tar.gz文件forms发布，并加载（curl xyz | gunzip | docker load），并在networking中的其他机器上启动，具有私有/公共ipconfiguration

Elasticsearch-Hadoop库无法连接到Docker容器: 我已经从Cassandra读取数据，处理/转换/过滤数据，并将结果写入Elasticsearch。我使用docker进行集成testing，并且遇到了从spark写入Elasticsearch的麻烦。依赖关系： "joda-time" % "joda-time" % "2.9.4", "javax.servlet" % "javax.servlet-api" % "3.1.0", "org.elasticsearch" % "elasticsearch" % "2.3.2", "org.scalatest" %% "scalatest" % "2.2.1", "com.github.nscala-time" %% "nscala-time" % "2.10.0", "cascading" % "cascading-hadoop" % "2.6.3", "cascading" % "cascading-local" % "2.6.3", "com.datastax.spark" %% "spark-cassandra-connector" % "1.4.2", "com.datastax.cassandra" % "cassandra-driver-core" % "2.1.5", "org.elasticsearch" % "elasticsearch-hadoop" % "2.3.2" excludeAll(ExclusionRule("org.apache.storm")), "org.apache.spark" […]

Tag: apache spark

在Docker容器上使用Hadoop和Spark

在zeppelin-server上，Apache-Zeppelin 0.7从源代码生成失败

如何在Docker容器中设置执行器IP？

参考Zeppelin到Spark Master（在Docker容器中）

匿名UID的Apache Spark独立（无用户名）

BigTop docker-hadoop.sh无法启动

Hadoop“无法为您的平台加载本地Hadoop库”错误docker火花？

通过zeppelin从docker-hadoop-spark-workbench访问hdfs

使用Docker容器在独立群集上Spark SPARK_PUBLIC_DNS和SPARK_LOCAL_IP

Elasticsearch-Hadoop库无法连接到Docker容器

如何在开始时将我的数据库转储导入mariadb？

错误同步pod，registry.access.redhat.com（Kubernetes）失败

docker-compose将不映射容器端口

selenium网格错误PROXY_REREGISTRATION和会话丢失

无法在dockerfile中设置代理

docker群模式下的高可用性

如何在Docker的后台启动railo服务

WordPress的泊坞窗撰写不会启动MySQL

如何mongorestore数据库与docker

泊坞窗login与非交互式会话返回401

单个docker集装箱将在亚马逊的EC2上自动扩展吗？

Deis集群和Scale命令之间的关系？

如何停止docker

Docker本地机器

在Docker构build中caching“去获取”