Tag: apache spark

在Docker容器上使用Hadoop和Spark

我想为我的工作使用大数据分析。 我已经实现了所有在容器中创build容器的docker东西。 我是大数据新手,但是我已经知道在Hadoop上使用Hadoop for HDFS和使用Spark而不是MapReduce本身是网站和应用程序在速度问题上的最好方式(是吗?)。 这将在我的Docker容器上工作吗? 如果有人能够指引我学习更多东西,这将是非常有帮助的。

在zeppelin-server上,Apache-Zeppelin 0.7从源代码生成失败

我安装Apache Zeppelin 0.7.0在一个Docker容器中运行在Ubuntu 14.04下,在本地模式下运行Spark时出现了一个奇怪的错误。 我用这个命令build立Zeppelin(作为root): mvn clean package -U -X -DskipTests -Pspark-2.0 -Dspark.version=2.0.2 -Phadoop-2.7 -Pyarn -Ppyspark -Psparkr -Pr -Pscala-2.11 build立到达飞艇服务器时的Bug告诉我: [WARNING] The POM for org.apache.zeppelin:zeppelin-zengine:jar:0.7.0-SNAPSHOT is missing, no dependency information available 导致以下警告: [WARNING] The requested profile "spark-2.0" could not be activated because it does not exist. [WARNING] The requested profile "hadoop-2.7" could not be activated […]

如何在Docker容器中设置执行器IP?

最后3天,我试图设置一个Docker机器,包含3个组件:Spark Master,Spark Worker和Driver(Java)应用程序 从Docker启动驱动程序OUTSIDE时,一切正常。 然而,启动这三个组件都会导致port-firewall-host-nightmare 为了保持它(起初)简单,我使用docker-compose – 这是我的docker-compose.yml: driver: hostname: driver image: driverimage command: -Dexec.args="0 192.168.99.100" -Dspark.driver.port=7001 -Dspark.driver.host=driver -Dspark.executor.port=7006 -Dspark.broadcast.port=15001 -Dspark.fileserver.port=15002 -Dspark.blockManager.port=15003 -Dspark.broadcast.factory=org.apache.spark.broadcast.HttpBroadcastFactory ports: – 10200:10200 # Module REST Port – 4040:4040 # Web UI (Spark) – 7001:7001 # Driver Port (Spark) – 15001:15001 # Broadcast (Spark) – 15002:15002 # File Server (Spark) – 15003:15003 […]

参考Zeppelin到Spark Master(在Docker容器中)

感谢您分享您的时间。 我有一个Docker设置如下:一个Docker-Compose文件,启动一个Zookeeper,Solrcloud,Spark Master / Worker和Zeppelin的实例。 他们都开始完美运行。 Solrcloud和Spark与Zookeeper连接。 现在我想把齐柏林连接到火花大师。 但它不适合我。 在我的docker-compose文件中,我设置了ZEPPELIN_SPARK_MASTER: spark://spark:7077并设置了SPARK_HOME 。 然而,它不工作,因为我可以在Spark UI中看到(只显示了Spark Worker)。 所有的端口都打开。 我停用了防火墙,仍然没有工作。 – Ubuntu 16.04 LTS

匿名UID的Apache Spark独立(无用户名)

我正在OpenShift平台上启动Apache Spark从节点。 OpenShift内部启动泊坞窗图像作为匿名用户(用户没有名字,但只是UID)。 我得到以下exception 17/07/17 16:46:53 INFO SignalUtils: Registered signal handler for INT 12 17/07/17 16:46:55 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable 13 Exception in thread "main" java.io.IOException: failure to login 14 at org.apache.hadoop.security.UserGroupInformation.loginUserFromSubject(UserGroupInformation.java:824) 15 at org.apache.hadoop.security.UserGroupInformation.getLoginUser(UserGroupInformation.java:761) 16 at org.apache.hadoop.security.UserGroupInformation.getCurrentUser(UserGroupInformation.java:634) 17 at org.apache.spark.util.Utils$$anonfun$getCurrentUserName$1.apply(Utils.scala:2391) 18 at org.apache.spark.util.Utils$$anonfun$getCurrentUserName$1.apply(Utils.scala:2391) […]

BigTop docker-hadoop.sh无法启动

我正在使用BigTop 1.2.0stream浪租户运行良好,但是当我尝试使用Docker预configuration时显示以下错误: 命令 $ ./docker-hadoop.sh -c 3 错误 环境检查…检查docker:docker版本17.09.0-ce,构buildafdb6d4检查docker构成:docker构成版本1.16.1,构build6d1ac219检查ruby:ruby2.4.2p198(2017-09-14修订59899)[ NilClass(NoMethodError)-e:1:in <main>': undefined method []'为nil:NilClass(NoMethodError)x64-mingw32] -e:1:in <main>': undefined method []'缩放命令已被弃用。 改为使用up命令和–scale标志。 创build20171020215450r21863_bigtop_1 …创build20171020215450r21863_bigtop_2 …创build20171020215450r21863_bigtop_3 … 错误:对于20171020215450r21863_bigtop_2未提供资源ID错误:对于20171020215450r21863_bigtop_3未提供资源ID错误:对于20171020215450r21863_bigtop_1未提供资源ID 回溯(最近一次通话最后): 在第6行的文件“docker-compose”中 文件“compose \ cli \ main.py”,第68行 在perform_command文件“compose \ cli \ main.py”,第121行 文件“compose \ cli \ main.py”,行796,按比例 在_execute_convergence_start文件“compose \ service.py”,第257行,在文件“compose \ service.py”,行444,在_execute_convergence_start文件“compose \ service.py”,行395,在_execute_convergence_create文件“compose \ parallel.py”第70行,在parallel_execute docker.errors.NullResource:没有提供资源ID无法执行脚本docker-compose Docker容器启动失败! 提前致谢。

Hadoop“无法为您的平台加载本地Hadoop库”错误docker火花?

我正在使用docker-spark 。 启动spark-shell ,输出: 15/05/21 04:28:22 DEBUG NativeCodeLoader: Failed to load native-hadoop with error: java.lang.UnsatisfiedLinkError:no hadoop in java.library.path 15/05/21 04:28:22 DEBUG NativeCodeLoader: java.library.path=/usr/java/packages/lib/amd64:/usr/lib64:/lib64:/lib:/usr/lib 这个spark container的环境variables是: bash-4.1# export declare -x BOOTSTRAP="/etc/bootstrap.sh" declare -x HADOOP_COMMON_HOME="/usr/local/hadoop" declare -x HADOOP_CONF_DIR="/usr/local/hadoop/etc/hadoop" declare -x HADOOP_HDFS_HOME="/usr/local/hadoop" declare -x HADOOP_MAPRED_HOME="/usr/local/hadoop" declare -x HADOOP_PREFIX="/usr/local/hadoop" declare -x HADOOP_YARN_HOME="/usr/local/hadoop" declare -x HOME="/" declare -x HOSTNAME="sandbox" declare […]

通过zeppelin从docker-hadoop-spark-workbench访问hdfs

我已经安装了https://github.com/big-data-europe/docker-hadoop-spark-workbench 然后用docker-compose up 。 我浏览了git自述文件中提到的各种URL,并且都显示出来了。 然后我开始了一个本地apache zeppelin: ./bin/zeppelin.sh start 在zeppelin解释器设置中,我已经导航,然后启动解释器并更新主站点以指向安装了docker的本地群集 主:从local[*]更新为spark://localhost:8080 然后我在笔记本上运行下面的代码: import org.apache.hadoop.fs.{FileSystem,Path} FileSystem.get( sc.hadoopConfiguration ).listStatus( new Path("hdfs:///")).foreach( x => println(x.getPath )) 我在zeppelin日志中得到这个exception: INFO [2017-12-15 18:06:35,704] ({pool-2-thread-2} Paragraph.java[jobRun]:362) – run paragraph 20171212-200101_1553252595 using null org.apache.zeppelin.interpreter.LazyOpenInterpreter@32d09a20 WARN [2017-12-15 18:07:37,717] ({pool-2-thread-2} NotebookServer.java[afterStatusChange]:2064) – Job 20171212-200101_1553252595 is finished, status: ERROR, exception: null, result: %text java.lang.NullPointerException at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:38) […]

使用Docker容器在独立群集上Spark SPARK_PUBLIC_DNS和SPARK_LOCAL_IP

到目前为止,我只在Linux机器和虚拟机(桥接networking)上运行Spark,但是现在我有兴趣将更多的计算机用作从机。 在计算机上分配一个Spark Slave Docker容器并将它们自动连接到一个硬编码的Spark master ip将会很方便。 这个工作已经很短了,但是在从属容器上configuration正确的SPARK_LOCAL_IP(或者–start-slave.sh的–host参数)时有问题。 我想我正确地configuration了SPARK_PUBLIC_DNS envvariables来匹配主机的networking可访问IP(从10.0.xx地址空间),至less它在Spark主Web UI上显示,并且可以被所有机器访问。 我也按照http://sometechshit.blogspot.ru/2015/04/running-spark-standalone-cluster-in.html中的说明设置了SPARK_WORKER_OPTS和Docker端口,但在我的情况下,Spark主服务器正在运行机器,而不是在Docker里面。 我从networking中的其他机器启动Spark作业,可能也运行从机本身。 我试过的东西: 从根本上不configurationSPARK_LOCAL_IP,从属绑定到容器的IP(如172.17.0.45),不能从主设备或驱动程序连接,计算大部分时间仍然工作,但并不总是 绑定到0.0.0.0,奴隶跟主人说话,build立连接但是死了,另外一个奴隶出现,消失,继续这样循环 绑定到主机IP,启动失败,因为该IP在容器内不可见,但是由于configuration了端口转发,其他人可以访问 我想知道为什么在连接到从站时没有使用configuration的SPARK_PUBLIC_DNS? 我以为SPARK_LOCAL_IP只会影响本地绑定,但不会被透露给外部的电脑。 在https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/troubleshooting/connectivity_issues.html上,他们指示“将SPARK_LOCAL_IP设置为驱动程序,主服务器和工作进程的集群可寻址主机名”这是唯一的select? 我会避免额外的DNSconfiguration,只需使用ips来configuration计算机之间的stream量。 还是有一个简单的方法来实现呢? 编辑:总结当前的设置: Master正在Linux上运行(使用桥接networking的Windows上的VirtualBox上的VM) 驱动程序从其他Windows机器提交作业,效果很好 用于启动从站的Docker映像以“saved”.tar.gz文件forms发布,并加载(curl xyz | gunzip | docker load),并在networking中的其他机器上启动,具有私有/公共ipconfiguration

Elasticsearch-Hadoop库无法连接到Docker容器

我已经从Cassandra读取数据,处理/转换/过滤数据,并将结果写入Elasticsearch。 我使用docker进行集成testing,并且遇到了从spark写入Elasticsearch的麻烦。 依赖关系: "joda-time" % "joda-time" % "2.9.4", "javax.servlet" % "javax.servlet-api" % "3.1.0", "org.elasticsearch" % "elasticsearch" % "2.3.2", "org.scalatest" %% "scalatest" % "2.2.1", "com.github.nscala-time" %% "nscala-time" % "2.10.0", "cascading" % "cascading-hadoop" % "2.6.3", "cascading" % "cascading-local" % "2.6.3", "com.datastax.spark" %% "spark-cassandra-connector" % "1.4.2", "com.datastax.cassandra" % "cassandra-driver-core" % "2.1.5", "org.elasticsearch" % "elasticsearch-hadoop" % "2.3.2" excludeAll(ExclusionRule("org.apache.storm")), "org.apache.spark" […]