Tag: apache zeppelin

连接齐柏林docker与蜂巢

嗨,我是相当新的docker和齐柏林飞艇。 我最近从这个链接创build了一个齐柏林docker。 我正尝试通过HiveContext与齐柏林笔记本上的configuration单元连接。 从解释器页面spark中将zeppelin.spark.useHiveContext设置为true。 当我尝试下面的代码: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) 正在给出以下错误: <console>:30: error: object hive is not a member of package org.apache.spark.sql val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) 我是否仍然需要安assembly置单元解释器,甚至难以使用的UseContext是真实的? 现在我只想检查一下将来是否可以连接Hive数据库。

在Zeppelin中看不到Docker的文件

我正在使用Docker进行关于Spark的课程。 我已经build立了像这样的环境: docker pull bigdatauniversity/spark2 docker run -it –name bdu_spark2 -P -p 4040:4040 -p 4041:4041 -p 8080:8080 -p 8081:8081 bigdatauniversity/spark2:latest /etc/bootstrap.sh -bash 然后我退出了Docker并运行: docker start bdu_spark2 docker attach bdu_spark2 现在,当我进入齐柏林时,我无法find课程的文件。 我试着找出是否有另一个Zeppelin进程运行在另一个端口,所以我在Docker控制台中运行: docker ps 但是,命令docker不被识别: bash: docker: command not found 我也尝试运行docker exec -it docker ps但是得到了同样的结果。 那么我怎样才能在Zeppelin看到Docker容器中的文件呢?

在火花集群模式下运行齐柏林飞艇

我在Docker容器中使用这个教程Spark模式的纱线模式来在纱线模式下在Spark集群中启动Zeppelin。 然而,我卡在第4步。我找不到conf / zeppelin-env.sh在我的docker容器进行进一步的configuration。 我试图把这些configuration文件夹的齐柏林飞船,但现在成功了。 除此之外,齐柏林笔记本电脑也不在localhost:9001上运行。 我对分布式系统非常陌生,如果有人可以帮我在纱线模式下启动Spark Spark上的Zeppelin,那将是非常棒的。 这里是我的docker-compose文件,用来启用与spark集群的zeppelin对话。 version: '2' services: sparkmaster: build: . container_name: sparkmaster ports: – "8080:8080" – "7077:7077" – "8888:8888" – "8081:8081" – "8082:8082" – "5050:5050" – "5051:5051" – "4040:4040" zeppelin: image: dylanmei/zeppelin container_name: zeppelin-notebook env_file: – ./hadoop.env environment: ZEPPELIN_PORT: 9001 CORE_CONF_fs_defaultFS: "hdfs://namenode:8020" HADOOP_CONF_DIR_fs_defaultFS: "hdfs://namenode:8020" SPARK_MASTER: "spark://spark-master:7077" MASTER: "yarn-client" SPARK_HOME: spark-master […]

Docker和Zeppelin操作系统的特权

我已经将Zeppelin应用程序docker化了。 现在我想看看docker和zeppelin各自拥有哪些操作系统特权。 我已经尝试了如下所示的一些命令,但是它没有给我预期的输出。 docker service ls docker service inspect –pretty redis 另外,列出Docker中可能可用的所有服务的命令是什么?

无法在Spark上运行Docker上的Cassandra

我有一个在Docker上运行的Zeppelin笔记本。 我有以下代码使用Cassandra: import org.apache.spark.sql.cassandra._ val cqlContext = new CassandraSQLContext(sc) cqlContext.sql("select * from demo.table").collect.foreach(println) 但是,我得到这个错误: import org.apache.spark.sql.cassandra._ cqlContext: org.apache.spark.sql.cassandra.CassandraSQLContext = org.apache.spark.sql.cassandra.CassandraSQLContext@395e28a8 com.google.common.util.concurrent.UncheckedExecutionException: java.lang.IllegalArgumentException: Cannot build a cluster without contact points at com.google.common.cache.LocalCache$Segment.get(LocalCache.java:2199) at com.google.common.cache.LocalCache.get(LocalCache.java:3932) at com.google.common.cache.LocalCache.getOrLoad(LocalCache.java:3936) at com.google.common.cache.LocalCache$LocalLoadingCache.get(LocalCache.java:4806) at org.apache.spark.sql.cassandra.CassandraCatalog.lookupRelation(CassandraCatalog.scala:28) at org.apache.spark.sql.cassandra.CassandraSQLContext$$anon$2.org$apache$spark$sql$catalyst$analysis$OverrideCatalog$$super$lookupRelation(CassandraSQLContext.scala:219) at org.apache.spark.sql.catalyst.analysis.OverrideCatalog$$anonfun$lookupRelation$3.apply(Catalog.scala:137) at org.apache.spark.sql.catalyst.analysis.OverrideCatalog$$anonfun$lookupRelation$3.apply(Catalog.scala:137) at scala.Option.getOrElse(Option.scala:120) at org.apache.spark.sql.catalyst.analysis.OverrideCatalog$class.lookupRelation(Catalog.scala:137) at org.apache.spark.sql.cassandra.CassandraSQLContext$$anon$2.lookupRelation(CassandraSQLContext.scala:219) at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations$$anonfun$apply$5.applyOrElse(Analyzer.scala:143) at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations$$anonfun$apply$5.applyOrElse(Analyzer.scala:138) […]

用dockerlogin到zeppelin的问题

我已经下载了许多zeppeling / spark图像,并且所有这些图像都无法login到笔记本中。 这是容器中的shiro.ini文件: … admin = password1 user1 = password2 user2 = password3 # Sample LDAP configuration, for user Authentication, currently tested for single Realm [main] #ldapRealm = org.apache.shiro.realm.ldap.JndiLdapRealm #ldapRealm.userDnTemplate = cn={0},cn=engg,ou=testdomain,dc=testdomain,dc=com #ldapRealm.contextFactory.url = ldap://ldaphost:389 #ldapRealm.contextFactory.authenticationMechanism = SIMPLE [urls] # anon means the access is anonymous. # authcBasic means Basic Auth Security # To […]

在zeppelin-server上,Apache-Zeppelin 0.7从源代码生成失败

我安装Apache Zeppelin 0.7.0在一个Docker容器中运行在Ubuntu 14.04下,在本地模式下运行Spark时出现了一个奇怪的错误。 我用这个命令build立Zeppelin(作为root): mvn clean package -U -X -DskipTests -Pspark-2.0 -Dspark.version=2.0.2 -Phadoop-2.7 -Pyarn -Ppyspark -Psparkr -Pr -Pscala-2.11 build立到达飞艇服务器时的Bug告诉我: [WARNING] The POM for org.apache.zeppelin:zeppelin-zengine:jar:0.7.0-SNAPSHOT is missing, no dependency information available 导致以下警告: [WARNING] The requested profile "spark-2.0" could not be activated because it does not exist. [WARNING] The requested profile "hadoop-2.7" could not be activated […]

通过zeppelin从docker-hadoop-spark-workbench访问hdfs

我已经安装了https://github.com/big-data-europe/docker-hadoop-spark-workbench 然后用docker-compose up 。 我浏览了git自述文件中提到的各种URL,并且都显示出来了。 然后我开始了一个本地apache zeppelin: ./bin/zeppelin.sh start 在zeppelin解释器设置中,我已经导航,然后启动解释器并更新主站点以指向安装了docker的本地群集 主:从local[*]更新为spark://localhost:8080 然后我在笔记本上运行下面的代码: import org.apache.hadoop.fs.{FileSystem,Path} FileSystem.get( sc.hadoopConfiguration ).listStatus( new Path("hdfs:///")).foreach( x => println(x.getPath )) 我在zeppelin日志中得到这个exception: INFO [2017-12-15 18:06:35,704] ({pool-2-thread-2} Paragraph.java[jobRun]:362) – run paragraph 20171212-200101_1553252595 using null org.apache.zeppelin.interpreter.LazyOpenInterpreter@32d09a20 WARN [2017-12-15 18:07:37,717] ({pool-2-thread-2} NotebookServer.java[afterStatusChange]:2064) – Job 20171212-200101_1553252595 is finished, status: ERROR, exception: null, result: %text java.lang.NullPointerException at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:38) […]

如何在dockerized Apache Zeppelin后面展示Spark Driver?

我目前正在使用Apache Zeppelin + Spark 2.x从简单的发行版中构build一个定制的docker容器。 我的Spark作业将在远程集群中运行,并使用yarn-client作为主节点。 当我运行笔记本并尝试打印sc.version ,程序卡住了。 如果我去远程资源pipe理器,一个应用程序已经被创build和接受,但在日志中,我可以读: INFO yarn.ApplicationMaster: Waiting for Spark driver to be reachable 我对这种情况的理解是,集群无法与容器中的驱动程序交谈,但是我不知道如何解决这个问题。 我目前正在使用以下configuration: spark.driver.port设置为PORT1 ,选项-p PORT1:PORT1传递给容器 spark.driver.host设置为172.17.0.2 (容器的ip) SPARK_LOCAL_IP设置为172.17.0.2 (容器的IP地址) spark.ui.port设置为PORT2 ,选项-p PORT2:PORT2传递给容器 我觉得我应该把SPARK_LOCAL_IP改成主机IP,但是如果我这样做的话,SparkUI将无法启动,阻止了之前的一个步骤。 提前感谢您的任何想法/build议!