Tag: cluster computing

火花工人的WebUI访问: 我们有一个由docker swarm构build的集群，由1个Manager 3 Worker节点组成。可以看出：我们在集群上运行Apache Spark。它由一个主人和四个工人组成。它被视为在主networking用户界面上问题是我不能访问工作节点的细节。它想连接到一个IP（10.0.0.5:8081）。但是我无法从我的本地机器访问链接。

Docker容器中的ntpd服务已死，无法重新启动: 我正在尝试使用docker和ambari安装一个本地的hadoop集群，问题是im ambari安装检查显示NTP没有运行，并且需要知道安装了ambari的服务是否正在运行。我检查了容器中的ntpd并试图启动它们，但是失败了 [root@97ea7075ca78 ~]# service ntpd start Starting ntpd: [ OK ] [root@97ea7075ca78 ~]# service ntpd status ntpd dead but pid file exists 有没有办法在这些容器中启动ntp守护进程？

Docker中的Spark独立群集在networking“桥”: 我的问题是从其他节点的奴隶之间的连接到主。我有3个节点设置如下：主节点和1个工作节点在同一个泊坞窗上启动1个节点 2个节点，每个docker有1个工人 docker – 撰写这些端口： version: '2' services: spark: image: xxxxxxxx/spark tty: true stdin_open: true container_name: spark volumes: – /var/data/dockerSpark/:/var/data ports: – "7077:7077" – "127.0.0.1:8080:8080" – "7078:7078" – "127.0.0.1:8081:8081" – "127.0.0.1:9010:9010" – "4040:4040" – "18080:18080" – "6066:6066" – "9000:9000" conf / spark-env.sh如下： #export STANDALONE_SPARK_MASTER_HOST=172.xx.xx.xx #This is the docker Ip adress on the node […]

如何configurationSpark和OpenMPI在集群上共存的优先级？: 我们有一个运行Spark的小群集来执行面向公众的Web应用程序的作业。这里使用Spark的目标是为Web应用程序提供一个高效的延迟，因此提交作业时，需要尽快从集群中进行响应。但是大部分时间都是空闲的。所以当需要的时候，Spark需要很快，但是当不需要的时候，我们想要使用这些计算资源。例如，我们有一些模拟运行使用OpenMP进行本地线程和OpenMPI来在整个集群中分配处理。这需要一些时间来运行，我们只想在Spark不需要的时候使用集群。是否有可能configurationSpark具有非常高的优先级和淘汰或饿死其他程序？从Spark的configuration中，我可以看到有关限制内存和内核使用的几个选项，但与赋予Spark更高的优先级没有多大关系。我们正在考虑使用Torque来控制OpenMPI模拟的作业队列。我们正在考虑在Docker容器中运行它们，以便更新它们，因为它们正在开发中。这个想法是发出一个Torque命令，它将基本上拖动一个Docker镜像，在每台机器上启动它，并触发OpenMPI应用程序。这太复杂吗？任何其他build议？我们可以放弃Torque并直接使用Spark来控制OpenMPI作业吗？如果一个Spark工作具有更高的优先级，可以打断另一个工作吗目前一切正在运行在Fedora上。 TL;博士更大的问题在于，如何在群集上启动长时间运行的计算密集型分布式作业，同时仍然能够确保在同一硬件上共存的Spark实例的良好延迟？ **这篇文章可能会背叛我对Spark的相对陌生。

Spark挂在Docker Mesos集群的身份validation上: 我试图模拟使用Docker和Zookeeper的多节点Mesos集群，并试图在其上运行一个简单的（py）Spark作业。这些Docker容器和pyspark脚本都在同一台机器上运行。但是，当我执行我的Spark脚本，它挂在： No credentials provided. Attempting to register without authentication Mesos从站不断输出： I0929 14:59:32.925915 62 slave.cpp:1959] Asked to shut down framework 20150929-143802-1224741292-5050-33-0060 by master@172.17.0.73:5050 W0929 14:59:32.926035 62 slave.cpp:1974] Cannot shut down unknown framework 20150929-143802-1224741292-5050-33-0060 Mesos大师不断输出： I0929 14:38:15.169683 39 master.cpp:2094] Received SUBSCRIBE call for framework 'test' at scheduler-2f4e1e52-a04a-401f-b9aa-1253554fe73b@127.0.1.1:46693 I0929 14:38:15.169845 39 master.cpp:2164] Subscribing framework test with […]

如何设置自动缩放RabbitMQ Cluster AWS: 我试图从SQS转移到RabbitMQ的消息服务。我期待构build一个稳定的高可用性排队服务。现在我正在与群集。目前的实现，我有三个与RabbitMQ与pipe理插件安装在一个AMI的EC2机器，然后我明确地去每个机器和添加 sudo rabbitmqctl join_cluster rabbit@<hostnameOfParentMachine> HA属性设置为全部，同步工作。而负载均衡器上面分配了一个DNS。到目前为止这个东西的作品预期实现：创build一个自动调节群集环境，其中上/下行的机器必须dynamic地join/移除群集。达到这个目标的最好方法是什么？请帮忙。