Tag: cluster computing

火花工人的WebUI访问

我们有一个由docker swarm构build的集群,由1个Manager 3 Worker节点组成。 可以看出: 我们在集群上运行Apache Spark。 它由一个主人和四个工人组成。 它被视为在主networking用户界面上 问题是我不能访问工作节点的细节。 它想连接到一个IP(10.0.0.5:8081)。 但是我无法从我的本地机器访问链接。

Docker容器中的ntpd服务已死,无法重新启动

我正在尝试使用docker和ambari安装一个本地的hadoop集群,问题是im ambari安装检查显示NTP没有运行,并且需要知道安装了ambari的服务是否正在运行。 我检查了容器中的ntpd并试图启动它们,但是失败了 [root@97ea7075ca78 ~]# service ntpd start Starting ntpd: [ OK ] [root@97ea7075ca78 ~]# service ntpd status ntpd dead but pid file exists 有没有办法在这些容器中启动ntp守护进程?

Docker中的Spark独立群集在networking“桥”

我的问题是从其他节点的奴隶之间的连接到主。 我有3个节点设置如下: 主节点和1个工作节点在同一个泊坞窗上启动1个节点 2个节点,每个docker有1个工人 docker – 撰写这些端口: version: '2' services: spark: image: xxxxxxxx/spark tty: true stdin_open: true container_name: spark volumes: – /var/data/dockerSpark/:/var/data ports: – "7077:7077" – "127.0.0.1:8080:8080" – "7078:7078" – "127.0.0.1:8081:8081" – "127.0.0.1:9010:9010" – "4040:4040" – "18080:18080" – "6066:6066" – "9000:9000" conf / spark-env.sh如下: #export STANDALONE_SPARK_MASTER_HOST=172.xx.xx.xx #This is the docker Ip adress on the node […]

如何configurationSpark和OpenMPI在集群上共存的优先级?

我们有一个运行Spark的小群集来执行面向公众的Web应用程序的作业。 这里使用Spark的目标是为Web应用程序提供一个高效的延迟,因此提交作业时,需要尽快从集群中进行响应。 但是大部分时间都是空闲的。 所以当需要的时候,Spark需要很快,但是当不需要的时候,我们想要使用这些计算资源。 例如,我们有一些模拟运行使用OpenMP进行本地线程和OpenMPI来在整个集群中分配处理。 这需要一些时间来运行,我们只想在Spark不需要的时候使用集群。 是否有可能configurationSpark具有非常高的优先级和淘汰或饿死其他程序? 从Spark的configuration中,我可以看到有关限制内存和内核使用的几个选项,但与赋予Spark更高的优先级没有多大关系。 我们正在考虑使用Torque来控制OpenMPI模拟的作业队列。 我们正在考虑在Docker容器中运行它们,以便更新它们,因为它们正在开发中。 这个想法是发出一个Torque命令,它将基本上拖动一个Docker镜像,在每台机器上启动它,并触发OpenMPI应用程序。 这太复杂吗? 任何其他build议? 我们可以放弃Torque并直接使用Spark来控制OpenMPI作业吗? 如果一个Spark工作具有更高的优先级,可以打断另一个工作吗 目前一切正在运行在Fedora上。 TL;博士 更大的问题在于,如何在群集上启动长时间运行的计算密集型分布式作业,同时仍然能够确保在同一硬件上共存的Spark实例的良好延迟? **这篇文章可能会背叛我对Spark的相对陌生。

Spark挂在Docker Mesos集群的身份validation上

我试图模拟使用Docker和Zookeeper的多节点Mesos集群,并试图在其上运行一个简单的(py)Spark作业。 这些Docker容器和pyspark脚本都在同一台机器上运行。 但是,当我执行我的Spark脚本,它挂在: No credentials provided. Attempting to register without authentication Mesos从站不断输出: I0929 14:59:32.925915 62 slave.cpp:1959] Asked to shut down framework 20150929-143802-1224741292-5050-33-0060 by master@172.17.0.73:5050 W0929 14:59:32.926035 62 slave.cpp:1974] Cannot shut down unknown framework 20150929-143802-1224741292-5050-33-0060 Mesos大师不断输出: I0929 14:38:15.169683 39 master.cpp:2094] Received SUBSCRIBE call for framework 'test' at scheduler-2f4e1e52-a04a-401f-b9aa-1253554fe73b@127.0.1.1:46693 I0929 14:38:15.169845 39 master.cpp:2164] Subscribing framework test with […]

如何设置自动缩放RabbitMQ Cluster AWS

我试图从SQS转移到RabbitMQ的消息服务。 我期待构build一个稳定的高可用性排队服务。 现在我正在与群集。 目前的实现 ,我有三个与RabbitMQ与pipe理插件安装在一个AMI的EC2机器,然后我明确地去每个机器和添加 sudo rabbitmqctl join_cluster rabbit@<hostnameOfParentMachine> HA属性设置为全部,同步工作。 而负载均衡器上面分配了一个DNS。 到目前为止这个东西的作品 预期实现 :创build一个自动调节群集环境,其中上/下行的机器必须dynamic地join/移除群集。 达到这个目标的最好方法是什么? 请帮忙。