Tag: openmpi

docker,openmpi和/ proc / mounts行的意外结束

我已经构build了在Docker容器中运行代码的环境。 其中一个组件是OpenMPI,我认为这是问题的根源或者是它的performance。 当我使用MPI运行代码时,我得到消息, Unexpected end of /proc/mounts line `overlay / overlay rw,relatime,lowerdir=/var/lib/docker/overlay2/l/NHW6L2TB73FPMK4A52XDP6SO2V:/var/lib/docker/overlay2/l/MKAGUDHZZTJF4KNSUM73QGVRUD:/var/lib/docker/overlay2/l/4PFRG6M47TX5TYVHKQQO2KCG7Q:/var/lib/docker/overlay2/l/4UR3OEP3IW5ZTADZ6OKT77ZBEU:/var/lib/docker/overlay2/l/LGBMK7HFUCHRTM2MMITMD6ILMG:/var/lib/docker/overlay2/l/ODJ2DJIGYGWRXEJZ6ECSLG7VDJ:/var/lib/docker/overlay2/l/JYQIR5JVEUVQPHEF452BRDVC23:/var/lib/docker/overlay2/l/AUDTRIBKXDZX62ANXO75LD3DW5:/var/lib/docker/overlay2/l/RFFN2MQPDHS2Z' Unexpected end of /proc/mounts line `KNEJCAQH6YG5S:/var/lib/docker/overlay2/l/7LZSAIYKPQ56QB6GEIB2KZTDQA:/var/lib/docker/overlay2/l/CP2WSFS5347GXQZMXFTPWU4F3J:/var/lib/docker/overlay2/l/SJHIWRVQO5IENQFYDG6R5VF7EB:/var/lib/docker/overlay2/l/ICNNZZ4KB64VEFSKEQZUF7XI63:/var/lib/docker/overlay2/l/SOHRMEBEIIP4MRKRRUWMFTXMU2:/var/lib/docker/overlay2/l/DL4GM7DYQUV4RQE4Z6H5XWU2AB:/var/lib/docker/overlay2/l/JNEAR5ISUKIBKQKKZ6GEH6T6NP:/var/lib/docker/overlay2/l/LIAK7F7Q4SSOJBKBFY4R66J2C3:/var/lib/docker/overlay2/l/MYL6XNGBKKZO5CR3PG3HIB475X:/var/lib/do' 该消息是为代码行打印的 MPI_Init(&argc,&argv); 为了使问题更加复杂,只有在主机为mac os x的情况下才会打印警告信息,对于linux主机一切正常。 除了警告信息一切正常。 我不知道如何修复OpenMPI和docker。

如何configurationSpark和OpenMPI在集群上共存的优先级?

我们有一个运行Spark的小群集来执行面向公众的Web应用程序的作业。 这里使用Spark的目标是为Web应用程序提供一个高效的延迟,因此提交作业时,需要尽快从集群中进行响应。 但是大部分时间都是空闲的。 所以当需要的时候,Spark需要很快,但是当不需要的时候,我们想要使用这些计算资源。 例如,我们有一些模拟运行使用OpenMP进行本地线程和OpenMPI来在整个集群中分配处理。 这需要一些时间来运行,我们只想在Spark不需要的时候使用集群。 是否有可能configurationSpark具有非常高的优先级和淘汰或饿死其他程序? 从Spark的configuration中,我可以看到有关限制内存和内核使用的几个选项,但与赋予Spark更高的优先级没有多大关系。 我们正在考虑使用Torque来控制OpenMPI模拟的作业队列。 我们正在考虑在Docker容器中运行它们,以便更新它们,因为它们正在开发中。 这个想法是发出一个Torque命令,它将基本上拖动一个Docker镜像,在每台机器上启动它,并触发OpenMPI应用程序。 这太复杂吗? 任何其他build议? 我们可以放弃Torque并直接使用Spark来控制OpenMPI作业吗? 如果一个Spark工作具有更高的优先级,可以打断另一个工作吗 目前一切正在运行在Fedora上。 TL;博士 更大的问题在于,如何在群集上启动长时间运行的计算密集型分布式作业,同时仍然能够确保在同一硬件上共存的Spark实例的良好延迟? **这篇文章可能会背叛我对Spark的相对陌生。