由于OOM,一小时后容器崩溃

我使用Docker在DC / OS上运行spark。 当我提交spark工作,使用下面的内存configuration

司机2 Gb

执行者2 Gb

执行者的数量是3。

火花提交工作正常,1小时后docker容器(工人容器)由于OOM(退出代码137)而崩溃。 但我的火花日志显示1Gb的内存是可用的。

奇怪的是在容器中运行的同一个jar子,在独立模式下正常运行了近20个小时。

这是火花炮的正常行为,还是在那里做错了,或者是否有任何额外的configuration,我需要用于docker集装箱。

谢谢

看起来我有类似的问题。 你看过操作系统上的caching/缓冲区内存使用情况吗?

使用下面的命令可以获得有关操作系统内存使用情况的信息:

free -h 

在我的情况下,缓冲区/caching不断增长,直到容器中没有更多可用内存。 在我的情况下,虚拟机是在AWS上运行的CentOS机器,并且在发生这种情况时完全崩溃。