具有大型地理空间数据集的数据科学工作stream程

我对docker方式相对陌生,请耐心等待。

目标是使用开源可复制的方法将大地理空间数据集提取到Google Earth Engine 。 我使用本地计算机和Google计算引擎开展了一切工作,但也想让其他人也能使用这种方法。

大型静态地理空间文件(NETCDF4)目前存储在Amazon S3和Google云端存储(GEOTIFF)上。 我需要一些基于python的模块来使用命令行界面将数据转换并接收到Earth Engine。 这只能发生一次。 数据转换不是很重,可以通过一个胖实例(32GB内存,16个内核需要2个小时)来完成,不需要集群。

我的问题是我应该如何处理Docker中的大型静态数据集。 我想到了以下的select,但想知道最佳实践。

1)使用docker并将amazon s3和Google Cloud Storage存储桶挂载到Docker容器。

2)将大型数据集复制到Docker镜像并使用Amazon ECS

3)只需使用AWS CLI

4)在Python中使用Boto3

5)第五个选项,我还没有意识到

我使用的python模块是ao:python-GDAL,pandas,地球引擎,subprocess