具有大型地理空间数据集的数据科学工作stream程

我对docker方式相对陌生，请耐心等待。

目标是使用开源可复制的方法将大地理空间数据集提取到Google Earth Engine 。我使用本地计算机和Google计算引擎开展了一切工作，但也想让其他人也能使用这种方法。

大型静态地理空间文件（NETCDF4）目前存储在Amazon S3和Google云端存储（GEOTIFF）上。我需要一些基于python的模块来使用命令行界面将数据转换并接收到Earth Engine。这只能发生一次。数据转换不是很重，可以通过一个胖实例（32GB内存，16个内核需要2个小时）来完成，不需要集群。

我的问题是我应该如何处理Docker中的大型静态数据集。我想到了以下的select，但想知道最佳实践。

1）使用docker并将amazon s3和Google Cloud Storage存储桶挂载到Docker容器。

2）将大型数据集复制到Docker镜像并使用Amazon ECS

3）只需使用AWS CLI

4）在Python中使用Boto3

5）第五个选项，我还没有意识到

我使用的python模块是ao：python-GDAL，pandas，地球引擎，subprocess

具有大型地理空间数据集的数据科学工作stream程

AWS ec2 + Jenkins掌握Docker Swarm代理

在Amazon ElasticBeanstalk中使用docker或自定义AMI

我如何使用Hashicorp Vaultpipe理我的应用程序秘密？

AWS EC2 ELB Docker路由

AWS Elastic Beanstalk应用程序和静态资产部署隔离

Docker Scrapinghub /飞溅与139退出

如何pipe理部署？

Jenkins Amazon ECR插件login问题“授权令牌已经过期”

Kubernetes是否均匀分布在ec2集群中？

当试图从ECR中拉出图像时，错误在mesos slave上