从BigQuery获取(stream)数据到R(Docker中的Rstudio服务器)的最佳方式是什么?

我在Google BigQuery中有很多大表,包含要在R中处理的数据。我使用容器引擎通过Google云端平台上的Docker运行RStudio。

我使用BigQuery中的表格大小为862 MB的3800万行(三列)表进行了一些testing。

我testing的第一条路线是使用R包bigrquery。 这个选项是首选,因为可以直接从BigQuery查询数据。 数据采集​​可以包含在R循环中。 这个选项不幸的是非常慢,需要接近一个小时才能完成。

我尝试的第二个select是将BigQuery表格导出到Google云端存储(大约1分钟)的csv文件中,并使用公共链接导入到Rstudio(另外5分钟)。 这条路线需要相当多的人工处理,至less是不可取的。

在Google云端控制台中,我注意到VM实例可以被授予访问BigQuery的权限。 另外,RStudio可以configuration为在其Docker容器中拥有根访问权限。

所以最后是我的问题:有没有一种方法可以使用这个后门来以自动的方式实现从BigQuery到R数据框的快速数据传输? 或者还有其他的方法来实现这个目标?

任何帮助,高度赞赏!


编辑:

我已经将相同的表加载到托pipe在Google Cloud SQL中的MySQL数据库中,这一次只需要大约20秒来加载相同数量的数据。 所以从BigQuery到SQL的某种翻译也是一个选项。