如何从本地机器(mac)加载csv到Spark-Neo4j docker?
我在Mac中使用Docker创build了一个Spark-Neo4j VM,并能够成功加载http://192.168.99.100:7474/browser 。 我也能够运行正常的查询。 我有一个dataset.csv,我想加载创buildgraphics数据库,但我得到“无法加载外部资源:file:/neo4j/community/code/data-3.csv”。 我可以在我的本地Neo4j服务器上运行这个文件,但是想用Spark来试试。
我该如何直接从本地机器设置path,或者有什么方法可以将数据集传输到docker?
您可以使用docker cp
命令将CSV文件从主机复制到容器文件系统:
docker cp data-3.csv CONTAINER_ID_HERE:/data/data-3.csv
然后使用LOAD CSV
语句中的指定path:
LOAD CSV FROM "file:///data/data-3.csv" ...
另一个简单的方法是从Google spreadsheet或Dropbox提供CSV文件,并使用LOAD CSV
语句中的URL。
- 在Java中通过spark连接到Cassandra时出现问题
- 如何启用Spark mesos docker执行程序?
- Spark应用程序无法写入docker中运行的elasticsearch集群
- Spark节点使用错误的IP地址进行通信(Docker)
- 将一个jar提交到sequenceiq docker-spark容器
- docker-compose v3 + apache spark,端口7077拒绝连接
- Apache Spark:MesosClusterDispatcher可以在Docker容器中运行执行程序吗?
- docker parquet error中的Spark未find预定义的模式
- 缓冲区/caching耗尽Docker容器内的Spark独立