Tag: scrapy splash

docker飞溅与Scrapy不工作

我想刮一个网站已启用JavaScript,因为scrapy不能处理JavaScript我正在使用飞溅来处理JavaScript的scrapy和使用scrapy-splash插件 我已经安装了与Docker与我使用Ubuntu 16.04这些命令的飞溅 $ sudo docker pull scrapinghub/splash $ sudo docker run -p 8050:8050 scrapinghub/splash 我有运行的飞溅docker,就像一切似乎没事但是 在处理scrapy错误时,会抛出此错误 2017-07-20 03:03:23+0000 [-] Log opened. 2017-07-20 03:03:23.870491 [-] Splash version: 3.0 2017-07-20 03:03:24.007457 [-] Qt 5.9.1, PyQt 5.9, WebKit 602.1, sip 4.19.3, Twisted 16.1.1, Lua 5.2 2017-07-20 03:03:24.007614 [-] Python 3.5.2 (default, Nov 17 2016, 17:05:23) [GCC 5.4.0 […]

docker工人:如何检索文件(由scrapy-splash创build)

docker工人使用scrapy-splash。 在Dockerfile中,我有这一行将结果导出到.jl 。 CMD ["scrapy", "crawl", "quotesjs", "-o", "quote.jl"] 当我运行docker-compose build和docker-compose up ,日志告诉我: scrapy1 | 2017-12-18 00:00:00 [scrapy.extensions.feedexport] INFO: Stored jl feed (10 items) in: quote.jl 我没有在我的本地文件夹(Dockerfile和scrapy项目所在的地方)中看到任何quote.jl ,所以我猜它应该在我的容器中。 我用这个命令来处理容器的内容,但没有成功。 docker cp containerID:. ./copy_of_container 我如何检索quote.jl文件。 我在Windows10上,并使用Docker for Windows 我的dockerfile FROM python:alpine RUN apk –update add libxml2-dev libxslt-dev libffi-dev gcc musl-dev libgcc openssl-dev curl bash RUN pip […]