Tag: scrapy

连接拒绝错误61:Scrapy +飞溅docker

我遇到了一些问题,刮JavaScript网站。 我正在使用docker的scrapy-splash来渲染js到html。 import scrapy from scrapy_splash import SplashRequest class MySpider (scrapy.Spider): name = 'spd' start_urls = ['http://example.com'] def start_requests (self): for url in self.start_urls: yield SplashRequest(url, self.parse, endpoint='render.html', args={'wait':0.5},) def parse (self, response): for href in response.xpath('xpath'): yield {'info': href.xpath('xpath')} 这是我的terminal输出: 2017-05-30 13:20:51 [scrapy.core.engine] INFO: Spider opened 2017-05-30 13:20:51 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at […]

安装docker后运行scrapy时出错

我想使用scrapy从dynamic内容中抓取。 我从互联网上得到,我必须安装docker。 但是在安装之后,我运行时总是出错: scrapy runspider example.py 或其他scrapy命令。 然后我卸载泊坞窗。 但错误仍然显示。 这是错误的: 那么我尝试安装pypiwin32,也有一个错误: 如何解决?

docker飞溅与Scrapy不工作

我想刮一个网站已启用JavaScript,因为scrapy不能处理JavaScript我正在使用飞溅来处理JavaScript的scrapy和使用scrapy-splash插件 我已经安装了与Docker与我使用Ubuntu 16.04这些命令的飞溅 $ sudo docker pull scrapinghub/splash $ sudo docker run -p 8050:8050 scrapinghub/splash 我有运行的飞溅docker,就像一切似乎没事但是 在处理scrapy错误时,会抛出此错误 2017-07-20 03:03:23+0000 [-] Log opened. 2017-07-20 03:03:23.870491 [-] Splash version: 3.0 2017-07-20 03:03:24.007457 [-] Qt 5.9.1, PyQt 5.9, WebKit 602.1, sip 4.19.3, Twisted 16.1.1, Lua 5.2 2017-07-20 03:03:24.007614 [-] Python 3.5.2 (default, Nov 17 2016, 17:05:23) [GCC 5.4.0 […]

如何使用docker-compose在pycharm中创build我的scrapy开发环境

我想用python3.6.3 scrapy mongodb和pycharm来开发我的webcrawler,这里是我的项目结构: 这里是我的Dockerfile: 这是我的docker-compose.yml: 当我configuration我的pycharm,像这样的一些错误消息显示: 它有什么问题,以及如何解决它? 非常感谢

nslookup:isc_socket_bind:使用中的地址 – 无法parsingdocker容器中的dns(phusion image)

我正在运行一个带有2CPU,8GB Ram,450Mbps带宽的AWS实例,以及一个容纳python应用程序的docker容器。 在Python运行当天,容器的平均负载约为6.0,容器运行10个小时后,主机和容器仍然在运行,但是没有连接任何域,仍然可以通过IP地址连接。 还有主机DNS仍然工作正常。 这里是细节: `nslookup google.com` results: `nslookup: isc_socket_bind: address in use` 我知道运行在平均6.0以下的负载可能会导致很多问题,但在我的情况下,DNS问题会随着时间的推移而发生,因此我需要了解为什么在升级AWS实例之前。

点击Scrapy-splashbutton,并提交一个

为了刮我想要的网页,我需要login。login表格通过AJAX几秒钟后加载页面的其余部分(我通过检查在该网站的直接链接forms)。 我试图login像这样:def start_requests(self):yield SplashRequest('example.com',self.parse) def parse(self, response): formdata={'user': 'user', 'password':'password',} yield SplashFormRequest.from_response( response, formdata=formdata, clickdata={'name': 'commit'}, callback=self.parse1) def parse1(self,response): print(response.body.decode('utf8')) 但parse1将打印加载login表单的页面,而不是用户login后的页面。 我不确定,但这可能是因为表单是使用Ajax加载的。 如果我说得对,这意味着我需要一个lua脚本来login。 我试过这个脚本 ,像这样修改def parse (保持和链接一样的lua_script): def parse(self, response): print('\n SplashRequest js \n') yield SplashRequest( url='example.com', callback=self.parse2, method='POST', endpoint='execute', args={ 'wait': 0.5, 'lua_source': self.lua_script, 'formdata': { 'user': 'user', 'password':'password', }, } ) 但是我得到一个DEBUG: Crawled […]

在OS X中通过Docker进行安装:只读文件系统

我正在尝试为Scrapy安装Splash 。 根据其安装文档 ,首先必须安装Docker 。 这已经成功完成。 然后,我启动Docker快速入门terminal,然后尝试执行第二步,然后拉取图像。 这是问题到来的时候: $ docker pull scrapinghub/splash 提取下载后; 我收到以下消息: 未能注册图层:未执行re-exec错误:退出状态1:输出:写入/usr/share/fonts/truetype/arphic-bsmi00lp/bsmi00lp.ttf:只读文件系统 尝试 如果我遵循GitHub的文档 : $ docker run -p 8050:8050 scrapinghub/splash 我犯了同样的错误: docker:open / mnt / sda1 / var / lib / docker / tmp / GetImageBlob849866419:只读文件系统 我还发现一些其他线程在谈论类似的问题,但我没有find任何解决scheme,或者至less我不明白这一点。 将容器保存到磁盘时出错:只读文件系统 在优胜美地MacOsX上只读错误 Docker容器文件系统在运行5个月后变成了“只读” 我不熟悉虚拟机或虚拟盒,所以也许我只是在做一个非常简单的错误。 任何想法来解决这个问题? 额外细节 $ docker info Containers: 1 Running: 0 Paused: […]

无法从docker中获取启animation面

我尝试使用下面显示的docker命令来下载启animation面的图像,但是出现错误“标记最近在资源库scrapinghub / splash中找不到” sudodocker拉scrapinghub /飞溅 我试图从Docker网站“ https://hub.docker.com/r/scrapinghub/splash/tags/ ”获取最新的标签名称,但是即使这样做也是以相同的错误结束的。 sudo docker pull scrapinghub / splash:2.3.2 任何人都可以请帮我解决这个问题。 我正在使用Ubuntu 14.04版本。 另一方面,我可以从“ https://hub.docker.com/r/scrapinghub/splash/ ”下载图像,在存储库详细信息页面中有一些URL,这些图像与我想要的图像相同?

Docker Scrapinghub /飞溅与139退出

我正在使用Scrapy使用Scrapinghub / splash docker容器对Splash进行爬取,但是容器退出一段时间后退出代码139,我正在AWS EC2实例上运行指定1GB交换的刮板。 我也试图在后台运行,查看日志后没有任何指示和错误,只是退出。 从我理解的139是在UNIX中的Segmentation Fault错误,有无论如何检查或logging正在访问的内存的哪部分或正在执行的代码来debugging? 或者我可以增加容器内存或交换大小,以避免这种情况?

Docker没有在Mac上运行的服务器

我正在尝试使用DockerconfigurationSplash服务器,以便为scrapy呈现JavaScript。 我下载并安装了Docker Toolbox(由于缺less对CPU MMU的支持,最新版本的Docker不能在我的Macbook pro 2009上安装)。 我在Docker快速入门terminal中运行“docker run -p 5023:5023 -p 8050:8050 -p 8051:8051 scrapinghub / splash”。 该命令执行但在“Starting factory …”之后,我无法取回我的shell提示符。 我尝试访问http:// localhost:8050 /在我的浏览器,并ping本地主机:8050,但这是行不通的:“无法访问此网站”。 我将不胜感激任何帮助,以了解是什么问题。 谢谢! ## . ## ## ## == ## ## ## ## ## === /"""""""""""""""""\___/ === ~~~ {~~ ~~~~ ~~~ ~~~~ ~~~ ~ / ===- ~~~ \______ o __/ \ \ __/ […]