Tag: scrapy

连接拒绝错误61：Scrapy +飞溅docker: 我遇到了一些问题，刮JavaScript网站。我正在使用docker的scrapy-splash来渲染js到html。 import scrapy from scrapy_splash import SplashRequest class MySpider (scrapy.Spider): name = 'spd' start_urls = ['http://example.com'] def start_requests (self): for url in self.start_urls: yield SplashRequest(url, self.parse, endpoint='render.html', args={'wait':0.5},) def parse (self, response): for href in response.xpath('xpath'): yield {'info': href.xpath('xpath')} 这是我的terminal输出： 2017-05-30 13:20:51 [scrapy.core.engine] INFO: Spider opened 2017-05-30 13:20:51 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at […]

安装docker后运行scrapy时出错: 我想使用scrapy从dynamic内容中抓取。我从互联网上得到，我必须安装docker。但是在安装之后，我运行时总是出错： scrapy runspider example.py 或其他scrapy命令。然后我卸载泊坞窗。但错误仍然显示。这是错误的：那么我尝试安装pypiwin32，也有一个错误：如何解决？

docker飞溅与Scrapy不工作: 我想刮一个网站已启用JavaScript，因为scrapy不能处理JavaScript我正在使用飞溅来处理JavaScript的scrapy和使用scrapy-splash插件我已经安装了与Docker与我使用Ubuntu 16.04这些命令的飞溅 $ sudo docker pull scrapinghub/splash $ sudo docker run -p 8050:8050 scrapinghub/splash 我有运行的飞溅docker，就像一切似乎没事但是在处理scrapy错误时，会抛出此错误 2017-07-20 03:03:23+0000 [-] Log opened. 2017-07-20 03:03:23.870491 [-] Splash version: 3.0 2017-07-20 03:03:24.007457 [-] Qt 5.9.1, PyQt 5.9, WebKit 602.1, sip 4.19.3, Twisted 16.1.1, Lua 5.2 2017-07-20 03:03:24.007614 [-] Python 3.5.2 (default, Nov 17 2016, 17:05:23) [GCC 5.4.0 […]

如何使用docker-compose在pycharm中创build我的scrapy开发环境: 我想用python3.6.3 scrapy mongodb和pycharm来开发我的webcrawler，这里是我的项目结构：这里是我的Dockerfile：这是我的docker-compose.yml：当我configuration我的pycharm，像这样的一些错误消息显示：它有什么问题，以及如何解决它？非常感谢

nslookup：isc_socket_bind：使用中的地址 – 无法parsingdocker容器中的dns（phusion image）: 我正在运行一个带有2CPU，8GB Ram，450Mbps带宽的AWS实例，以及一个容纳python应用程序的docker容器。在Python运行当天，容器的平均负载约为6.0，容器运行10个小时后，主机和容器仍然在运行，但是没有连接任何域，仍然可以通过IP地址连接。还有主机DNS仍然工作正常。这里是细节： `nslookup google.com` results: `nslookup: isc_socket_bind: address in use` 我知道运行在平均6.0以下的负载可能会导致很多问题，但在我的情况下，DNS问题会随着时间的推移而发生，因此我需要了解为什么在升级AWS实例之前。

点击Scrapy-splashbutton，并提交一个: 为了刮我想要的网页，我需要login。login表格通过AJAX几秒钟后加载页面的其余部分（我通过检查在该网站的直接链接forms）。我试图login像这样：def start_requests（self）：yield SplashRequest（'example.com'，self.parse） def parse(self, response): formdata={'user': 'user', 'password':'password',} yield SplashFormRequest.from_response( response, formdata=formdata, clickdata={'name': 'commit'}, callback=self.parse1) def parse1(self,response): print(response.body.decode('utf8')) 但parse1将打印加载login表单的页面，而不是用户login后的页面。我不确定，但这可能是因为表单是使用Ajax加载的。如果我说得对，这意味着我需要一个lua脚本来login。我试过这个脚本，像这样修改def parse （保持和链接一样的lua_script）： def parse(self, response): print('\n SplashRequest js \n') yield SplashRequest( url='example.com', callback=self.parse2, method='POST', endpoint='execute', args={ 'wait': 0.5, 'lua_source': self.lua_script, 'formdata': { 'user': 'user', 'password':'password', }, } ) 但是我得到一个DEBUG: Crawled […]

在OS X中通过Docker进行安装：只读文件系统: 我正在尝试为Scrapy安装Splash 。根据其安装文档，首先必须安装Docker 。这已经成功完成。然后，我启动Docker快速入门terminal，然后尝试执行第二步，然后拉取图像。这是问题到来的时候： $ docker pull scrapinghub/splash 提取下载后; 我收到以下消息：未能注册图层：未执行re-exec错误：退出状态1：输出：写入/usr/share/fonts/truetype/arphic-bsmi00lp/bsmi00lp.ttf：只读文件系统尝试如果我遵循GitHub的文档： $ docker run -p 8050:8050 scrapinghub/splash 我犯了同样的错误： docker：open / mnt / sda1 / var / lib / docker / tmp / GetImageBlob849866419：只读文件系统我还发现一些其他线程在谈论类似的问题，但我没有find任何解决scheme，或者至less我不明白这一点。将容器保存到磁盘时出错：只读文件系统在优胜美地MacOsX上只读错误 Docker容器文件系统在运行5个月后变成了“只读” 我不熟悉虚拟机或虚拟盒，所以也许我只是在做一个非常简单的错误。任何想法来解决这个问题？额外细节 $ docker info Containers: 1 Running: 0 Paused: […]

无法从docker中获取启animation面: 我尝试使用下面显示的docker命令来下载启animation面的图像，但是出现错误“标记最近在资源库scrapinghub / splash中找不到” sudodocker拉scrapinghub /飞溅我试图从Docker网站“ https://hub.docker.com/r/scrapinghub/splash/tags/ ”获取最新的标签名称，但是即使这样做也是以相同的错误结束的。 sudo docker pull scrapinghub / splash：2.3.2 任何人都可以请帮我解决这个问题。我正在使用Ubuntu 14.04版本。另一方面，我可以从“ https://hub.docker.com/r/scrapinghub/splash/ ”下载图像，在存储库详细信息页面中有一些URL，这些图像与我想要的图像相同？

Docker Scrapinghub /飞溅与139退出: 我正在使用Scrapy使用Scrapinghub / splash docker容器对Splash进行爬取，但是容器退出一段时间后退出代码139，我正在AWS EC2实例上运行指定1GB交换的刮板。我也试图在后台运行，查看日志后没有任何指示和错误，只是退出。从我理解的139是在UNIX中的Segmentation Fault错误，有无论如何检查或logging正在访问的内存的哪部分或正在执行的代码来debugging？或者我可以增加容器内存或交换大小，以避免这种情况？

Docker没有在Mac上运行的服务器: 我正在尝试使用DockerconfigurationSplash服务器，以便为scrapy呈现JavaScript。我下载并安装了Docker Toolbox（由于缺less对CPU MMU的支持，最新版本的Docker不能在我的Macbook pro 2009上安装）。我在Docker快速入门terminal中运行“docker run -p 5023：5023 -p 8050：8050 -p 8051：8051 scrapinghub / splash”。该命令执行但在“Starting factory …”之后，我无法取回我的shell提示符。我尝试访问http：// localhost：8050 /在我的浏览器，并ping本地主机：8050，但这是行不通的：“无法访问此网站”。我将不胜感激任何帮助，以了解是什么问题。谢谢！ ## . ## ## ## == ## ## ## ## ## === /"""""""""""""""""\___/ === ~~~ {~~ ~~~~ ~~~ ~~~~ ~~~ ~ / ===- ~~~ \______ o __/ \ \ __/ […]