博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【Python3爬虫】第一个Scrapy项目
阅读量:7098 次
发布时间:2019-06-28

本文共 1573 字,大约阅读时间需要 5 分钟。

Python版本:3.5    IDE:Pycharm

今天跟着网上的教程做了第一个Scrapy项目,遇到了很多问题,花了很多时间终于解决了==

 

一、Scrapy终端(scrapy shell)

Scrapy终端是一个交互终端,供我们在未启动spider的情况下尝试及调试爬取代码。 其本意是用来测试提取数据的代码,不过我们可以将其作为正常的Python终端,在上面测试任何的Python代码。

在命令行界面输入scrapy shell <url>(这里的网址不需要加引号),例如:

scrapy shell https://www.huya.com/g/lol

接着该终端(使用Scrapy下载器(downloader))获取URL内容并打印可用的对象及快捷命令(注意到以[s] 开头的行):

  • fetch(request) - 从给定请求获取新响应,并相应地更新所有相关对象。
  • view(response) - 在本地Web浏览器中打开给定的响应,以进行检查。这将向响应正文添加一个,以便正确显示外部链接(如图片和样式表)。但请注意,这将在您的计算机中创建一个临时文件,不会自动删除。
  • shelp() - 打印有可用对象和快捷方式列表的帮助

 

二、建立第一个Scrapy项目

选择一个文件夹,shift+右键然后进入命令行界面,输入以下代码新建一个Scrapy项目:

scrapy startproject HuyaLol

打开Pycharm,然后再打开我们刚建好的HuyaLol项目,在spiders文件夹下新建一个lol.py

 

然后就可以在lol.py里编写我们的程序了,代码如下:

1 import scrapy 2  3  4 class huyalol(scrapy.Spider): 5     name = "huyalol" 6     start_urls = ["https://www.huya.com/g/lol"] 7  8     def parse(self, response): 9         title_list = response.xpath('//*[@id="js-live-list"]/li/a[2]/text()').extract()10         name_list = response.xpath('//*[@id="js-live-list"]/li/span/span[1]/i/text()').extract()11         for i in range(1,11):12             print(name_list[i-1], ': ',title_list[i-1])

然后在Pycharm里打开命令行界面,输入scrapy list可以列出当前爬虫项目下所有的爬虫文件,这里只有一个爬虫文件huyalol。

然后在命令行界面输入scrapy crawl huyalol,就可以运行我们的爬虫了,结果如下:

 

三、遇到的问题及解决办法 

(1)利用xpath获取不到数据,反复检查代码之后,发现是引号出了问题

”//*[@id="js-live-list"]/li/a[2]/text()“

 这里两端要用单引号,因为中间使用了双引号。

(2)根据教程上把@id="js-live-list"改成@class=“title new-clickstat”后获取不到数据,这个应该注意一下。

(3)在纠正上述问题后还是没有得到数据

解决办法:把settings.py里的ROBOTSTXT_OBEY = True改成ROBOTSTXT_OBEY = False

转载于:https://www.cnblogs.com/TM0831/p/9370857.html

你可能感兴趣的文章
Mathematica 函数调用发生异常时停止计算
查看>>
Clenshaw–Curtis quadrature
查看>>
5.23会议记录
查看>>
ajax做分页
查看>>
CHIL-SQL-约束 (Constraints)
查看>>
好用的软件推荐
查看>>
python一般简介,安装
查看>>
数据库事务
查看>>
实验三ShellShock 攻击实验
查看>>
AOP简介
查看>>
用户登陆模块的后端实现
查看>>
网关协议学习:CGI、FastCGI、WSGI
查看>>
TCP连接建立与释放
查看>>
mariadb multi-source replication(mariadb多主复制)
查看>>
64位操作系统在DOSBox中进入debug的问题
查看>>
程序设计师真情忏悔录
查看>>
文摘《十四》
查看>>
HTTP 错误 401.1 - 未授权:登录失败
查看>>
jquery的一些select操作小记
查看>>
jquery图片播放插件Fancybox(灯箱)
查看>>