一、项目背景
豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。可以记录想看、在看和看过的电影电视剧,顺便打分、写影评。
本项目以电视剧(美剧)为例,批量爬取对应的电影,写入 csv 文档。用户可以通过评分,更好地选择自己想要的电影。
二、项目目的
获取对应的电影名称,评分,详情链接,下载电影的图片,保存文档。
三、涉及的库和网站
- 网址如下:
https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start={}
-
涉及的库:requests, fake_useragent, json, csv
-
软件:PyCharm
四、项目分析
- 如何多网页请求?
点击下一页时,每增加一页 page 自增加 20,用{}代替变换的变量,再用 for 循环遍历这网址,实现多个网址请求。
- 如何获取真正请求的地址?
请求数据时,发现页面上并没有对应数据。其实豆瓣网采用 javascript 动态加载内容,防止采集。
(1)F12 右键检查,找到 Network,左边菜单 Name,找到第五个数据,点击 Preview

