Python爬虫实战之豆瓣音乐、微打赏、阳光电影（附代码）

本文转载自 bf02jgtrs00xktcx 查看原文 2018/01/10 281 爬虫/ 实战/ 电影/ python/ 代码/ python爬虫/ 豆瓣/ 音乐

一、豆瓣音乐

今天爬的是豆瓣音乐top250，比较简单，主要是练练手。

1、加了请求头，本来没加，调试几次突然没数据了，加了请求头开始也没好，后来又好了，可能是网络原因；2、这次是进入信息页爬的数据，上次爬电影没采用这种方法，缺少了部分数据；3、数据的预处理用了很多if函数

数据分析

?wx_fmt=png&wxfrom=5&wx_lazy=1

1、部分数据可以见上图2、中国音乐作者还是很多的。3、随着音乐设备和网络的普及，流行音乐的发展，可以看出2000年后作品越来越多，到2010年又积极下滑（经典就是经典，无法吐槽现在的音乐）4、风格大家可以看出流行，摇滚，民谣占了一大半。5、最后弄了一首周董的《不能说的秘密》做词云，想想小时候都是回忆啊。

代码片段

import requests
import re
from bs4 import BeautifulSoup
import time
import pymongo
client = pymongo.MongoClient('localhost', 27017)
douban = client['douban']
musictop = douban['musictop']
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}
urls = ['https://music.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)]
def get_url_music(url):
wb_data = requests.get(url,headers=headers)
soup = BeautifulSoup(wb_data.text,'lxml')
music_hrefs = soup.select('a.nbg')
for music_href in music_hrefs:
get_music_info(music_href['href'])
time.sleep(2)

二、微打赏

网站分析

打开网站，翻页网页不变，看看是post的请求，很好办，直接把参数怼进去，这里只要切换page就能进行翻页。

?wx_fmt=png

json格式，这里post返回的是json数据，解析json数据就行，小技巧：看preview，解析起来嗖嗖哒。这里需要提取活动的名称，id和参与打赏的人数。这个后面详细页用的到。

?wx_fmt=png

详细页，依旧是post，依旧是json数据，这里的参数pro_id为之前的爬取的id，这一页20个信息，通过前面的参与打赏人数构造出有多少页，继续怼参数。

?wx_fmt=png

代码片段

import requests
import json
import math
def get_sup_info(url,page):
params = {
'ajaxtype':1,
'page':page,
'category':1,
'pageSize':8
}
cookies = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36',
'Cookie':'acw_tc=AQAAAKLQ3U/WTAYAggq7PZ24WOlm9vQW; PHPSESSID=r0nbvk7hppjftegk4fpt9cu535; _uab_collina=150094753858198811653567; mdswv=v1.0; mdsa=MD-STICS-5976a44746eca; mdss=6-o; mdsf=md; mdsff=www_so_com;
}
html = requests.post(url, data=params, headers=cookies)
json_data = json.loads(html.text)
des = json_data['des']
for data in des:
name = data['name']
id = data['id']
pay_count = data['pay_count']
all_page = math.ceil(int(pay_count)/20)
for i in range(1,int(all_page)+1):
get_app_info(i,id,name)