python爬取豆瓣电影并可视化源代码

码农 387 阅读 0 评论 13 点赞

python爬取豆瓣电影并可视化源代码

Python爬虫技术近年来得到越来越广泛的应用，因为爬虫可以帮助我们快速地获取大量的数据，为数据分析和可视化打下基础。

在本文中，我们将会使用Python爬虫技术来爬取豆瓣电影网站中的电影信息，并对这些信息进行可视化分析。

1. 简介

豆瓣电影是目前国内最大、最具代表性的电影评分和评论网站之一。本文将通过Python来爬取豆瓣电影网站上的电影信息，并使用Matplotlib对数据进行可视化分析。

由于豆瓣电影网站有反爬虫机制，因此我们需要使用一些工具来绕过反爬虫机制。本文使用的是Requests和BeautifulSoup库。

2. 爬虫实现步骤

2.1 使用Requests库向豆瓣电影发送请求并得到响应

Requests是Python中一个常用的第三方库，它可以用来向服务器发送HTTP请求并得到服务器的响应。在本文中，我们使用Requests库来向豆瓣电影发送请求并获取豆瓣电影的HTML代码。

以下是代码：

```python

import requests

url = 'https://movie.douban.com/top250'

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

r = requests.get(url, headers=headers)

print(r)

```

简单来说，上面的代码首先指定了豆瓣电影网站的链接url，然后指定了一个User-Agent请求头，模拟了一个浏览器向服务器发送请求。最后使用requests库的get()函数向豆瓣电影发送请求并得到响应对象。

2.2 使用BeautifulSoup解析HTML代码

由于我们请求到的内容是HTML代码，并不是一份结构化的数据，所以我们需要使用一个解析器将HTML代码解析成结构化的数据，使它具有可读性和可操作性。在本文中，我们使用BeautifulSoup来解析HTML代码，以下是代码：

```python

from bs4 import BeautifulSoup

soup = BeautifulSoup(r.text, 'html.parser')

print(soup.prettify())

```

在上面的代码中，我们通过BeautifulSoup库将请求到的HTML代码解析成了一个BeautifulSoup对象，并打印出来以便查看对象的结构和属性。

2.3 使用BeautifulSoup查找目标标签并获取数据

通过使用BeautifulSoup库解析HTML代码后，我们需要找到目标标签并获取数据。在本文中，我们将会解析出豆瓣电影中排名前250的电影，包括电影名称、评分、演员、制片国家、上映年份等内容，并将其保存到一个csv文件中。以下是代码：

```python

import csv

movies = soup.find(class_='grid_view')

for movie in movies.find_all('li'):

ranking = movie.find('em').text

name = movie.find(class_='title').text.strip()

rating = movie.find(class_='rating_num').text

info = movie.find(class_='inq')

if info:

info = info.text.strip()

else:

info = ''

bd = movie.find('p').text.strip()

bd = bd.replace('\n', '')

bd = bd.replace(' ', '')

bd = bd.replace('\xa0', '')

bd = bd.replace('\u3000', '')

bd = bd.split('/')

year = bd[0]

country = bd[1]

category = bd[2]

director = bd[3]

actor = bd[4]

writer = bd[5]

with open('豆瓣电影TOP250.csv', 'a', newline='', encoding='utf-8-sig') as f:

writer = csv.writer(f)

writer.writerow([ranking, name, rating, year, country, category, director, actor, writer, info])

```

3. 数据可视化

在完成数据爬取之后，我们可以对数据进行可视化，以便更好地分析数据并发现其中的规律和趋势。在本文中，我们将使用Matplotlib库对豆瓣电影TOP250的电影评分进行可视化分析。

以下是代码：

```python

import pandas as pd

import matplotlib.pyplot as plt

from matplotlib.font_manager import FontProperties

font = FontProperties(fname=r'C:\Windows\Fonts\simsun.ttc', size=14)

data = pd.read_csv('豆瓣电影TOP250.csv', encoding='utf-8-sig')

rating = data['评分']

plt.hist(rating, bins=20, range=[0, 10])

plt.xlabel('电影评分', FontProperties=font)

plt.ylabel('电影数量', FontProperties=font)

plt.title('豆瓣电影TOP250电影评分分布', FontProperties=font)

plt.show()

```

在上面的代码中，我们使用Matplotlib库中的hist()函数来绘制直方图，并使用xlabel()、ylabel()和title()函数设置标签和标题。

最后通过plt.show()函数显示图像。通过这个图像我们可以看到，豆瓣电影TOP250的电影评分主要集中在7分到9分之间，其中8分和9分的电影数量最多。

4. 总结

在本文中，我们使用Python爬虫技术爬取了豆瓣电影网站中排名前250的电影信息，并使用Matplotlib对电影评分进行了可视化分析。通过对分析结果的观察，我们可以发现豆瓣电影TOP250的电影评分主要集中在7分到9分之间，其中8分和9分的电影数量最多。

点赞(13) 打赏

本文分类：知识分享
本文标签：无
浏览次数：387 次浏览
发布日期：2023-05-25 10:11:31
本文链接：https://www.weizhongchou.cn/zhishifenxiang/90037.html

如果你喜欢我们的文章，欢迎您分享或收藏为众码农的文章！我们网站的目标是帮助每一个对编程和网站建设以及各类acg，galgame，SLG游戏感兴趣的人，无论他们的水平和经验如何。我们相信，只要有热情和毅力，任何人都可以成为一个优秀的程序员。欢迎你加入我们，开始你的美妙旅程！www.weizhongchou.cn

评论列表共有 0 条评论

暂无评论

python爬取豆瓣电影并可视化源代码

i社游戏44部终极合集下载(含名单)【百度网盘】

Palworld 幻兽帕鲁0.1.4 单机+联机 【16G/网盘下载】

韩国jinricp直播大合集[免费网盘下载]

在线韩国直播视频学习网站-PanTV[免费认证账号密码]

评论列表 共有 0 条评论

发表评论 取消回复

Palworld 幻兽帕鲁0.1.4 单机+联机【16G/网盘下载】

评论列表共有 0 条评论

发表评论取消回复