Python中可视化数据（直方图和密度图）(python中title,关键词优化)

Python中可视化数据（直方图和密度图）

导读：本文共5961字符，通常情况下阅读需要20分钟。同时您也可以点击右侧朗读，来听本文内容。按键盘←（左） →（右）方向键可以翻页。

摘要：本文将全面介绍如何使用matplotlib和seaborn库在Python中使用直方图和密度图。在整个过程中，我们将探索一个真实世界的数据集，因为在网上提供大量资源的情况下，没有理由不使用实际数据！我们将可视化的NYCflights13数据，其中包含超过300,000个航班离开纽约市的航班2013年的观测数据。在我们开始绘图之前先检查我们的数据。我们可以将数据读入熊猫数据框并显示前10行：impo... ...

音频解说

(8):# Import the libraries
(11):# matplotlib histogram
(14):# seaborn histogram
(18):# Add labels
(25):# Show 4 different binwidth
(27):# Set up the plot
(29):# Draw the plot
(32):# Title and labels
(46):# Make a separate list for
(52):# Assign colors for each ai
(55):'Delta Air Lines Inc.', 'Am
(56):# Make the histogram using
(57):# Normalize the flights and
(60):# Plot formatting
(83):# List of five airlines to
(85):'Delta Air Lines Inc.', 'Am
(86):# Iterate through the five
(88):# Subset to the airline
(90):# Draw the density plot
(94):# Plot formatting
(107):# Subset to Alaska Airlines
(109):# Density Plot with Rug Plo
(114):# Plot formatting

本文将全面介绍如何使用matplotlib和seaborn库在Python中使用直方图和密度图。在整个过程中，我们将探索一个真实世界的数据集，因为在网上提供大量资源的情况下，没有理由不使用实际数据！我们将可视化的NYCflights13数据，其中包含超过300,000个航班离开纽约市的航班2013年的观测数据。

在我们开始绘图之前先检查我们的数据。我们可以将数据读入熊猫数据框并显示前10行：

import pandas as pd

# Read in data and examine first 10 rowsflights = pd.read_csv('data/formatted_flights.csv')flights.head(10)

Dataframe负责人

航班到达延误在几分钟内，负值意味着航班较早（事实证明，航班往往会提早到达，只是从来没有当我们在他们身上！）有超过30万次的航班，至少延迟60分钟和最大延迟时间为120分钟。数据框中的另一列是我们可用于比较的航空公司的名称。

直方图

为了使 Python 中的基本直方图, 我们可以使用 matplotlib 或 seaborn。下面的代码显示两个库中创建等效数字的函数调用。对于绘图调用, 我们指定 binwidth 的数量。

# Import the libraries

import matplotlib.pyplot as plt

import seaborn as sns

# matplotlib histogram

plt.hist(flights['arr_delay'], color = 'blue', edgecolor = 'black',

bins = int(180/5))

# seaborn histogram

sns.distplot(flights['arr_delay'], hist=True, kde=False,

bins=int(180/5), color = 'blue',

hist_kws={'edgecolor':'black'})

# Add labels

plt.title('Histogram of Arrival Delays')

plt.xlabel('Delay (min)')

plt.ylabel('Flights')

直方图（由matplotlib和seaborn生成的等效图）

对于大多数基本的直方图，我会使用matplotlib代码，因为它更简单，但我们稍后将使用seaborn distplot函数来创建不同的分布。

我怎么得到5分钟的binwidth？找出最佳binwidth的唯一方法是尝试多个值！下面的代码是在matplotlib中使用一系列binwidth来制作相同的图形。最终，对于binwidth没有正确或错误的答案，但我选择5分钟，因为我认为它最能代表分布。

# Show 4 different binwidths

for i, binwidth in enumerate([1, 5, 10, 15]):

# Set up the plot

ax = plt.subplot(2, 2, i + 1)

# Draw the plot

ax.hist(flights['arr_delay'], bins = int(180/binwidth),

color = 'blue', edgecolor = 'black')

# Title and labels

ax.set_title('Histogram with Binwidth = %d' % binwidth, size = 30)

ax.set_xlabel('Delay (min)', size = 22)

ax.set_ylabel('Flights', size= 22)

plt.tight_layout()

plt.show()

不同带宽的直方图

binwidth的选择会显着影响结果图。较小的带宽可能会使绘图混乱，但较大的带宽可能会掩盖数据中的细微差别。Matplotlib会自动为你选择一个合理的binwidth，但我喜欢在尝试了几个值后自己指定binwidth。没有真正的正确或错误答案，因此请尝试几个选项并查看哪些最适合您的特定数据。

当直方图失败时

直方图是开始探索从一个类别中提取的单个变量的一个很好的方法。但是, 当我们要比较一个变量分布在多个类别, 直方图有问题的可读性。例如, 如果我们要比较航空公司之间的到达延迟分布, 一个不太好的方法是在同一地块上为每家航空公司创建直方图:

与多个航空公司重叠的直方图

（请注意，y轴已被标准化以考虑航空公司之间航班的不同数量。为此，请将参数传递norm_hist = True给sns.distplot函数调用。）

解决方案＃1：并排直方图

我们可以将它们并排放置，而不是重叠航空公司的直方图。为此，我们为每家航空公司创建一个到达延迟列表，然后将其plt.hist作为列表列表传递给函数调用。我们必须为每家航空公司和一个标签指定不同的颜色，以便我们可以区分它们。代码，包括为每家航空公司创建列表如下：

# Make a separate list for each airline

x1 = list(flights[flights['name'] == 'United Air Lines Inc.']['arr_delay'])

x2 = list(flights[flights['name'] == 'JetBlue Airways']['arr_delay'])

x3 = list(flights[flights['name'] == 'ExpressJet Airlines Inc.']['arr_delay'])

x4 = list(flights[flights['name'] == 'Delta Air Lines Inc.']['arr_delay'])

x5 = list(flights[flights['name'] == 'American Airlines Inc.']['arr_delay'])

# Assign colors for each airline and the names

colors = ['#E69F00', '#56B4E9', '#F0E442', '#009E73', '#D55E00']

names = ['United Air Lines Inc.', 'JetBlue Airways', 'ExpressJet Airlines Inc.'',

'Delta Air Lines Inc.', 'American Airlines Inc.']

# Make the histogram using a list of lists

# Normalize the flights and assign colors and names

plt.hist([x1, x2, x3, x4, x5], bins = int(180/15), normed=True,

color = colors, label=names)

# Plot formatting

plt.legend()

plt.xlabel('Delay (min)')

plt.ylabel('Normalized Flights')

plt.title('Side-by-Side Histogram with Multiple Airlines')

默认情况下，如果我们传入列表列表，matplotlib将并排放置条形图。

解决方案 #2: 堆积条形图

我们可以通过将参数传递stacked = True给直方图调用来堆叠它们，而不是为每个航空公司并排绘制条形图：

# Stacked histogram with multiple airlinesplt.hist([x1, x2, x3, x4, x5], bins = int(180/15), stacked=True,normed=True, color = colors, label=names)

那么，这绝对不是更好！在这里，每个航空公司都代表每个舱位的整体部分，但几乎不可能进行比较。我们使用直方图尝试的两种解决方案都不成功，因此是时候转移到密度图。

密度图

首先，什么是密度图？甲密度图是从数据中估计的直方图的平滑化，连续版本。最常见的估计形式被称为核密度估计。在这种方法中，在每个单独的数据点处绘制连续曲线（内核），然后将所有这些曲线相加在一起以进行单个平滑密度估计。最常用的内核是高斯（在每个数据点产生高斯钟形曲线）。

Kernel Density Estimation

这里，x轴上的每条黑色小垂直线代表一个数据点。单个内核（本例中为高斯）在每个点上方用红色虚线表示。坚实的蓝色曲线是通过对各个高斯求和来创建的，并形成整体密度图。

x轴是变量的值，就像直方图一样，但y轴代表什么？密度图中的y轴是核密度估计的概率密度函数。但是，我们需要小心地指定这是一个概率密度，而不是概率。不同之处在于概率密度是x轴上每单位的概率。要转换为实际概率，我们需要在x轴上找到特定间隔下曲线下方的区域。有点令人困惑的是，因为这是一个概率密度而不是概率，所以y轴可以取大于1的值。密度图的唯一要求是曲线下的总面积合并为一。我通常倾向于将密度图上的y轴视为仅用于不同类别之间的相对比较的值。

Seaborn中的密度图

为了使 seaborn 中的密度图, 我们可以使用 distplot 或 kdeplot 函数。我将继续使用 distplot 函数, 因为它允许我们用一个函数调用进行多个分布。例如, 我们可以使一个密度图显示所有到达延迟在对应的直方图之上:

# Density Plot and Histogram of all arrival delayssns.distplot(flights['arr_delay'], hist=True, kde=True,bins=int(180/5), color = 'darkblue',hist_kws={'edgecolor':'black'},kde_kws={'linewidth': 4})

曲线显示了密度图, 它实质上是直方图的平滑版本。y 轴是按密度计算的, 而直方图在缺省情况下是规范化的, 因此它与密度图具有相同的 y 尺度。

与直方图的 binwidth 类似, 密度图有一个参数称为带宽,绘图库将为我们选择一个合理的带宽值 (默认情况下使用 "斯科特" 估计), 而不像直方图的 binwidth, 我通常使用默认带宽。但是, 我们可以使用不同的带宽来查看是否有更好的选择。

请注意，更宽的带宽会使分配更平滑。我们也看到，即使我们将数据限制在-60到120分钟，密度图也超出了这些限制。这是密度图的一个潜在问题：因为它计算每个数据点的分布，所以它可以生成超出原始数据范围的数据。这可能意味着我们最终会得到原始数据中从来不存在的x轴上不可能的值！值得注意的是，我们也可以更改内核，这会改变在每个数据点处绘制的分布，从而改变整体分布。但是，对于大多数应用程序，默认的内核，高斯和默认的带宽估计工作得很好。

解决方案＃3密度图

为了在同一个图上显示分布，我们可以遍历航空公司，每次调用distplot内核密度估计值设置为True并将直方图设置为False。下面是用多个航空公司绘制密度图的代码：

# List of five airlines to plot

airlines = ['United Air Lines Inc.', 'JetBlue Airways', 'ExpressJet Airlines Inc.'',

'Delta Air Lines Inc.', 'American Airlines Inc.']

# Iterate through the five airlines

for airline in airlines:

# Subset to the airline

subset = flights[flights['name'] == airline]

# Draw the density plot

sns.distplot(subset['arr_delay'], hist = False, kde = True,

kde_kws = {'linewidth': 3},

label = airline)

# Plot formatting

plt.legend(prop={'size': 16}, title = 'Airline')

plt.title('Density Plot with Multiple Airlines')

plt.xlabel('Delay (min)')

plt.ylabel('Density')

最后，我们已经达成了一个有效的解决方案！通过密度图，我们可以轻松地进行航空公司之间的比较，因为图形不那么混乱。我们得出这样的结论：所有这些航空公司都有几乎相同的到达延迟分布！但是，数据集中还有其他航空公司，我们可以绘制一个稍有不同的图形来说明密度图的另一个可选参数，并为图形着色。

阴影密度图

填充密度图可以帮助我们区分重叠分布。虽然这不总是一个好方法，但它可以帮助强调分布之间的差异。为了遮蔽密度图，我们传递shade = True给调用中的kde_kws参数distplot。

sns.distplot（subset ['arr_delay']，hist = False，kde = True， kde_kws = {'shade'：True，'linewidth'：3}， label = airline）

阴影密度图

对于这个图表，我认为这是有道理的，因为阴影可以帮助我们区分它们重叠区域的地块。现在，我们终于获得了一些有用的信息：阿拉斯加航空公司的航班往往比联合航空公司的航班时间更早。

Rug Plots

如果要显示分布中的每个值而不仅是平滑密度，则可以添加小地图。这显示了x轴上的每个数据点，使我们可以看到所有的实际值。使用seaborn的好处distplot是，我们可以添加单个参数调用rug = True（具有一些格式化）的地毯情节。

# Subset to Alaska Airlines

subset = flights[flights['name'] == 'Alaska Airlines Inc.']

# Density Plot with Rug Plot

sns.distplot(subset['arr_delay'], hist = False, kde = True, rug = True,

color = 'darkblue',

kde_kws={'linewidth': 3},

rug_kws={'color': 'black'})

# Plot formatting

plt.title('Density Plot with Rug Plot for Alaska Airlines')

plt.xlabel('Delay (min)')

plt.ylabel('Density')

有了许多数据点, 地毯图会变得拥挤, 但是对于某些数据集来说, 查看每一个资料点都是有帮助的。

本文：Python中可视化数据（直方图和密度图）的详细内容，希望对您有所帮助，信息来源于网络。

Python中可视化数据（直方图和密度图）(python中title,关键词优化)

目录

14 人围观 / 0 条评论 ↓快速评论↓

搜索

最新文章

猜你喜欢

特价优惠

标签

流量统计