Pandas入门:功能、应用场景与示例

Pandas是Python中最强大的数据处理库之一,广泛应用于数据清洗、分析和可视化。本文将从核心功能、应用场景及实例演示三方面带你快速入门Pandas。


一、Pandas简介

Pandas基于NumPy构建,提供高效的DataFrameSeries数据结构,支持表格数据的快速操作。其优势包括: - 灵活处理缺失数据 - 强大的数据对齐功能 - 便捷的时间序列处理 - 丰富的I/O接口


二、核心功能

1. 数据结构

  • Series:一维带标签数组,类似增强版列表
  • DataFrame:二维表格型数据结构,核心操作对象

```python import pandas as pd

创建DataFrame

data = {'姓名': ['张三', '李四'], '年龄': [25, 30]} df = pd.DataFrame(data) print(df) ```

2. 数据清洗

  • 处理缺失值:fillna(), dropna()
  • 删除重复值:drop_duplicates()
  • 类型转换:astype()

3. 数据合并

  • 纵向合并:pd.concat()
  • 横向连接:pd.merge()

4. 分组聚合

  • 分组统计:groupby()
  • 聚合计算:agg()

5. 时间序列

支持日期范围生成、重采样等操作: python date_rng = pd.date_range(start='2023-01-01', periods=5, freq='D')

6. 数据I/O

支持CSV、Excel、SQL等多种格式: python df = pd.read_csv('data.csv') # 读取 df.to_excel('output.xlsx') # 保存


三、应用场景

  • 数据分析 : 销售趋势分析、用户行为统计, 人口数据分析。
  • 机器学习 : 特征工程、数据预处理。
  • 金融分析 : 股票数据清洗、收益率计算
  • 科研实验 : 实验数据整理、统计检验。

四、实战示例

示例1:数据读取与清洗

```python
# 构造含缺失值的数据
data = {
    '产品': ['A', 'B', 'A', 'C'],
    '销售额': [200, 150, None, 220],
    '数量': [5, 3, 4, None]
}
df = pd.DataFrame(data)

# 处理缺失值
df['销售额'].fillna(df['销售额'].mean(), inplace=True)
df.dropna(subset=['数量'], inplace=True)
print("清洗后的数据:\n", df)
```

输出: 产品 销售额 数量 0 A 200.0 5 1 B 150.0 3 2 A 190.0 4

示例2:分组聚合分析

```python
# 按产品统计平均销售额
result = df.groupby('产品')['销售额'].agg(['mean', 'count'])
print("\n销售统计:\n", result)
```

输出: mean count 产品 A 195.0 2 B 150.0 1 C 220.0 1

示例3:数据可视化

```python
import matplotlib.pyplot as plt

# 构造时间序列数据
date_rng = pd.date_range(start='2023-01-01', periods=4, freq='D')
sales = [200, 150, 190, 220]
ts = pd.Series(sales, index=date_rng)

# 绘制趋势图
ts.plot(title='每日销售额趋势', marker='o')
plt.xlabel('日期')
plt.ylabel('销售额')
plt.show()
```