Pandas入门：功能、应用场景与示例

Pandas是Python中最强大的数据处理库之一，广泛应用于数据清洗、分析和可视化。本文将从核心功能、应用场景及实例演示三方面带你快速入门Pandas。

一、Pandas简介

Pandas基于NumPy构建，提供高效的DataFrame和Series数据结构，支持表格数据的快速操作。其优势包括： - 灵活处理缺失数据 - 强大的数据对齐功能 - 便捷的时间序列处理 - 丰富的I/O接口

二、核心功能

1. 数据结构

Series：一维带标签数组，类似增强版列表
DataFrame：二维表格型数据结构，核心操作对象

```python import pandas as pd

创建DataFrame

data = {'姓名': ['张三', '李四'], '年龄': [25, 30]} df = pd.DataFrame(data) print(df) ```

2. 数据清洗

处理缺失值：fillna(), dropna()
删除重复值：drop_duplicates()
类型转换：astype()

3. 数据合并

纵向合并：pd.concat()
横向连接：pd.merge()

4. 分组聚合

分组统计：groupby()
聚合计算：agg()

5. 时间序列

支持日期范围生成、重采样等操作： python date_rng = pd.date_range(start='2023-01-01', periods=5, freq='D')

6. 数据I/O

支持CSV、Excel、SQL等多种格式： python df = pd.read_csv('data.csv') # 读取 df.to_excel('output.xlsx') # 保存

三、应用场景

数据分析 : 销售趋势分析、用户行为统计, 人口数据分析。
机器学习 : 特征工程、数据预处理。
金融分析 : 股票数据清洗、收益率计算
科研实验 : 实验数据整理、统计检验。

四、实战示例

示例1：数据读取与清洗

```python
# 构造含缺失值的数据
data = {
    '产品': ['A', 'B', 'A', 'C'],
    '销售额': [200, 150, None, 220],
    '数量': [5, 3, 4, None]
}
df = pd.DataFrame(data)

# 处理缺失值
df['销售额'].fillna(df['销售额'].mean(), inplace=True)
df.dropna(subset=['数量'], inplace=True)
print("清洗后的数据：\n", df)
```

输出： 产品销售额数量 0 A 200.0 5 1 B 150.0 3 2 A 190.0 4

示例2：分组聚合分析

```python
# 按产品统计平均销售额
result = df.groupby('产品')['销售额'].agg(['mean', 'count'])
print("\n销售统计：\n", result)
```

输出： mean count 产品 A 195.0 2 B 150.0 1 C 220.0 1

示例3：数据可视化

```python
import matplotlib.pyplot as plt

# 构造时间序列数据
date_rng = pd.date_range(start='2023-01-01', periods=4, freq='D')
sales = [200, 150, 190, 220]
ts = pd.Series(sales, index=date_rng)

# 绘制趋势图
ts.plot(title='每日销售额趋势', marker='o')
plt.xlabel('日期')
plt.ylabel('销售额')
plt.show()
```