Pandas入门:功能、应用场景与示例
Pandas是Python中最强大的数据处理库之一,广泛应用于数据清洗、分析和可视化。本文将从核心功能、应用场景及实例演示三方面带你快速入门Pandas。
一、Pandas简介
Pandas基于NumPy构建,提供高效的DataFrame和Series数据结构,支持表格数据的快速操作。其优势包括: - 灵活处理缺失数据 - 强大的数据对齐功能 - 便捷的时间序列处理 - 丰富的I/O接口
二、核心功能
1. 数据结构
- Series:一维带标签数组,类似增强版列表
- DataFrame:二维表格型数据结构,核心操作对象
```python import pandas as pd
创建DataFrame
data = {'姓名': ['张三', '李四'], '年龄': [25, 30]} df = pd.DataFrame(data) print(df) ```
2. 数据清洗
- 处理缺失值:
fillna()
,dropna()
- 删除重复值:
drop_duplicates()
- 类型转换:
astype()
3. 数据合并
- 纵向合并:
pd.concat()
- 横向连接:
pd.merge()
4. 分组聚合
- 分组统计:
groupby()
- 聚合计算:
agg()
5. 时间序列
支持日期范围生成、重采样等操作:
python
date_rng = pd.date_range(start='2023-01-01', periods=5, freq='D')
6. 数据I/O
支持CSV、Excel、SQL等多种格式:
python
df = pd.read_csv('data.csv') # 读取
df.to_excel('output.xlsx') # 保存
三、应用场景
- 数据分析 : 销售趋势分析、用户行为统计, 人口数据分析。
- 机器学习 : 特征工程、数据预处理。
- 金融分析 : 股票数据清洗、收益率计算
- 科研实验 : 实验数据整理、统计检验。
四、实战示例
示例1:数据读取与清洗
```python
# 构造含缺失值的数据
data = {
'产品': ['A', 'B', 'A', 'C'],
'销售额': [200, 150, None, 220],
'数量': [5, 3, 4, None]
}
df = pd.DataFrame(data)
# 处理缺失值
df['销售额'].fillna(df['销售额'].mean(), inplace=True)
df.dropna(subset=['数量'], inplace=True)
print("清洗后的数据:\n", df)
```
输出:
产品 销售额 数量
0 A 200.0 5
1 B 150.0 3
2 A 190.0 4
示例2:分组聚合分析
```python
# 按产品统计平均销售额
result = df.groupby('产品')['销售额'].agg(['mean', 'count'])
print("\n销售统计:\n", result)
```
输出:
mean count
产品
A 195.0 2
B 150.0 1
C 220.0 1
示例3:数据可视化
```python
import matplotlib.pyplot as plt
# 构造时间序列数据
date_rng = pd.date_range(start='2023-01-01', periods=4, freq='D')
sales = [200, 150, 190, 220]
ts = pd.Series(sales, index=date_rng)
# 绘制趋势图
ts.plot(title='每日销售额趋势', marker='o')
plt.xlabel('日期')
plt.ylabel('销售额')
plt.show()
```