专业编程基础技术教程

网站首页 > 基础教程 正文

Pandas入门:认识Series与DataFrame

ccvgpt 2024-10-28 13:17:32 基础教程 6 ℃

Pandas第二课:Series与DataFrame详解

在上一课中,我们介绍了如何安装和导入 pandas 库,并通过简单的示例展示了如何创建 Series 和 DataFrame。在这一课中,我们将深入探讨 pandas 中两种主要的数据结构:Series 和 DataFrame。

1. Series 数据结构

Series 是一个类似于一维数组的对象,它可以保存任何数据类型(整数、字符串、浮点数等),并且具有索引。Series 的索引可以是任何不可变类型,如数字、字符串等。

Pandas入门:认识Series与DataFrame

创建 Series

创建一个 Series 非常简单,只需要提供一组数据和一个索引即可:

import pandas as pd

# 使用列表创建 Series
data = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

# 使用字典创建 Series
data_dict = {'a': 1, 'b': 2, 'c': 3}
data_from_dict = pd.Series(data_dict)

Series 的基本属性

Series 有一些基本属性,可以帮助我们更好地了解数据:

  • .index:返回 Series 的索引。
  • .values:返回 Series 的值作为一个 NumPy 数组。
  • .dtype:返回 Series 的数据类型。
print("Index:", data.index)
print("Values:", data.values)
print("Data Type:", data.dtype)

2. DataFrame 数据结构

DataFrame 是一个二维表格型数据结构,可以保存不同类型的列。它是由一个或多个 Series 组成的,每一列可以有不同的数据类型。DataFrame 的索引可以是任何不可变类型,通常用于标识行。

创建 DataFrame

创建一个 DataFrame 也很简单,可以通过多种方式创建:

# 使用字典创建 DataFrame
data_frame = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'San Francisco', 'Los Angeles']
}, index=[1, 2, 3])

# 使用列表创建 DataFrame
data_list = [
    {'Name': 'Alice', 'Age': 25, 'City': 'New York'},
    {'Name': 'Bob', 'Age': 30, 'City': 'San Francisco'},
    {'Name': 'Charlie', 'Age': 35, 'City': 'Los Angeles'}
]
data_frame_from_list = pd.DataFrame(data_list, index=[1, 2, 3])

DataFrame 的基本属性

DataFrame 也有许多基本属性,可以帮助我们了解数据:

  • .shape:返回 DataFrame 的形状(行数和列数)。
  • .dtypes:返回每一列的数据类型。
  • .index:返回 DataFrame 的索引。
  • .columns:返回 DataFrame 的列名。
print("Shape:", data_frame.shape)
print("Data Types:", data_frame.dtypes)
print("Index:", data_frame.index)
print("Columns:", data_frame.columns)

3. 示例代码

下面是一个完整的示例代码,展示了如何创建和查看 Series 和 DataFrame 的属性:

import pandas as pd

# 创建一个 Series
data_series = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

# 创建一个 DataFrame
data_frame = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'San Francisco', 'Los Angeles']
}, index=[1, 2, 3])

# 展示 Series 的属性
print("Series:")
print(data_series)
print("Index:", data_series.index)
print("Values:", data_series.values)
print("Data Type:", data_series.dtype)

# 展示 DataFrame 的属性
print("\nDataFrame:")
print(data_frame)
print("Shape:", data_frame.shape)
print("Data Types:", data_frame.dtypes)
print("Index:", data_frame.index)
print("Columns:", data_frame.columns)

4. 运行结果

当你运行上述代码时,将会输出如下结果:

Series:
a    1
b    2
c    3
d    4
e    5
dtype: int64
Index: Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
Values: [1 2 3 4 5]
Data Type: int64

DataFrame:
       Name  Age             City
1     Alice   25        New York
2       Bob   30  San Francisco
3  Charlie   35    Los Angeles
Shape: (3, 3)
Data Types:
Name      object
Age        int64
City      object
dtype: object
Index: Int64Index([1, 2, 3], dtype='int64')
Columns: Index(['Name', 'Age', 'City'], dtype='object')

5. 小结

在这一章中,我们介绍了 pandas 中两种主要的数据结构:Series 和 DataFrame。通过创建和查看它们的基本属性,你可以更好地理解如何使用这些数据结构来组织和处理数据。

下一章我们将继续探讨如何从文件中读取数据并保存数据,敬请期待!

Tags:

最近发表
标签列表