专业编程基础技术教程

网站首页 > 基础教程 正文

超简单!Pandas DataFrame 高效数据分析入门指南

ccvgpt 2024-10-28 13:17:48 基础教程 8 ℃

在Python的数据处理和分析领域,Pandas库中的DataFrame是不可或缺的核心工具。本文将聚焦于Pandas DataFrame的基本操作,深入探讨如何查看DataFrame的行数、列名以及前几行数据,并通过丰富的代码实例引导读者熟悉这一强大的数据结构。

DataFrame简介与创建

Pandas DataFrame是一个二维表格型数据结构,它允许我们以类似电子表格的形式对数据进行存储和操作。我们可以从多种数据源创建DataFrame,包括CSV、Excel文件等,这里我们首先创建一个简单的DataFrame作为后续操作的基础:

超简单!Pandas DataFrame 高效数据分析入门指南

import pandas as pd

# 创建一个简单的DataFrame示例
data = {'Name': ['John', 'Anna', 'Peter', 'Linda'],
        'Age': [28, 30, 25, 35],
        'Country': ['USA', 'Canada', 'Australia', 'Germany']}
df = pd.DataFrame(data)

# 显示创建的DataFrame
print(df)

查看DataFrame的基本信息

1.查看行数与列数

要获取DataFrame的行数(也称为记录数)和列数(特征数),可以调用shape属性,返回一个包含行数和列数的元组:

# 获取行数与列数
row_count, column_count = df.shape
print(f"DataFrame总共有{row_count}行和{column_count}列")

2.查看列名

使用columns属性即可获取DataFrame的所有列名:

# 获取所有列名
column_names = df.columns.tolist()
print("列名列表为:", column_names)

3.查看前几行数据

为了快速预览DataFrame的内容,可以调用head()方法,默认显示前五行数据,也可以指定参数n来查看前n行:

# 显示前5行数据
print(df.head())

# 或者自定义显示行数
print(df.head(3))  # 显示前三行数据

进阶操作与应用场景

  • 索引:除了默认的整数索引外,DataFrame还可以设置其他类型的索引,例如列名或自定义序列,通过set_index()方法实现。
df.set_index('Name', inplace=True)
print(df.head())
  • 统计摘要:利用describe()方法可以获得数值型列的统计摘要,包括计数、平均值、标准差、最小值、四分位数和最大值。
# 对数值型列进行统计描述
print(df.describe(include='number'))
  • 查询特定行:可以通过索引位置或条件筛选出特定行数据,如lociloc方法。
# 使用.loc按名称选取行
print(df.loc['John'])

# 使用.iloc按位置选取行
print(df.iloc[0])

实践意义与应用场景

掌握这些基本操作对于数据分析项目至关重要,它们是进一步进行数据清洗、转换和可视化之前必不可少的步骤。例如,在Web开发中,从数据库或API获取的数据通常会直接转化为DataFrame以便快速浏览和初步分析;而在机器学习项目中,了解数据集的基本概况更是构建模型的第一步。

关注我,手把手带你快速入门 AI 机器学习编程!

Tags:

最近发表
标签列表