标签 "Python数据分析" 下的文章

pandas排序操作：sort_values函数入门与实战

2025-12-09 570 阅读 pandas教程 pandas sort_values 数据排序 Python数据分析 DataFrame排序 pandas入门

本文介绍pandas中`sort_values`函数的排序方法，适用于DataFrame/Series数据排序。核心参数：`by`指定排序列（必填），`ascending`控制升/降序（默认升序True），`inplace`决定是否修改原数据（默认False，返回新数据）。基础用法：单列排序，如按“语文”升序（默认）或“数学”降序；多列排序，可传入列名列表及对应升序/降序方向（如先语文升序、再数学降序）。`inplace=True`直接修改原数据，建议优先保留原数据（默认False）。实战示例：新增“总分”列后按总分降序排序，清晰展示综合成绩排名。注意事项：多列排序需保证`by`和`ascending`列表长度一致；操作数据安全，避免意外覆盖原数据。通过示例掌握核心参数和常见场景，排序是数据处理基础，结合后续分析（如TopN）更显重要。

阅读全文

pandas超实用技巧：数据清洗入门，新手也能轻松搞定

2025-12-09 572 阅读 pandas教程 pandas数据清洗 Python数据分析数据预处理缺失值处理重复值处理

数据清洗是数据分析的关键，pandas是高效处理工具。文章教新手用pandas完成核心清洗：先安装导入数据（`pd.read_csv()`或创建示例DataFrame），用`head()`、`info()`初步检查。处理缺失值：用`isnull()`识别，`dropna()`删除或`fillna()`（均值/中位数）填充；重复值用`duplicated()`识别，`drop_duplicates()`删除；异常值通过`describe()`统计或逻辑筛选（如收入≤20000）；数据类型转换用`astype()`或`to_datetime()`。新手流程：导入→检查→处理缺失→重复→异常→类型转换。强调多动手练习，灵活应用工具解决实际数据问题。

阅读全文

pandas数据合并：merge与concat基础操作，新手也能学

2025-12-09 543 阅读 pandas教程 pandas数据合并 merge操作 concat拼接 Python数据分析 pandas教程

本文介绍pandas的`merge`和`concat`两个数据合并工具，适合新手快速掌握。 **concat**：无关联键，直接拼接，分行/列方向。行拼接（`axis=0`）适合结构相同表（如多月份数据），需注意用`ignore_index=True`重置索引避免重复；列拼接（`axis=1`）需行数一致，用于按行标识合并（如学生信息+成绩表）。 **merge**：基于共同键（如姓名、ID）合并，类似SQL JOIN，支持四种方式：`inner`（默认，保留共同键）、`left`（保留左表）、`right`（保留右表）、`outer`（保留所有）。键名不同时用`left_on`/`right_on`指定，默认合并方式为`inner`。 **关键区别**：concat无键直接拼接，merge按键匹配。新手需注意：concat列拼接行数需一致，merge用`how`参数控制合并范围，避免索引重复和键名不匹配问题。

阅读全文

新手必看！pandas基础操作：创建、查看与修改数据

2025-12-09 473 阅读 pandas教程 pandas基础教程 Python数据分析 DataFrame操作 Series创建数据修改方法

本文介绍pandas基础操作，涵盖数据创建、查看与修改。 **数据创建**：核心结构为Series（一维带索引）和DataFrame（二维表格）。Series可通过列表（默认0,1…索引）或自定义索引（如['a','b']）创建；DataFrame可用字典（键=列名，值=列数据）或二维列表（需指定columns）创建。 **数据查看**：`head(n)`/`tail(n)`预览前/后n行（默认5行）；`info()`查看数据类型与非空值，`describe()`统计数值列（计数、均值等）；`columns`/`index`分别查看列名和行索引。 **数据修改**：单元格修改用`loc[标签,列名]`或`iloc[位置,列位置]`；新增列直接赋值（如`df['班级']='一班'`）或基于现有列计算；删除列用`drop(列名, axis=1, inplace=True)`；修改索引可直接赋值`index`/`columns`或用`rename()`重命名。核心是“定位数据”，需区分`loc

阅读全文

pandas DataFrame入门：3步快速上手数据选择与筛选

2025-12-09 565 阅读 pandas教程 pandas DataFrame教程 Python数据分析数据选择筛选 iloc loc用法 pandas入门

本文介绍pandas DataFrame数据选择与筛选的3个核心步骤，适合初学者快速掌握。第一步：列选择。单列用`df['列名']`返回Series，多列用`df[['列名1','列名2']]`返回DataFrame。第二步：行选择。提供`iloc`（按位置，整数索引）和`loc`（按标签，自定义索引）：`df.iloc[行范围]`或`df.loc[行标签]`。第三步：条件筛选。单条件用`df[条件]`，多条件用`&`（且）/`|`（或）连接，每个条件需加括号。关键提醒：多条件筛选必须用`&`/`|`代替`and`/`or`，且条件加括号。通过三步操作可完成基础数据提取，为后续分析奠基。

阅读全文

Numpy数组变形：reshape与flatten零基础教程

2025-12-09 753 阅读 Numpy教程 Numpy数组变形 reshape用法 flatten方法 Python数据分析数组展平

本文介绍Numpy中数组变形的两个实用方法：`reshape`和`flatten`，用于满足不同数据处理需求。核心前提是变形前后数组元素总数必须一致。 `reshape`方法可改变数组形状（如1维转2维），语法为`arr.reshape(new_shape)`，支持元组指定形状，用`-1`可自动计算缺失维度（如3行自动算列数），返回新数组不修改原数组。 `flatten`方法将多维数组展平为1维，返回新数组（副本），避免修改原数组，与`ravel`（返回视图）不同，推荐优先使用`flatten`。常见错误是“元素总数不匹配”，需确保`reshape`参数乘积等于原数组大小（`原数组.size`）。总结：`reshape`灵活调整形状，`flatten`安全展平为1维，掌握两者可高效处理数组变形，为数据处理（如机器学习）奠定基础。

阅读全文

Numpy统计分析：mean、sum与max函数速上手

2025-12-09 724 阅读 Numpy教程 NumPy统计分析 mean函数 sum函数 max函数 Python数据分析

这篇文章介绍了NumPy中`mean`（平均值）、`sum`（求和）和`max`（最大值）三个常用统计函数的使用方法。NumPy作为Python数据分析核心工具，提供高效多维数组及统计函数。三个函数均支持`axis`参数控制计算方向：`axis=0`按列（垂直方向）计算，`axis=1`按行（水平方向）计算，不指定则计算整体。 - **mean**：计算数组元素算术平均值，一维数组整体平均，二维数组可按列/行求平均。 - **sum**：计算元素总和，与mean类似，通过`axis`指定行列求和。 - **max**：查找数组最大值，同样支持行列方向最大值查找。文章以一维/二维数组为例演示基础用法，并通过学生成绩数据（3学生×3课程）实战：计算每门课平均分、每个学生总分及最高分，验证函数实用性。总结指出，掌握这三个函数及`axis`参数是数据分析的基础，为后续复杂分析奠基。

阅读全文

Numpy数组详解：shape、索引与切片全攻略

2025-12-09 579 阅读 Numpy教程 Numpy数组 Python数据分析 shape属性数组索引数组切片

Numpy数组是Python数据分析的基础，提供高效多维数组对象，核心操作包括数组创建、shape、索引和切片。创建方法：常用np.array()从列表生成数组；zeros/ones创建全0/1数组；arange类似range生成序列。 shape是数组维度标识，用.shape查看，reshape()可调整维度（总元素数需不变），-1表示自动计算维度。索引：1维数组同列表（0开始，支持正负索引）；2维数组用[i,j]双索引。切片：语法[start:end:step]，1维/2维分别截取子数组，切片默认返回视图（修改影响原数组），需用.copy()生成独立拷贝。掌握shape、索引和切片是核心，建议通过实践练习巩固这些基础操作。

阅读全文