pandas排序操作:sort_values函数入门与实战

本文介绍pandas中`sort_values`函数的排序方法,适用于DataFrame/Series数据排序。核心参数:`by`指定排序列(必填),`ascending`控制升/降序(默认升序True),`inplace`决定是否修改原数据(默认False,返回新数据)。 基础用法:单列排序,如按“语文”升序(默认)或“数学”降序;多列排序,可传入列名列表及对应升序/降序方向(如先语文升序、再数学降序)。`inplace=True`直接修改原数据,建议优先保留原数据(默认False)。 实战示例:新增“总分”列后按总分降序排序,清晰展示综合成绩排名。注意事项:多列排序需保证`by`和`ascending`列表长度一致;操作数据安全,避免意外覆盖原数据。 通过示例掌握核心参数和常见场景,排序是数据处理基础,结合后续分析(如TopN)更显重要。

阅读全文
pandas超实用技巧:数据清洗入门,新手也能轻松搞定

数据清洗是数据分析的关键,pandas是高效处理工具。文章教新手用pandas完成核心清洗:先安装导入数据(`pd.read_csv()`或创建示例DataFrame),用`head()`、`info()`初步检查。 处理缺失值:用`isnull()`识别,`dropna()`删除或`fillna()`(均值/中位数)填充;重复值用`duplicated()`识别,`drop_duplicates()`删除;异常值通过`describe()`统计或逻辑筛选(如收入≤20000);数据类型转换用`astype()`或`to_datetime()`。 新手流程:导入→检查→处理缺失→重复→异常→类型转换。强调多动手练习,灵活应用工具解决实际数据问题。

阅读全文
pandas数据合并:merge与concat基础操作,新手也能学

本文介绍pandas的`merge`和`concat`两个数据合并工具,适合新手快速掌握。 **concat**:无关联键,直接拼接,分行/列方向。行拼接(`axis=0`)适合结构相同表(如多月份数据),需注意用`ignore_index=True`重置索引避免重复;列拼接(`axis=1`)需行数一致,用于按行标识合并(如学生信息+成绩表)。 **merge**:基于共同键(如姓名、ID)合并,类似SQL JOIN,支持四种方式:`inner`(默认,保留共同键)、`left`(保留左表)、`right`(保留右表)、`outer`(保留所有)。键名不同时用`left_on`/`right_on`指定,默认合并方式为`inner`。 **关键区别**:concat无键直接拼接,merge按键匹配。新手需注意:concat列拼接行数需一致,merge用`how`参数控制合并范围,避免索引重复和键名不匹配问题。

阅读全文
新手必看!pandas基础操作:创建、查看与修改数据

本文介绍pandas基础操作,涵盖数据创建、查看与修改。 **数据创建**:核心结构为Series(一维带索引)和DataFrame(二维表格)。Series可通过列表(默认0,1…索引)或自定义索引(如['a','b'])创建;DataFrame可用字典(键=列名,值=列数据)或二维列表(需指定columns)创建。 **数据查看**:`head(n)`/`tail(n)`预览前/后n行(默认5行);`info()`查看数据类型与非空值,`describe()`统计数值列(计数、均值等);`columns`/`index`分别查看列名和行索引。 **数据修改**:单元格修改用`loc[标签,列名]`或`iloc[位置,列位置]`;新增列直接赋值(如`df['班级']='一班'`)或基于现有列计算;删除列用`drop(列名, axis=1, inplace=True)`;修改索引可直接赋值`index`/`columns`或用`rename()`重命名。 核心是“定位数据”,需区分`loc

阅读全文
pandas DataFrame入门:3步快速上手数据选择与筛选

本文介绍pandas DataFrame数据选择与筛选的3个核心步骤,适合初学者快速掌握。 第一步:列选择。单列用`df['列名']`返回Series,多列用`df[['列名1','列名2']]`返回DataFrame。 第二步:行选择。提供`iloc`(按位置,整数索引)和`loc`(按标签,自定义索引):`df.iloc[行范围]`或`df.loc[行标签]`。 第三步:条件筛选。单条件用`df[条件]`,多条件用`&`(且)/`|`(或)连接,每个条件需加括号。 关键提醒:多条件筛选必须用`&`/`|`代替`and`/`or`,且条件加括号。通过三步操作可完成基础数据提取,为后续分析奠基。

阅读全文
Numpy数组变形:reshape与flatten零基础教程

本文介绍Numpy中数组变形的两个实用方法:`reshape`和`flatten`,用于满足不同数据处理需求。核心前提是变形前后数组元素总数必须一致。 `reshape`方法可改变数组形状(如1维转2维),语法为`arr.reshape(new_shape)`,支持元组指定形状,用`-1`可自动计算缺失维度(如3行自动算列数),返回新数组不修改原数组。 `flatten`方法将多维数组展平为1维,返回新数组(副本),避免修改原数组,与`ravel`(返回视图)不同,推荐优先使用`flatten`。 常见错误是“元素总数不匹配”,需确保`reshape`参数乘积等于原数组大小(`原数组.size`)。 总结:`reshape`灵活调整形状,`flatten`安全展平为1维,掌握两者可高效处理数组变形,为数据处理(如机器学习)奠定基础。

阅读全文
Numpy统计分析:mean、sum与max函数速上手

这篇文章介绍了NumPy中`mean`(平均值)、`sum`(求和)和`max`(最大值)三个常用统计函数的使用方法。NumPy作为Python数据分析核心工具,提供高效多维数组及统计函数。三个函数均支持`axis`参数控制计算方向:`axis=0`按列(垂直方向)计算,`axis=1`按行(水平方向)计算,不指定则计算整体。 - **mean**:计算数组元素算术平均值,一维数组整体平均,二维数组可按列/行求平均。 - **sum**:计算元素总和,与mean类似,通过`axis`指定行列求和。 - **max**:查找数组最大值,同样支持行列方向最大值查找。 文章以一维/二维数组为例演示基础用法,并通过学生成绩数据(3学生×3课程)实战:计算每门课平均分、每个学生总分及最高分,验证函数实用性。总结指出,掌握这三个函数及`axis`参数是数据分析的基础,为后续复杂分析奠基。

阅读全文
Numpy数组详解:shape、索引与切片全攻略

Numpy数组是Python数据分析的基础,提供高效多维数组对象,核心操作包括数组创建、shape、索引和切片。 创建方法:常用np.array()从列表生成数组;zeros/ones创建全0/1数组;arange类似range生成序列。 shape是数组维度标识,用.shape查看,reshape()可调整维度(总元素数需不变),-1表示自动计算维度。 索引:1维数组同列表(0开始,支持正负索引);2维数组用[i,j]双索引。 切片:语法[start:end:step],1维/2维分别截取子数组,切片默认返回视图(修改影响原数组),需用.copy()生成独立拷贝。 掌握shape、索引和切片是核心,建议通过实践练习巩固这些基础操作。

阅读全文