pandas保姆级教程:缺失值处理从入门到实践
这篇文章介绍了数据分析中缺失值的处理方法。缺失值指数据集中无有效值,pandas中以`NaN`表示。处理前需先检查:`isnull()`标记缺失值,`isnull().sum()`统计各列缺失数,`info()`查看整体缺失分布。 处理策略分删除和填充:删除用`dropna()`,按行(默认)或列删除含缺失值的记录;填充用`fillna()`,包括固定值(如0)、统计量(均值/中位数适合数值,众数适合分类)、向前/向后填充(`ffill/bfill`,适用于时间序列)。 案例以电商订单数据为例,先检查缺失值,再用均值填充“金额”列,众数填充“支付方式”列。处理核心步骤为:检查缺失→选策略(极少值删除,多值或关键数据填充)→验证结果,需结合数据特点灵活选择方法。
阅读全文零基础学pandas:手把手教你读取CSV文件
这篇文章介绍了学习pandas处理数据的入门步骤,核心是读取CSV文件并基础操作数据。首先,pandas是数据处理的“管家”,读取CSV是数据分析第一步。步骤包括:安装pandas(pip install,Anaconda/Jupyter预装可跳过)并导入(import pandas as pd);用pd.read_csv()读取CSV生成DataFrame;查看数据用head()/tail()预览、info()检查类型和缺失值、describe()统计数值;处理特殊格式如中文乱码(encoding)、分隔符(sep)、无表头(names)。文章最后总结已掌握的基础技能,指出这是数据处理的开始,后续可学习筛选、清洗等进阶操作。
阅读全文