标签 "Python数据处理" 下的文章

列表推导式vs生成器表达式：Python数据处理效率对比

2025-12-20 510 阅读 Python语法 Python列表推导式生成器表达式 Python数据处理内存效率对比 Python性能优化

Python中列表推导式与生成器表达式是生成序列的常用工具，核心差异在内存与效率。列表推导式用中括号，直接生成完整列表，一次性加载所有元素，内存占用大，可多次遍历、支持随机访问，适合小数据或需重复使用的场景。生成器表达式用小括号，惰性计算，仅在迭代时逐个生成元素，内存友好，只能遍历一次且无法随机访问，适合大数据量或单次处理。关键区别：列表内存占用大、可多次遍历，生成器惰性生成、内存小、单向迭代。总结：小数据用列表，大数据用生成器，按需选择更高效。

阅读全文

迭代器与生成器：Python高效处理数据的基础技巧

2025-12-19 401 阅读 Python语法 Python迭代器生成器 Python数据处理内存高效 yield

Python迭代器和生成器用于处理大数据或无限数据，避免一次性加载内存，提升效率。迭代器是实现`__iter__`和`__next__`方法的对象，只能向前迭代（不可重复），可通过`iter()`从列表等可迭代对象转换，用`next()`获取元素。生成器是特殊迭代器，更简洁高效，分生成器函数（`yield`关键字）和表达式（圆括号）。生成器函数如生成斐波那契数列，表达式如`(x**2 for x in range(10))`，均不一次性生成所有元素，内存效率远高于列表推导式。二者核心区别：迭代器需手动实现迭代逻辑，生成器自动；生成器内存效率更高。适用于大数据流、无限序列等场景。掌握它们可优化内存使用，是Python处理数据的关键技巧。

阅读全文

pandas数据统计：5个常用函数帮你快速掌握基础分析

2025-12-09 520 阅读 pandas教程 pandas数据分析 Python数据处理 pandas统计函数数据基础分析 pandas入门

pandas是Python处理表格数据的强大工具，文章介绍5个基础统计函数，助初学者快速掌握数据分析技能。 **sum()**：计算总和，自动忽略缺失值（NaN），`axis=1`可按行求和，用于统计总量（如总分）。 **mean()**：求平均值，反映集中趋势，但易受极端值影响，适合无极端值场景。 **median()**：计算中位数，抗极端值干扰，更能反映“大多数数据真实水平”。 **max()/min()**：分别返回最大/最小值，用于统计极值（如最高分、最低分）。 **describe()**：一站式统计，输出count（数量）、mean（均值）、std（标准差）、分位数等，全面了解数据分布与波动。这些函数可回答“总量、平均、中间水平、极值”等基础问题，是数据分析的“基本功”。后续可进阶学习分组统计（groupby）等技能。

阅读全文

pandas Series入门：从理解到实战操作，新手也能懂

2025-12-09 507 阅读 pandas教程 Python pandas Series pandas入门教程 Series数据结构 Python数据处理 pandas实战

pandas的Series是带标签的一维数组，包含数据与索引，是数据处理基础结构。创建方式多样：从列表（默认0,1...索引）、字典（键为索引）、标量+长度（重复值），也可自定义索引（如日期、字符串）。核心属性有values（数据数组）、index（标签）、name（名称）、shape（形状）。索引操作支持标签访问（loc）、位置访问（iloc），切片时标签切片含结束标签，位置切片不含。数据操作含sum、mean等统计方法，及布尔条件筛选。实战中可用于时间序列或标签化数据（如客流量分析），通过索引快速定位、统计与筛选，掌握索引操作是数据处理的关键。

阅读全文