MongoDB聚合管道:初学者也能看懂的数据分析方法

MongoDB聚合管道是数据处理的“流水线”,通过多阶段加工实现复杂数据分析。核心是由多个“阶段”组成,每个阶段处理前一阶段输出,依次完成筛选、投影、分组统计等操作。 关键阶段包括:`$match`(筛选,类似SQL WHERE)、`$project`(投影,类似SELECT)、`$group`(分组统计,如平均分、总数,类似GROUP BY)、`$sort`(排序)、`$limit`(限制数量)。 实战中,通过多阶段组合可实现复杂分析:如筛选1班数学成绩并投影姓名和分数(`$match+$project`),按科目分组计算平均分(`$group+$sort`),或统计班级+科目平均分及人数(复合分组)。常用操作符还包括`$sum`(求和)、`$avg`(平均)等。 其优势是无需手动导出数据,通过管道式组合高效完成分析,建议从简单阶段开始,逐步练习多阶段嵌套,熟悉各阶段作用即可掌握。

阅读全文
pandas索引(Index)入门:轻松搞定数据排序与重命名

### pandas索引(Index)详解 索引是pandas中标识数据位置和内容的关键,类似Excel的行号/列标题,是数据的“身份证”,核心作用包括快速定位数据、支持排序和合并操作。 **数据排序**: - **Series排序**:按索引排序用`sort_index()`(默认升序,可设`ascending=False`降序);按值排序用`sort_values()`(默认升序,同理可降序)。 - **DataFrame排序**:按列值排序用`sort_values(by=列名)`,按行索引排序用`sort_index()`。 **重命名索引**: - 用`rename()`方法修改行/列标签,如`df.rename(index={旧名:新名})`或`df.rename(columns={旧名:新名})`; - 直接赋值修改:`df.index = [新索引]`或`df.columns = [新列名]`,需保证长度一致。 **注意事项**: - 区分行索引(`df.index`)和列索引(`df.columns`); - 修改索引时

阅读全文