MongoDB聚合管道:初學者也能看懂的數據分析方法

MongoDB聚合管道是數據處理的“流水線”,通過多階段加工實現複雜數據分析。核心是由多個“階段”組成,每個階段處理前一階段輸出,依次完成篩選、投影、分組統計等操作。 關鍵階段包括:`$match`(篩選,類似SQL WHERE)、`$project`(投影,類似SELECT)、`$group`(分組統計,如平均分、總數,類似GROUP BY)、`$sort`(排序)、`$limit`(限制數量)。 實戰中,通過多階段組合可實現複雜分析:如篩選1班數學成績並投影姓名和分數(`$match+$project`),按科目分組計算平均分(`$group+$sort`),或統計班級+科目平均分及人數(複合分組)。常用操作符還包括`$sum`(求和)、`$avg`(平均)等。 其優勢是無需手動導出數據,通過管道式組合高效完成分析,建議從簡單階段開始,逐步練習多階段嵌套,熟悉各階段作用即可掌握。

閱讀全文
pandas索引(Index)入門:輕鬆搞定數據排序與重命名

### pandas索引(Index)詳解 索引是pandas中標識數據位置和內容的關鍵,類似Excel的行號/列標題,是數據的“身份證”,核心作用包括快速定位數據、支持排序和合並操作。 **數據排序**: - **Series排序**:按索引排序用`sort_index()`(默認升序,可設`ascending=False`降序);按值排序用`sort_values()`(默認升序,同理可降序)。 - **DataFrame排序**:按列值排序用`sort_values(by=列名)`,按行索引排序用`sort_index()`。 **重命名索引**: - 用`rename()`方法修改行/列標籤,如`df.rename(index={舊名:新名})`或`df.rename(columns={舊名:新名})`; - 直接賦值修改:`df.index = [新索引]`或`df.columns = [新列名]`,需保證長度一致。 **注意事項**: - 區分行索引(`df.index`)和列索引(`df.columns`); - 修改索引時

閱讀全文