Python中pandas怎么实现分组去重统计和求和

要使用Python中的pandas库实现分组去重统计和求和,可以按照以下步骤进行操作:

分组去重统计和求和实现步骤:

  1. 导入pandas库: 首先,确保安装了pandas库,并导入它:

    python
    import pandas as pd
  2. 创建DataFrame: 假设有一个包含多个重复项的DataFrame,我们要对其中某列进行分组去重统计和求和。

    python
    data = { 'Category': ['A', 'B', 'A', 'C', 'B', 'A', 'C'], 'Value': [10, 20, 15, 25, 30, 10, 5] } df = pd.DataFrame(data)
  3. 分组去重统计: 使用drop_duplicates()方法进行分组去重,结合groupby()方法按照指定列进行分组:

    python
    # 按 Category 列分组去重并统计各组的计数 unique_counts = df.drop_duplicates(subset=['Category']).groupby('Category').size().reset_index(name='Count') print("分组去重统计:") print(unique_counts)

    这将输出每个唯一Category的计数。

  4. 分组求和: 使用groupby()方法和sum()函数对特定列进行分组求和:

    python
    # 按 Category 列分组求和 Value 列 sum_by_category = df.groupby('Category')['Value'].sum().reset_index(name='Sum') print("\n分组求和:") print(sum_by_category)

    这将输出按Category列分组后,Value列的求和结果。

总结关键字:

关键字:Python, pandas, 分组, 去重, 统计, 求和, drop_duplicates, groupby, sum