【ML笔记】数据集清洗
数据清洗的具体步骤
- 处理缺失值
- 去除重复数据
- 修正数据格式
- 处理异常值
- 标准化和归一化
- 处理不一致的数据
- 转换数据类型
- 数据集成
数据集基本信息
import os |
数据清洗的具体方法和示例
处理缺失值
方法:
- 删除缺失值:适用于缺失值较少且随机分布的情况。
- 填补缺失值:使用均值、中位数、众数填补,或使用插值、回归等方法填补。
- 标记缺失值:用特定值(如 -1 或 “Unknown”)标记缺失数据。
import pandas as pd |
去除重复数据
方法:
- 去除完全重复的行:删除所有列值都相同的重复行。
- 去除部分重复的行:根据特定列(如ID或名称)去除重复行。
# 创建示例数据集 |
修正数据格式
方法:
- 转换数据格式:将日期、时间、货币等字段转换为统一格式。
- 去除空白和特殊字符:清理字符串中的多余空格和特殊字符。
# 创建示例数据集 |
处理异常值
方法:
- 去除异常值:删除明显的异常数据。
- 替换异常值:使用合理的数值替换异常值。
- 标记异常值:标记异常数据以便进一步分析。
# 创建示例数据集 |
标准化和归一化
方法:
- 标准化:将数据转换为均值为0、标准差为1的标准正态分布。
- 归一化:将数据缩放到特定范围(如0到1)。
from sklearn.preprocessing import StandardScaler, MinMaxScaler |
处理不一致的数据
方法:
- 统一数据格式和标准:统一度量单位、编码方式等。
- 合并相同类别:将表示同一类别的不同标签合并。
# 创建示例数据集 |
转换数据类型
方法:
- 转换数据类型:将数值型字符串转换为数值类型,日期字符串转换为日期类型等。
# 创建示例数据集 |
数据集成
方法:
- 合并数据集:将多个数据源整合成一个完整的数据集。
- 连接数据表:根据主键或外键进行表连接。
# 创建示例数据集 |
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hozenghan的博客!