728x90
dataframe에서 특정 column에 duplicates가 존재하면 지우는 것은 drop_duplicates를 활용한다.
중복인 것만 살리고 싶다면?
즉, 특정 column에서 한번만 등장한 것을 지우고, 다중 등장인 row만 살리고 싶다면
df = df[df."COLUMN".duplicated(keep=False)]
or
df = df[df.duplicated(['COLUMN'], keep=False)
를 사용하자. (후자는 multiple columns에도 활용 가능)
중복 여부 확인은 duplicated()
중복값 처리는 drop_duplicated()
keep에 'first', 'last', False가 가능
'first'는 중복이 있으면 첫 등장하는 것은 True, 이후는 False
'last'는 중복이 있으면 마지막 등장하는 것은 True, 이전은 False
False는 중복이 있으면 처음이든 끝이든 모두 True
728x90
'ML' 카테고리의 다른 글
[Numpy]numpy.ndarray에서 각 row마다 특정 column의 원소를 가져오고 싶을 때 (0) | 2020.10.25 |
---|---|
[Numpy]numpy.ndarray 각 원소에 dictionary map할 때 (0) | 2020.10.25 |
[Pandas]itertuples에 관하여 (0) | 2020.10.25 |
[Pandas]Iteration을 특정 index 이상에서부터 하고 싶을 때 (0) | 2020.10.25 |
contextual data, contextual features, context features (0) | 2020.10.19 |