[Pandas]중복인것만 살리기

2020. 10. 25. 12:10

728x90

dataframe에서 특정 column에 duplicates가 존재하면 지우는 것은 drop_duplicates를 활용한다.

중복인 것만 살리고 싶다면?

즉, 특정 column에서 한번만 등장한 것을 지우고, 다중 등장인 row만 살리고 싶다면

df = df[df."COLUMN".duplicated(keep=False)]

df = df[df.duplicated(['COLUMN'], keep=False)

를 사용하자. (후자는 multiple columns에도 활용 가능)

중복 여부 확인은 duplicated()

중복값 처리는 drop_duplicated()

keep에 'first', 'last', False가 가능

'first'는 중복이 있으면 첫 등장하는 것은 True, 이후는 False

'last'는 중복이 있으면 마지막 등장하는 것은 True, 이전은 False

False는 중복이 있으면 처음이든 끝이든 모두 True

728x90

[Numpy]numpy.ndarray에서 각 row마다 특정 column의 원소를 가져오고 싶을 때 (0)	2020.10.25
[Numpy]numpy.ndarray 각 원소에 dictionary map할 때 (0)	2020.10.25
[Pandas]itertuples에 관하여 (0)	2020.10.25
[Pandas]Iteration을 특정 index 이상에서부터 하고 싶을 때 (0)	2020.10.25
contextual data, contextual features, context features (0)	2020.10.19

나를 잃지 말자