본문 바로가기

Pandas/응용

정규표현식 - re.sub : 원하는 문자만 남기고 제거하기

반응형
re.sub('찾을 패턴', '찾은 패턴을 변경할 내용', '원본')


주어진 문자열(찾을 패턴)에서 일치하는 모든 패턴을 (변경할 내용으로)바꾼다.


두번째 인자는 특정 문자열이거나 함수가 될 수도 있다.

 

 

 

메타캐릭터 []


[]안에 들어있는 캐릭터 자체를 나타내며

[abc] : a 또는 b 또는 c



- : 해당 문자 사이 범위에 속하는 문자 중 하나
[a-d] : a 또는 b 또는 c 또는 d



^ : 맨 앞에 사용될 경우에만 해당 문자 패턴이 아닌 것과 매칭
[^a-d] : a 그리고 b 그리고 c 그리고 d 가 아닌 문자열

 

 

 

 

위 두가지 원리를 가지고 예제를 풀어보자

 

 

 

 

위 전화번호에서 010-1234-1321만 뽑아내려고 한다.

 

이때 re.sub를 이용하면 된다.

 

 

 

 

% 또는 $ 또는 ^ 또는 * 또는 !을 없애주는 것이다.

 

 

 

 

 

 

 

 

반대로 ^를 이용할 수도 있다.

 

 

 

 0부터 9까지의 숫자, -가 아닌 문자열을 모두 없애주는 것이다.

 

^를 맨 앞에 붙여서 가능해진 것이다.

반응형