[NLP] 문자열 전처리 Text Preprocessing :: Stopword
[ 문자열 전처리 Text Preprocessing ] 불용어 (Stopword) - 유의미한 토큰만을 선별하기 위해서는 큰 의미가 없는 단어를 제거하는 작업이 필요하다. - nltk에서는 아래와 같은 단어들을 stopwords로 지정하였다. ★ 소문자로 만들어줘야함 from nltk.corpus import stopwords stopwords.words('english') ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she'..
2020. 3. 4.
[NLP] 한국어 자연어 처리 NLP :: KoNLP
KoNLP - 형태소 단위로 형태소 토큰화 수행 1. Okt morphs : 형태소 추출 from konlpy.tag import Okt text = "들은 적 있어 지구가 생긴 후에 말야, 지금껏 말야. 한번도 같은 날씨였었던 적 없었대. 꼭 널 닮았어. 처음 만난 그날부터 매일 다르게 예쁜 걸. 말할래 내일도, 만날까 우리 또. 이렇게 eye 2 eye, 너를 좋아해 eye 2 eye." okt=Okt() okt.morphs(text) ['들은', '적', '있어', '지구', '가', '생긴', '후', '에', '말', '야', ',', '지금껏', '말', '야', '.', '한번', '도', '같은', '날씨', '였었던', '적', '없었대', '.', '꼭', '널', '닮았어', '.',..
2020. 2. 27.
[python] datetime 패키지
Python에서 날짜, 시간을 다룰 때 사용하는 패키지이다. from datetime import datetime datetime.now() 현재시각 now_time = datetime.now() now_time 출력 : datetime.datetime(year, month, day, hour, minute, second, microsecond) datetime.datetime(2019, 11, 11, 3, 31, 42, 393075) datetime.datetime 형식은 .year/.month/...등을 이용해 원하는 값을 불러올 수 있다. 문자열, 숫자가 아닌 datetime.datetime이라는 날짜 형식을 지정할 수 있게 해주기에 날짜 데이터를 다루기 좀 더 수월해진다. .weekday() 요일..
2019. 11. 11.