본문 바로가기

Python/기타18

[NLP] 문자열 전처리 Text Preprocessing :: Stopword [ 문자열 전처리 Text Preprocessing ] 불용어 (Stopword) - 유의미한 토큰만을 선별하기 위해서는 큰 의미가 없는 단어를 제거하는 작업이 필요하다. - nltk에서는 아래와 같은 단어들을 stopwords로 지정하였다. ★ 소문자로 만들어줘야함 from nltk.corpus import stopwords stopwords.words('english') ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she'.. 2020. 3. 4.
[NLP] 한국어 자연어 처리 NLP :: KoNLP KoNLP - 형태소 단위로 형태소 토큰화 수행 1. Okt morphs : 형태소 추출 from konlpy.tag import Okt text = "들은 적 있어 지구가 생긴 후에 말야, 지금껏 말야. 한번도 같은 날씨였었던 적 없었대. 꼭 널 닮았어. 처음 만난 그날부터 매일 다르게 예쁜 걸. 말할래 내일도, 만날까 우리 또. 이렇게 eye 2 eye, 너를 좋아해 eye 2 eye." okt=Okt() okt.morphs(text) ['들은', '적', '있어', '지구', '가', '생긴', '후', '에', '말', '야', ',', '지금껏', '말', '야', '.', '한번', '도', '같은', '날씨', '였었던', '적', '없었대', '.', '꼭', '널', '닮았어', '.',.. 2020. 2. 27.
[NLP] 문자열 전처리 Text Preprocessing :: 토큰화 Tokenization [ 문자열 전처리 Text Preprocessing ] 토큰화 (Tokenization) - 구두점이나 특수문자를 전부 제거하면 토큰이 의미를 잃어버리는 경우가 발생하기도 한다. - 주의해야 할 사항 1. 구두점이나 특수문자를 단순 제외해서는 안 된다. 1) 단어 자체에 구두점을 갖고 있는 경우 : ph.D, KT&G 2) 특수문자가 의미를 가지고 있는 경우 : $ 531, 17/05/31 2. 줄임말과 단어 내 띄어쓰기가 있는 경우 1) 줄임말 : I'm = I am 2) 하나의 단어이지만 띄어쓰기가 있는 경우 : New York - NLTK : 영어 코퍼스를 토큰화하기 위한 도구 제공 ★ 아포스트로피가 들어간 상황에서 Don't와 Mizy's의 토큰화 Don't / Don t / Dont / Do n.. 2020. 2. 27.
Google Colaboratory에서 Kaggle API 사용하기 :: Kaggle 연결하기/다운로드 Kaggle 연결하기 1. Mount from google.colab import drive drive.mount('./gdrive') 구글 콜랍과 드라이브를 연결(마운트)한다. 2. kaggle 설치 ! pip install kaggle 라이브러리가 없다면 설치를 해준다. 느낌표를 꼭 붙여야한다. 3. kaggle.json !mkdir /root/.kaggle/ !cp [ kaggle.json 위치 ] /root/.kaggle/ # kaggl.json위치 지정 !chmod 600 /root/.kaggle/kaggle.json kaggle.json 어쩌구 저쩌구를 한다. 이때 자신의 kaggle.json 파일을 구글 드라이브 업로드 한 후 해당 경로를 입력하면 된다. 참고) kaggle.json은 자신의.. 2020. 1. 28.
Google Colaboratory 사용하기 :: 준비, mount Google Colaboratory은 구글 드라이브에서 사용할 수 있는 Jupyter notebook이라 생각하면 된다. 언제 어디서든 파이썬을 사용할 수 있다는 편리성이 있다. 하나의 고정된 컴퓨터가 아닌 여러대의 컴퓨터에서 사용할 때 특히나 더 좋은 것 같다. 구글 드라이브에서 마우스 오른쪽 버튼을 클릭하고 맨 아래에 나타난 +연결할 앱 더보기를 클릭한다. 쭉쭉 내려서 colab을 찾아도 되고 검색해도 된다. 클릭하고 연결하면 준비 끝! 콜랍의 기본 화면이다. 코드를 누르면 파이썬 코드를 작성할 수 있고 텍스트를 클릭하면 마크다운을 작성할 수 있다. 왼쪽에 있는 항목의 첫번째는 목차이다. 항목을 클릭하면 해당하는 위치로 이동한다. 두번째의 는 콜랍을 좀 더 편리하게 이.. 2020. 1. 28.
아나콘다(Anaconda) 설치하기 :: Jupyter Notebook(쥬피터노트북) 아나콘다는 다양한 패키지를 제공하는 Python/R 데이터 과학 플랫폼이다. 쥬피터노트북을 사용하려면 ANACONDA를 설치해야한다. Anaconda | The World's Most Popular Data Science Platform Anaconda is the standard platform for Python data science, leading in open source innovation for machine learning. Develop, manage, collaborate, and govern at scale with our enterprise platform. www.anaconda.com 아나콘다 홈페이지에서 자신의 운영체제에 맞는 파일을 설치한다. Mac 자신이 사용하는 Pytho.. 2019. 11. 26.
[python] googletrans로 언어 번역하기 :: Google Translate 0. 패키지 설치하기 pip install googletrans 1. 번역하기 from googletrans import Translator trans = Translator() result = trans.translate(word, dest='en') result.text .text : 번역된 문자 출력 .src(source) : 번역할 언어(from) .dest(destination) : 번역된 언어(to) 2. 사용할 수 있는 언어 import googletrans googletrans.LANGUAGES {'af': 'afrikaans', 'am': 'amharic', 'ar': 'arabic', 'az': 'azerbaijani', 'be': 'belarusian', 'bg': 'bulgarian.. 2019. 11. 12.
[python] datetime 패키지 Python에서 날짜, 시간을 다룰 때 사용하는 패키지이다. from datetime import datetime datetime.now() 현재시각 now_time = datetime.now() now_time 출력 : datetime.datetime(year, month, day, hour, minute, second, microsecond) datetime.datetime(2019, 11, 11, 3, 31, 42, 393075) datetime.datetime 형식은 .year/.month/...등을 이용해 원하는 값을 불러올 수 있다. 문자열, 숫자가 아닌 datetime.datetime이라는 날짜 형식을 지정할 수 있게 해주기에 날짜 데이터를 다루기 좀 더 수월해진다. .weekday() 요일.. 2019. 11. 11.