[Pandas] pd.read_html() :: html에서 표 가져오기/데이터프레임으로 만들기
⭐️ Colab에서 실행해보기 https://colab.research.google.com/drive/1qoZmWeqZV8c_-yOG2bKLMe3aDZJ2O0ia pandas import pandas as pd pd.read_html을 이용하면 html에 있는 table속성에 해당하는 값을 가져올 수 있다. 이는 웹페이지에 있는 표를 불러오겠다는 의미이다. pandas.read_html(URL, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, tupleize_cols=None, thousands=', ', encoding=None, decimal='.', converters=..
2020. 3. 31.
[NLP] 문자열 전처리 Text Preprocessing :: Stopword
[ 문자열 전처리 Text Preprocessing ] 불용어 (Stopword) - 유의미한 토큰만을 선별하기 위해서는 큰 의미가 없는 단어를 제거하는 작업이 필요하다. - nltk에서는 아래와 같은 단어들을 stopwords로 지정하였다. ★ 소문자로 만들어줘야함 from nltk.corpus import stopwords stopwords.words('english') ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she'..
2020. 3. 4.
[NLP] 한국어 자연어 처리 NLP :: KoNLP
KoNLP - 형태소 단위로 형태소 토큰화 수행 1. Okt morphs : 형태소 추출 from konlpy.tag import Okt text = "들은 적 있어 지구가 생긴 후에 말야, 지금껏 말야. 한번도 같은 날씨였었던 적 없었대. 꼭 널 닮았어. 처음 만난 그날부터 매일 다르게 예쁜 걸. 말할래 내일도, 만날까 우리 또. 이렇게 eye 2 eye, 너를 좋아해 eye 2 eye." okt=Okt() okt.morphs(text) ['들은', '적', '있어', '지구', '가', '생긴', '후', '에', '말', '야', ',', '지금껏', '말', '야', '.', '한번', '도', '같은', '날씨', '였었던', '적', '없었대', '.', '꼭', '널', '닮았어', '.',..
2020. 2. 27.