본문 바로가기

Python52

[Pandas] pd.read_html() :: html에서 표 가져오기/데이터프레임으로 만들기 ⭐️ Colab에서 실행해보기 https://colab.research.google.com/drive/1qoZmWeqZV8c_-yOG2bKLMe3aDZJ2O0ia pandas import pandas as pd pd.read_html을 이용하면 html에 있는 table속성에 해당하는 값을 가져올 수 있다. 이는 웹페이지에 있는 표를 불러오겠다는 의미이다. pandas.read_html(URL, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, tupleize_cols=None, thousands=', ', encoding=None, decimal='.', converters=.. 2020. 3. 31.
pd.read_table 예제 테이블 1 과일 색상 가격 사과 빨강 1500원 사과 초록 1000원 바나나 노랑 3000원 바나나 초록 2000원 테이블 2 국가 도시 언어 한국 서울 한국어 미국 뉴욕 영어 이탈리아 피렌체 이탈리아어 프랑스 파리 불어 테이블 3 한국어 영어 1월 January 2월 Feburary 3월 March 2020. 3. 31.
[Python] 쥬피터 노트북 경고(warnings)가 나오지 않게 하는 법 파이썬에서 경고가 나오지 않게 하는 법 import warnings warnings.filterwarnings(action='ignore') 쥬피터에서 이런 경고가 나오지 않게 해준다. 2020. 3. 20.
[Python] 문자열을 딕셔너리로 만들기 문자열(str, object)를 딕셔너리(dictionary)로 만드는 방법 from ast import literal_eval x = "{'red':['apple', 'strawberry'], 'yellow':['banana', 'lemon']}" # Example literal_eval(x) # 문자열 → 딕셔너리 2020. 3. 20.
[NLP] 문자열 전처리 Text Preprocessing :: Stopword [ 문자열 전처리 Text Preprocessing ] 불용어 (Stopword) - 유의미한 토큰만을 선별하기 위해서는 큰 의미가 없는 단어를 제거하는 작업이 필요하다. - nltk에서는 아래와 같은 단어들을 stopwords로 지정하였다. ★ 소문자로 만들어줘야함 from nltk.corpus import stopwords stopwords.words('english') ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she'.. 2020. 3. 4.
[NLP] 한국어 자연어 처리 NLP :: KoNLP KoNLP - 형태소 단위로 형태소 토큰화 수행 1. Okt morphs : 형태소 추출 from konlpy.tag import Okt text = "들은 적 있어 지구가 생긴 후에 말야, 지금껏 말야. 한번도 같은 날씨였었던 적 없었대. 꼭 널 닮았어. 처음 만난 그날부터 매일 다르게 예쁜 걸. 말할래 내일도, 만날까 우리 또. 이렇게 eye 2 eye, 너를 좋아해 eye 2 eye." okt=Okt() okt.morphs(text) ['들은', '적', '있어', '지구', '가', '생긴', '후', '에', '말', '야', ',', '지금껏', '말', '야', '.', '한번', '도', '같은', '날씨', '였었던', '적', '없었대', '.', '꼭', '널', '닮았어', '.',.. 2020. 2. 27.
[NLP] 문자열 전처리 Text Preprocessing :: 토큰화 Tokenization [ 문자열 전처리 Text Preprocessing ] 토큰화 (Tokenization) - 구두점이나 특수문자를 전부 제거하면 토큰이 의미를 잃어버리는 경우가 발생하기도 한다. - 주의해야 할 사항 1. 구두점이나 특수문자를 단순 제외해서는 안 된다. 1) 단어 자체에 구두점을 갖고 있는 경우 : ph.D, KT&G 2) 특수문자가 의미를 가지고 있는 경우 : $ 531, 17/05/31 2. 줄임말과 단어 내 띄어쓰기가 있는 경우 1) 줄임말 : I'm = I am 2) 하나의 단어이지만 띄어쓰기가 있는 경우 : New York - NLTK : 영어 코퍼스를 토큰화하기 위한 도구 제공 ★ 아포스트로피가 들어간 상황에서 Don't와 Mizy's의 토큰화 Don't / Don t / Dont / Do n.. 2020. 2. 27.
[Python] 문자열 처리 :: 양 끝 공백제거/맨 앞 공백제거/맨 뒤 공백제거 양 끝 공백 제거 : .strip() 왼쪽 공백 제거 : .lstrip() 오른쪽 공백 제거 : .rstrip() Import Pandas import pandas as pd 양쪽 공백제거 ' word '.strip() 왼쪽 공백제거 ' word '.lstrip() 오른쪽 공백제거 ' word '.rstrip() 데이터프레임의 column에 적용할 때 예시 데이터프레임 생성 데이터프레임 전체 혹은 한 컬럼에 strip(), rstrip(), lstrip()을 그대로 적용하면 오류가 난다. 'DataFrame' object has no attribute 'strip' 'Series' object has no attribute 'strip' 이때 컬럼별로 적용하려면 .str. 을 입력해주어야 한다. # 양쪽.. 2020. 2. 18.
Google Colaboratory에서 Kaggle API 사용하기 :: Kaggle 연결하기/다운로드 Kaggle 연결하기 1. Mount from google.colab import drive drive.mount('./gdrive') 구글 콜랍과 드라이브를 연결(마운트)한다. 2. kaggle 설치 ! pip install kaggle 라이브러리가 없다면 설치를 해준다. 느낌표를 꼭 붙여야한다. 3. kaggle.json !mkdir /root/.kaggle/ !cp [ kaggle.json 위치 ] /root/.kaggle/ # kaggl.json위치 지정 !chmod 600 /root/.kaggle/kaggle.json kaggle.json 어쩌구 저쩌구를 한다. 이때 자신의 kaggle.json 파일을 구글 드라이브 업로드 한 후 해당 경로를 입력하면 된다. 참고) kaggle.json은 자신의.. 2020. 1. 28.
Google Colaboratory 사용하기 :: 준비, mount Google Colaboratory은 구글 드라이브에서 사용할 수 있는 Jupyter notebook이라 생각하면 된다. 언제 어디서든 파이썬을 사용할 수 있다는 편리성이 있다. 하나의 고정된 컴퓨터가 아닌 여러대의 컴퓨터에서 사용할 때 특히나 더 좋은 것 같다. 구글 드라이브에서 마우스 오른쪽 버튼을 클릭하고 맨 아래에 나타난 +연결할 앱 더보기를 클릭한다. 쭉쭉 내려서 colab을 찾아도 되고 검색해도 된다. 클릭하고 연결하면 준비 끝! 콜랍의 기본 화면이다. 코드를 누르면 파이썬 코드를 작성할 수 있고 텍스트를 클릭하면 마크다운을 작성할 수 있다. 왼쪽에 있는 항목의 첫번째는 목차이다. 항목을 클릭하면 해당하는 위치로 이동한다. 두번째의 는 콜랍을 좀 더 편리하게 이.. 2020. 1. 28.