본문 바로가기

분류 전체보기100

[Python] 리스트 정렬하기 :: sort / sorted 파이썬에서 리스트를 정렬하는 방법으로 sort와 sorted가 있다. sort를 실행하면 정렬된 값으로 리스트가 변경된다. 하지만 sorted는 정렬된 값을 보여주고 휘발된다. list.sort() - 정렬된 값으로 리스트가 수정된다.(in-place) - 역순으로 정렬 = list.sort(reverse = True) - 메소드이므로 . 앞에 리스트가 온다. sorted(list) - 정렬을 따로 저장해줘야한다. - 역순으로 정렬 = sorted(list, reverse = True) - 함수이므로 괄호 안에 리스트가 온다. 2021. 2. 10.
[Python] 영문 > 한글 키보드 입력 변환하기 :: 자모결합 / 자소결합 영어로 이루어진 키워드를 한글로 변환해야하는 일이 있었다. 예를들어 '사과'를 입력하고 싶었으나 'tkrhk'로 입력된 경우를 찾기 위해서다. 내가 생각한 방법은 'tkrhk'의 알파벳을 영-한 입력 딕셔너리에서 찾아서 대치하는 방법이다. 자세한건 아래에서 코드와 함께 봅시다! 1. 영문-한글 키보드 딕셔너리 생성 # 자음-초성/종성 cons = {'r':'ㄱ', 'R':'ㄲ', 's':'ㄴ', 'e':'ㄷ', 'E':'ㄸ', 'f':'ㄹ', 'a':'ㅁ', 'q':'ㅂ', 'Q':'ㅃ', 't':'ㅅ', 'T':'ㅆ', 'd':'ㅇ', 'w':'ㅈ', 'W':'ㅉ', 'c':'ㅊ', 'z':'ㅋ', 'x':'ㅌ', 'v':'ㅍ', 'g':'ㅎ'} # 모음-중성 vowels = {'k':'ㅏ', 'o':.. 2021. 1. 29.
[Python] for문(반복문) 진행상황 표시 :: tqdm / tqdm_notebook 반복문이 어디까지 진행되었는지 알고싶다면 tqdm을 사용하면 된다. 우선 tqdm 패키지를 설치해준다. # 패키지 설치하기 # pip pip install tqdm # conda conda install -c conda-forge tqdm tqdm을 실행했을 때 No module named 'tqdm' 에러가 나타나면 패키지를 설치하면 된다. tqdm_notebook from tqdm import tqdm_notebook for i in tqdm_notebook(range(10000)): print(i) 쥬피터 노트북에서 tqdm_notebook을 사용하면 진행상황이 원활하게 나타난다. 사용방법은 간단하다. for문에서 range의 바깥에 tqdm_notebook을 추가해주면 된다. 자신의 for문(반복.. 2021. 1. 28.
[HIVE] 테이블 만들기 :: CREATE TABLE -- 파티션이 있을 경우 CREATE TABLE IF NOT EXISTS DB.테이블 ( 열1 데이터타입 , 열2 데이터타입 ) COMMENT 'message' PARTITIONED BY (열3 데이터타입); -- 파티션이 없을 경우 CREATE TABLE IF NOT EXISTS DB.테이블 ( 열1 데이터타입 , 열2 데이터타입 ); -- 조회하여 테이블 생성 CRESTE TABLE DB.테이블 as SELECT * FROM db.table; [ 생략가능한 옵션 ] - IF NOT EXISTS : 지정한 위치(데이터베이스)에 해당 이름을 가진 테이블이 없다면 생성, 있으면 생성 x - COMMENT : 코멘트/메시지 남기기 - PARTITIONED BY : 파티션 지정하기 1. 파티션이 있을 경우 P.. 2021. 1. 26.
[Hadoop] HDP 설치하기 & 실행하기 :: Hortonworks Data Platform www.cloudera.com/downloads/hortonworks-sandbox/hdp.html Hortonworks Data Platform (HDP) on Sandbox The HDP Sandbox makes it easy to get started with Apache Hadoop, Apache Spark, Apache Hive, Apache HBase, Druid and Data Analytics Studio (DAS). www.cloudera.com 위 url에 접속해서 HDP를 다운받을 수 있다. 어떤 환경에서 사용할 것인지 선택하고 (나는 Virtualbox를 선택하였다.) 개인적인 정보를 입력한 후 동의를 누르면 다운로드된다. ↓ VirtualBox 설치하기 mizykk.tistory... 2021. 1. 15.
[Mac] VirtualBox 설치하기 www.virtualbox.org/wiki/Downloads Downloads – Oracle VM VirtualBox Download VirtualBox Here you will find links to VirtualBox binaries and its source code. VirtualBox binaries By downloading, you agree to the terms and conditions of the respective license. If you're looking for the latest VirtualBox 6.0 packages, see Virt www.virtualbox.org 1. OS X hosts 선택 2. 상자모양 더블클릭 3. 보안 및 개인 정보 보호 허용 2020. 12. 19.
[Python] 고유값 & 고유값의 개수 & 값의 개수 :: unique / nunique / value_counts 데이터에 고유값이 무엇이 있는지 알고 싶다면 unique 총 고유값의 수가 몇 개인지 알고 싶다면 nunique 값별로 데이터의 개수를 알고 싶다면 value_counts import seaborn as sns # 예시데이터 planets = sns.load_dataset('planets') planets.sample(5) 예시데이터로 seaborn의 planets을 불러왔다. 1. column의 고유값 : unique() # 고유값 df['col'].unique() 데이터가 무엇으로 구성되어있는지 보고 싶다면 .unique()로 열의 고유값을 볼 수 있다. 2. column별 고유값의 개수 : nunique() # 고유값의 수 df.nunique() # 고유값의 수 - 결측값 포함 df.nunique(.. 2020. 12. 12.
[Python] 성능 측정 지표 :: MAE, MSE, RMSE, MAPE, MPE, MSLE 1. MAE (Mean Absolute Error) - 실제 값과 예측 값의 차이(Error)를 절대값으로 변환해 평균화 - MAE는 에러에 절대값을 취하기 때문에 에러의 크기 그대로 반영된다. 그러므로 예측 결과물의 에러가 10이 나온 것이 5로 나온 것보다 2배가 나쁜 도메인에서 쓰기 적합한 산식이다. - 에러에 따른 손실이 선형적으로 올라갈 때 적합하다. - 이상치가 많을 때 from sklearn.metrics import mean_absolute_error mean_absolute_error(y_test, y_pred) 2. MSE (Mean Squared Error) - 실제 값과 예측 값의 차이를 제곱해 평균화 - 예측값과 실제값 차이의 면적의 합 - 특이값이 존재하면 수치가 많이 늘어난다... 2020. 12. 12.
[Python] 데이터 스케일링 :: 표준화(Standardization) 데이터의 모든 특성의 범위를 같게 만들어주는 방법 교차검증을 위해 Train-Test로 분리하였을 경우 전체 데이터가 아닌 훈련 데이터에 대해서만 fit()을 적용해야한다. 1. StandardScaler - 평균 = 0 / 표준편차 = 1 - 표준화 Standardization from sklearn.preprocessing import StandardScaler # Standardization 평균 0 / 분산 1 scaler = StandardScaler() scaler = scaler.fit_transform(data) # 교차검증시 scaler.fit(X_train) X_train = scaler.transform(X_train) X_test = scaler.transform(X_test) 2... 2020. 12. 7.
[R] 데이터 csv파일로 내보내기 / 저장하기 :: write.csv R의 내장함수인 write.csv를 이용하여 데이터를 csv파일로 저장할 수 있다. # csv로 내보내기 write.csv(data, '경로\파일명.xlsx') 예시로 R에 내장되어있는 iris를 csv 파일로 저장해보았다. 경로를 따로 지정해주지 않아서 해당 프로젝트폴더 안에 csv파일이 저장되었다. 2020. 12. 3.