본문 바로가기

분류 전체보기98

[Python] for문(반복문) 진행상황 표시 :: tqdm / tqdm_notebook 반복문이 어디까지 진행되었는지 알고싶다면 tqdm을 사용하면 된다. 우선 tqdm 패키지를 설치해준다. # 패키지 설치하기 # pip pip install tqdm # conda conda install -c conda-forge tqdm tqdm을 실행했을 때 No module named 'tqdm' 에러가 나타나면 패키지를 설치하면 된다. tqdm_notebook from tqdm import tqdm_notebook for i in tqdm_notebook(range(10000)): print(i) 쥬피터 노트북에서 tqdm_notebook을 사용하면 진행상황이 원활하게 나타난다. 사용방법은 간단하다. for문에서 range의 바깥에 tqdm_notebook을 추가해주면 된다. 자신의 for문(반복.. 2021. 1. 28.
[HIVE] 테이블 만들기 :: CREATE TABLE -- 파티션이 있을 경우 CREATE TABLE IF NOT EXISTS DB.테이블 ( 열1 데이터타입 , 열2 데이터타입 ) COMMENT 'message' PARTITIONED BY (열3 데이터타입); -- 파티션이 없을 경우 CREATE TABLE IF NOT EXISTS DB.테이블 ( 열1 데이터타입 , 열2 데이터타입 ); -- 조회하여 테이블 생성 CRESTE TABLE DB.테이블 as SELECT * FROM db.table; [ 생략가능한 옵션 ] - IF NOT EXISTS : 지정한 위치(데이터베이스)에 해당 이름을 가진 테이블이 없다면 생성, 있으면 생성 x - COMMENT : 코멘트/메시지 남기기 - PARTITIONED BY : 파티션 지정하기 1. 파티션이 있을 경우 P.. 2021. 1. 26.
[Hadoop] HDP 설치하기 & 실행하기 :: Hortonworks Data Platform www.cloudera.com/downloads/hortonworks-sandbox/hdp.html Hortonworks Data Platform (HDP) on Sandbox The HDP Sandbox makes it easy to get started with Apache Hadoop, Apache Spark, Apache Hive, Apache HBase, Druid and Data Analytics Studio (DAS). www.cloudera.com 위 url에 접속해서 HDP를 다운받을 수 있다. 어떤 환경에서 사용할 것인지 선택하고 (나는 Virtualbox를 선택하였다.) 개인적인 정보를 입력한 후 동의를 누르면 다운로드된다. ↓ VirtualBox 설치하기 mizykk.tistory... 2021. 1. 15.
[Mac] VirtualBox 설치하기 www.virtualbox.org/wiki/Downloads Downloads – Oracle VM VirtualBox Download VirtualBox Here you will find links to VirtualBox binaries and its source code. VirtualBox binaries By downloading, you agree to the terms and conditions of the respective license. If you're looking for the latest VirtualBox 6.0 packages, see Virt www.virtualbox.org 1. OS X hosts 선택 2. 상자모양 더블클릭 3. 보안 및 개인 정보 보호 허용 2020. 12. 19.
[Python] 고유값 & 고유값의 개수 & 값의 개수 :: unique / nunique / value_counts 데이터에 고유값이 무엇이 있는지 알고 싶다면 unique 총 고유값의 수가 몇 개인지 알고 싶다면 nunique 값별로 데이터의 개수를 알고 싶다면 value_counts import seaborn as sns # 예시데이터 planets = sns.load_dataset('planets') planets.sample(5) 예시데이터로 seaborn의 planets을 불러왔다. 1. column의 고유값 : unique() # 고유값 df['col'].unique() 데이터가 무엇으로 구성되어있는지 보고 싶다면 .unique()로 열의 고유값을 볼 수 있다. 2. column별 고유값의 개수 : nunique() # 고유값의 수 df.nunique() # 고유값의 수 - 결측값 포함 df.nunique(.. 2020. 12. 12.
[Python] 성능 측정 지표 :: MAE, MSE, RMSE, MAPE, MPE, MSLE 1. MAE (Mean Absolute Error) - 실제 값과 예측 값의 차이(Error)를 절대값으로 변환해 평균화 - MAE는 에러에 절대값을 취하기 때문에 에러의 크기 그대로 반영된다. 그러므로 예측 결과물의 에러가 10이 나온 것이 5로 나온 것보다 2배가 나쁜 도메인에서 쓰기 적합한 산식이다. - 에러에 따른 손실이 선형적으로 올라갈 때 적합하다. - 이상치가 많을 때 from sklearn.metrics import mean_absolute_error mean_absolute_error(y_test, y_pred) 2. MSE (Mean Squared Error) - 실제 값과 예측 값의 차이를 제곱해 평균화 - 예측값과 실제값 차이의 면적의 합 - 특이값이 존재하면 수치가 많이 늘어난다... 2020. 12. 12.
[Python] 데이터 스케일링 :: 표준화(Standardization) 데이터의 모든 특성의 범위를 같게 만들어주는 방법 교차검증을 위해 Train-Test로 분리하였을 경우 전체 데이터가 아닌 훈련 데이터에 대해서만 fit()을 적용해야한다. 1. StandardScaler - 평균 = 0 / 표준편차 = 1 - 표준화 Standardization from sklearn.preprocessing import StandardScaler # Standardization 평균 0 / 분산 1 scaler = StandardScaler() scaler = scaler.fit_transform(data) # 교차검증시 scaler.fit(X_train) X_train = scaler.transform(X_train) X_test = scaler.transform(X_test) 2... 2020. 12. 7.
[R] 데이터 csv파일로 내보내기 / 저장하기 :: write.csv R의 내장함수인 write.csv를 이용하여 데이터를 csv파일로 저장할 수 있다. # csv로 내보내기 write.csv(data, '경로\파일명.xlsx') 예시로 R에 내장되어있는 iris를 csv 파일로 저장해보았다. 경로를 따로 지정해주지 않아서 해당 프로젝트폴더 안에 csv파일이 저장되었다. 2020. 12. 3.
[Python] Seaborn 내장데이터 모음 :: iris , titanic 포함 Python의 Seaborn 패키지에는 다양한 내장데이터가 있다. 연습용으로 활용하면 좋을 것 같아서 정리를 해보았다. # Seaborn 패키지 불러오기 import seaborn as sns Seaborn에서 사용할 수 있는 dataset의 목록은 get_dataset_names로 한 번에 알 수 있다. # Seaborn 데이터셋 목록 sns.get_dataset_names() ['anagrams', 'anscombe', 'attention', 'brain_networks', 'car_crashes', 'diamonds', 'dots', 'exercise', 'flights', 'fmri', 'gammas', 'geyser', 'iris', 'mpg', 'penguins', 'planets', 'tip.. 2020. 12. 3.
[SQLD] 1과목 간단 요약 :: 데이터 모델링의 이해 과목1 데이터 모델링의 이해 1장. 데이터 모델링의 이해 1절. 데이터 모델의 이해 1. 데이터 모델링 - 일정한 표기법에 의해 표현 - 데이터베이스를 생성하여 개발 및 데이터관리 - 업무 흐름 설명, 분석 - 유의점 : 중복, 비유연성, 비일관성 - 요소 : 어떤 것(Things), 속성(Attributes), 관계(Relationships) - 특징 : 추상화, 단순화, 정확화 - 개념적 모델링 : 추상화 수준이 높고 업무중심적, 포괄적 / 전사적 데이터 모델링, EA수립 - 논리적 모델링 : key, 속성, 관계 등을 정확하게 표현 / 재사용성이 높음 - 물리적 모델링 : 성능, 저장 2. 좋은 데이터 모델 - 완전성 : 업무에 필요한 모든 데이터가 모델에 정의 - 중복배제 : 동일한 사실은 한 번.. 2020. 11. 29.