본문 바로가기

분류 전체보기100

[R] 내장 데이터 & 패키지 데이터 모음 Iris 붓꽃데이터 : setosa, versicolor, virginica 세 종류 붓꽃의 꽃받침(sepal)과 꽃잎(petal)의 길이와 너비 Nile 1871년도 ~ 1970년도까지 아스완 댐에서 측정한 나일강의 연간 유입량에 관한 시계열 데이터 ldeaths 1974년 ~ 1979년까지 영국 내의 월별 폐질환 사망자에 관한 시계열 데이터 MASS 패키지의 ChickWeight # 데이터 불러오기 install.packages('MASS') library(MASS) ChickWeight 2020. 9. 6.
[Python] 데이터프레임 txt로 저장하기 데이터프레임을 .csv파일이나 .xlsx로 저장하는 방법은 df.to_csv와 df.to_excel로 익히 알려져있다. 그렇다면 .txt 파일로 저장하고 싶을 땐 어떻게 해야할까? 처음에는 open() 내장함수로 txt파일에 wirte해야하는지 고민했는데 생각보다 간단한 방법으로 해결되었다. Pandas import pandas as pd 판다스를 임포트해주고 예시 데이터프레임을 생성하였다. DataFrame을 .txt로 저장하기 1. df.to_csv('pizza.txt') 그냥 to_csv를 한 후 파일형식을 .txt로 지정하면 된다. csv는 콤마로 구분한 것이기에 sep을 지정하지 않으면 구분자가 ,로 지정된다. 2. 구분자 변경 # 구분자 변경 df.to_csv('pizza.txt', sep =.. 2020. 9. 4.
Mac MySQL 설치하기 Homebrew 설치하기 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install.sh)" MySQL 설치하기 brew install mysql MySQL 서버 실행 # To have launchd start mysql now and restart at login: brew services start mysql # Or, if you don't want/need a background service you can just run: mysql.server start 설정하기 mysql_secure_installation 1. 복잡한 비밀번호로 설정? Would you like to setup VAL.. 2020. 8. 8.
[R] 데이터 구조와 기본 데이터 구조 - 스칼라(Scala) : 정수, 실수, 문자, 문자열 - 벡터(Vector) : 스칼라가 여러개 - 매트릭스(Matrix) : 2차원 벡터 = 행렬 / matrix(c(1:10), ncol = 3, byrow = TRUE) - 배열(Array) : 2차원 이상의 벡터 - 리스트(List) : 항목의 순서가 중요한 목록. 다양한 타입 저장 가능 - Factor : 값이 대상을 분류하는 의미를 갖는 타입 - 데이터프레임(DataFrame) : data.frame(a = c(1, 2, 3), b = c('a', 'b', 'c') 벡터 a 2020. 7. 21.
Homebrew 명령어 모음 Homebrew 설치하기 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install.sh)" Homebrew 업데이트 brew update Homebrew 검사하기 brew doctor 패키지 검색 brew search 무엇 설치된 패키지 목록 확인 brew list 패키지 설치 brew install 무엇 패키지 업그레이드 brew upgrade 무엇 패키지 삭제 brew uninstall 무엇 이전 버전의 패키지 삭제 brew cleanup 무엇 brew로 설치한 패키지 위치 /usr/local/Cellar Cask : Mac에 응용프로그램 설치 Error: Calling brew cask in.. 2020. 7. 11.
[Python] df.copy() :: 복사본 만들기 / 얕은복사 & 깊은 복사 판다스에는 데이터프레임의 복사본을 만들어주는 pandas.DataFrame.copy가 있다. 이는 a = b와는 다른 방식의 복사이다. a = b는 원본 데이터가 변하면 똑같이 변하는 얕은 복사인 반면, pandas.DataFrame.copy는 복사 당시의 데이터프레임 상태만 복사되는 깊은 복사이다. 얕은 복사를 하면 복사본은 원본과 데이터/index를 공유하지만, 깊은 복사는 복사본이 자신만의 데이터/index를 갖게한다. 예시 데이터 import pandas as pd a = pd.DataFrame([['Kim', 23], ['Lee', 12], ['Jeong', 28]], columns = ['Name', 'Age']) a just_copy = a pandas_copy = a.copy() just_.. 2020. 6. 18.
[Python] Multiprocessing을 이용한 반복문 속도개선 from multiprocessing import Pool # 반복문을 실행할 함수 def func(i): print(i) if __name__=='__main__': st = time.time() pool = Pool(processes=5) pool.map(func, range(0, 100000)) print(time.time()-st) for문으로 수백만건의 연산을 처리하면 정말 수백만초의 시간이 소요된다. multiprocessing을 이용하여 반목문 처리 시간을 줄일 수 있다. 사용 예시 ) from multiprocessing import Pool def day_diff(i): temp = mt_rt[mt_rt['clientId']==mt_cid[i]]['date'] return (temp.va.. 2020. 6. 8.
[ADP] 5과목. 데이터 시각화 1장. 시각화 인사이트 프로세스 - 시각화를 통해 통찰을 추출하는 전체 과정 - 삼찰 : 성찰(내부), 관찰(외부), 통찰(내-외부 연결) [ 맥캔들리스의 시각 이해 계층도 ] 1. 데이터 : 시각화 - 개별적인 요소 2. 정보 : 디자인 - 연관된 요소 - 그 자체로도 의미가 있다. - 데이터가 정보로서 가치를 갖기 위해서는 조직화되고 변형되어야 하며 의미를 전달하기 위한 형태로 표현되어야 한다. - 생산자와 사용자의 관점에 따라 다르게 전달될 수 있으며 일정한 형태와 형식을 갖고 있다. - 사용의 주체나 상황에 따라 의미와 가치가 다르기 때문에 정보가 생산되고 사용되는 컨텍스트가 중요하다. - 생산자와 소비자 두 영역에 모두 포함되면서도 자기 조직화되지 않은 일반적인 의미만을 내재하고 있다. 3. 지.. 2020. 6. 6.
[ADsP/ADP] 4과목. 데이터 분석 1장. R기초와 데이터 마트 R - 통계 계산과 그래픽을 위한 프로그래밍 언어이자 소프트웨어 환경 - 표준 플랫폼(S 언어 기반 : GNU S라고도 함) - 오픈소스 - 모든 운영체제에서 사용 - 객체지향언어이며 함수형 언어 ​ 더보기 - setwd("작업영역") : 작업영역 설정 - help(함수), ?함수, RsiteSearch("함수") : 도움말 - history() : 기록보기 - savehistory(file = "파일명") : 기록 저장 - loadhistory(file = "파일명") : 기록 불러오기 - Ctrl + L : 콘솔 청소 - Ctrl + R : 한 줄 실행 - # : 주석처리 - install.packages("패키지명") : 패키지 설치 - library(패키지) : 패키지.. 2020. 5. 27.
[chardet] 파일 인코딩을 무엇으로 지정할지 모를 때 :: Encoding Error , Encoding Detector UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 0: invalid start byte python에서 파일을 불러올 때 인코딩 설정을 제대로 해주지 않으면 파일이 불러와지지 않는다. 이때 무엇으로 인코딩할지 모를 때는 chardet 이용해 인코딩을 감지하면 된다. 설치하기 pip install chardet 탐지할 수 있는 인코딩 방식 ASCII, UTF-8, UTF-16 (2 variants), UTF-32 (4 variants) Big5, GB2312, EUC-TW, HZ-GB-2312, ISO-2022-CN (Traditional and Simplified Chinese) EUC-JP, SHIFT_JIS, CP932, IS.. 2020. 5. 6.