본문 바로가기

정보수집13

Google Colab Error :: Kaggle API Version Error Warning: Looks like you're using an outdated API Version, please consider updating (server 1.5.12 / client 1.5.4) Solution !pip install --upgrade --force-reinstall --no-deps kaggle 2021. 4. 4.
[Hadoop] HDP 설치하기 & 실행하기 :: Hortonworks Data Platform www.cloudera.com/downloads/hortonworks-sandbox/hdp.html Hortonworks Data Platform (HDP) on Sandbox The HDP Sandbox makes it easy to get started with Apache Hadoop, Apache Spark, Apache Hive, Apache HBase, Druid and Data Analytics Studio (DAS). www.cloudera.com 위 url에 접속해서 HDP를 다운받을 수 있다. 어떤 환경에서 사용할 것인지 선택하고 (나는 Virtualbox를 선택하였다.) 개인적인 정보를 입력한 후 동의를 누르면 다운로드된다. ↓ VirtualBox 설치하기 mizykk.tistory... 2021. 1. 15.
[R] 데이터 csv파일로 내보내기 / 저장하기 :: write.csv R의 내장함수인 write.csv를 이용하여 데이터를 csv파일로 저장할 수 있다. # csv로 내보내기 write.csv(data, '경로\파일명.xlsx') 예시로 R에 내장되어있는 iris를 csv 파일로 저장해보았다. 경로를 따로 지정해주지 않아서 해당 프로젝트폴더 안에 csv파일이 저장되었다. 2020. 12. 3.
[R] 내장 데이터 & 패키지 데이터 모음 Iris 붓꽃데이터 : setosa, versicolor, virginica 세 종류 붓꽃의 꽃받침(sepal)과 꽃잎(petal)의 길이와 너비 Nile 1871년도 ~ 1970년도까지 아스완 댐에서 측정한 나일강의 연간 유입량에 관한 시계열 데이터 ldeaths 1974년 ~ 1979년까지 영국 내의 월별 폐질환 사망자에 관한 시계열 데이터 MASS 패키지의 ChickWeight # 데이터 불러오기 install.packages('MASS') library(MASS) ChickWeight 2020. 9. 6.
[R] 데이터 구조와 기본 데이터 구조 - 스칼라(Scala) : 정수, 실수, 문자, 문자열 - 벡터(Vector) : 스칼라가 여러개 - 매트릭스(Matrix) : 2차원 벡터 = 행렬 / matrix(c(1:10), ncol = 3, byrow = TRUE) - 배열(Array) : 2차원 이상의 벡터 - 리스트(List) : 항목의 순서가 중요한 목록. 다양한 타입 저장 가능 - Factor : 값이 대상을 분류하는 의미를 갖는 타입 - 데이터프레임(DataFrame) : data.frame(a = c(1, 2, 3), b = c('a', 'b', 'c') 벡터 a 2020. 7. 21.
[ADP] 5과목. 데이터 시각화 1장. 시각화 인사이트 프로세스 - 시각화를 통해 통찰을 추출하는 전체 과정 - 삼찰 : 성찰(내부), 관찰(외부), 통찰(내-외부 연결) [ 맥캔들리스의 시각 이해 계층도 ] 1. 데이터 : 시각화 - 개별적인 요소 2. 정보 : 디자인 - 연관된 요소 - 그 자체로도 의미가 있다. - 데이터가 정보로서 가치를 갖기 위해서는 조직화되고 변형되어야 하며 의미를 전달하기 위한 형태로 표현되어야 한다. - 생산자와 사용자의 관점에 따라 다르게 전달될 수 있으며 일정한 형태와 형식을 갖고 있다. - 사용의 주체나 상황에 따라 의미와 가치가 다르기 때문에 정보가 생산되고 사용되는 컨텍스트가 중요하다. - 생산자와 소비자 두 영역에 모두 포함되면서도 자기 조직화되지 않은 일반적인 의미만을 내재하고 있다. 3. 지.. 2020. 6. 6.
[ADsP/ADP] 4과목. 데이터 분석 1장. R기초와 데이터 마트 R - 통계 계산과 그래픽을 위한 프로그래밍 언어이자 소프트웨어 환경 - 표준 플랫폼(S 언어 기반 : GNU S라고도 함) - 오픈소스 - 모든 운영체제에서 사용 - 객체지향언어이며 함수형 언어 ​ 더보기 - setwd("작업영역") : 작업영역 설정 - help(함수), ?함수, RsiteSearch("함수") : 도움말 - history() : 기록보기 - savehistory(file = "파일명") : 기록 저장 - loadhistory(file = "파일명") : 기록 불러오기 - Ctrl + L : 콘솔 청소 - Ctrl + R : 한 줄 실행 - # : 주석처리 - install.packages("패키지명") : 패키지 설치 - library(패키지) : 패키지.. 2020. 5. 27.
[ML] 앙상블(Ensemble) :: 배깅(Bagging) & 부스팅(Boosting) 앙상블 : 하나의 모델이 아닌 여러 개의 모델을 학습시켜 그 결과들을 이용하여 예측 1. 배깅(Bagging : Bootstrap aggregation) - 주어진 데이터에서 여러 개의 부트스트랩(bootstrap : 단순복원임의추출(random sampling))을 생성하고 각 부트스트랩을 모델링한 후 종합(aggregation)하여 최종 예측 모형을 산출하는 방법이다. - 배깅은 예측 모형의 변동성이 큰 경우 예측모형의 변동성을 감소시키기 위해 사용된다. 여러 번의 복원 샘플링을 통해 예측 모형의 분산을 줄여 줌으로써 예측력을 향상 시키는 방법이며 일반적으로 과대 적합 된 모형, 편향이(Bias) 작고 분산(Variance)이 큰 모형에 사용하는 것이 적합하다. - 각 샘플에서 나타난 결과를 집계한 .. 2020. 4. 24.
[plotly] 티스토리/웹페이지에 반응형 그래프 올리기 티스토리에 글을 쓰다보니 반응형 그래프를 올려보고 싶어졌다. 컴알못+영알못이지만 구글을 열심히 뒤져서 힘들게 찾아낸 방법이다! 내가 그래프를 올리고자 한 티스토리 위주로 이번 글을 작성해보았는데 각자 잘 활용하시길 :) Interactive한 데이터 시각화를 위해 Plotly를 사용해보았는데 Plotly : 온라인 개발, 데이터 분석 및 시각화 도구. Plotly는 Python, R, MATLAB, Perl, Julia, Arduino 및 REST에 대한 과학적 그래프 라이브러리 뿐만 아니라 개인 및 협업을 위한 온라인 그래프, 분석 및 통계 도구를 제공한다. (위키백과) 뭐.. 그렇다고 합니다.. 우선 plotly.js를 넣어줘야하는데 두가지 방법이 있다. 1. 에 넣어주기 2. 포스팅할 글 상단에 넣.. 2020. 4. 19.
[ADsP/ADP] 3과목. 데이터 분석 기획 1장. 데이터 분석 기획의 이해 - 분석 기획은 단기적으로는 분석 과제를 도출하여 프로젝트화 한 후 관리를 수행하여 분석결과를 도출하는 것이고, 중장기적으로는 분석 마스터플랜을 수행하여 지속적인 분석 과제 수행을 지원할 수 있는 거버넌스 체계를 수립하는 것이다. 분석의방법(How) / 분석의 대상(What) 분석의 대상(What) O 분석의 대상(What) X 분석의방법(How) O Optimization 최적화 Insight 통찰력 분석의방법(How) X Solution 해결책 Discovery 발견 1. 분석 기획 시 고려사항 - 데이터 : 데이터 확보, 데이터 유형에 따른 선행 분석 - 분석을 통해 가치창출되는 적절한 활용방안과 유즈케이스 탐색 - 분석 수행시 발생 가능한 장애요소와 대책에 대한 사.. 2019. 11. 5.