전체 글288

pandas Tricks_05 & 06👉🏻 'Create a DataFrame from the clipboard & Split a DataFrame into 2 random subsets' (Kevin by DataSchool) Q05) 빨리 한 dataframe을 만들고 싶을 때, 특히 연속하는 숫자, 문자 등 여러 일련의 data를 복붙해서 df로 만들고 싶다면? A) 👇 read_clipboard() 사용! pd.read_clipboard() ◈ read_clipboard docu ◈ https://pandas.pydata.org/docs/reference/api/pandas.read_clipboard.html 1> 원하는 일련의 표를 Google SpreadSheet나 Excel에 만든다 더보기 2> Ctrl + C! 3> read_clipboard() 입력하면 끝! df = pd.read_clipboard() 4> 완성! → index는 알아서 0부터 생성됨 → dtypes 결과 data의 속성에 맞게 자동적으로 dty.. Python/Pandas&Numpy 2022. 3. 30.
<추정과 검정> - 표본추출법 (w/ python code) (2/2) - 오늘은 하단 두개 (좌) 집락추출법 (우) 층화추출법에 대해서 배워보자 - Q) 모집단에서 표본을 추출하는 또 다른 두가지 방법? A) 집락추출법/층화추출법 (단순임의추출/계통추출은 하단 포스팅 참조 ↓↓↓↓↓↓) - 표본추출법 (w/ python code) (1/2) - (아래) (제 1 - 2 - 3 - 4분면 순서대로) 단순임의추출법 - 계통추출법 - 집락추출법 - 층화추출법 - ** 앞선 포스팅에서 우리는 통계적 추론에 대해서 배웠고, 모집단에서 표본을 추출하여 여러 통 sh-avid-learner.tistory.com ☝️ 여기서, 모집단을 대표할 수 있도록 표본을 추출하는 것이 가장 중요하다..! (표본추출'방법'에 따라 분석 결과 및 해석에 큰 차이가 발생할 수 있기 때문) ✌️ code.. Statistics/Concepts(+codes) 2022. 3. 30.
why SQL? & Relational Databases 🧡 Structured Query Language 🧡 🦄 1970년대에 등장했으면 다소 '올드하다'는 이미지를 가져다 줄 수 있겠지만, 전 세계 기업들 - 페이스북, 인스타, 에어비앤비, 우버 등등 -이 보유한 대용량의 data는 database에 저장됨 - 이 data를 접근하려면 SQL을 사용해야 함 (따라서 sql 공부는 그냥 필수다 필수 🏋️‍♀️) 기업공고만 본다 하더라도 python, R보다도 더 많이 요구하는 SQL! SQL is → helps you filter and fetch only the data you need from databases → a language designed to allow both technical and non-technical users query, mani.. Database/SQL 2022. 3. 30.
[일정] 공정 정의하기 → 시스템의 개발목표, 기술적 특성, 개발팀의 상황을 고려하여 공정 선정 → IT 프로젝트의 일정, 인력, 이행조건 등 제약사항을 파악하여 부합하도록 표준 공정을 조정 및 수정 → IT 프로젝트 수행에 필요한 상세 작업들을 도출하여 표준공정 변경 → 최종 확정된 전체 수행 활동을 작업분류체계(WBS; Work Breakdown Structure)로 구조화 1. 표준 공정 정의 - Standard Process Plan [1] SW 개발 방법론 → 구조적 개발 SD → 모델 기반 개발 MBD → 컴포넌트 기반 개발 CBD → 서비스 지향 개발 SOD → 순차적 개발 (구조적, 정보 공학) - 수행할 태스크 및 완료 지점이 명확히 파악됨 - 대규모 시스템 개발 플젝에 적합한 프레임워크 제공 - 실제 SW 개.. IT knowledge/(etc) 2022. 3. 30.
[통합] 프로젝트 통제하기 [통합관리] → 프로젝트 계획 수립하기 [통합] 프로젝트 계획 수립하기 (통합관리 - 계획수립) 1. 서론 및 학습목표 → 통합관리 하고자 하는 IT 프로젝트 관리 대상 요소를 식별할 수 있다 → 통합관리를 위한 관리 체계를 정의하고, 관리를 위한 세부 프로세스를 정립할 수 있다 → 프로젝 sh-avid-learner.tistory.com → 프로젝트 수행하기 [통합] 프로젝트 수행하기 저번 시간 - [통합] 프로젝트 계획 수립하기 (포스팅 ↓↓↓↓) [통합] 프로젝트 계획 수립하기 (통합관리 - 계획수립) 1. 서론 및 학습목표 → 통합관리 하고자 하는 IT 프로젝트 관리 대상 요소 sh-avid-learner.tistory.com ** 학습목표 → 수집된 의사결정 사안에 대한 모니터링 데이터를 분석할.. IT knowledge/(etc) 2022. 3. 29.
[통합] 프로젝트 수행하기 저번 시간 - [통합] 프로젝트 계획 수립하기 (포스팅 ↓↓↓↓) [통합] 프로젝트 계획 수립하기 (통합관리 - 계획수립) 1. 서론 및 학습목표 → 통합관리 하고자 하는 IT 프로젝트 관리 대상 요소를 식별할 수 있다 → 통합관리를 위한 관리 체계를 정의하고, 관리를 위한 세부 프로세스를 정립할 수 있다 → 프로젝 sh-avid-learner.tistory.com ≫ IT 프로젝트 수행 시 관리 대상 요소 간 상충 또는 누락, 중복되는 의사결정 사안을 파악할 수 있다 ≫ 유형별로 파악된 의사결정 사안에 대한 지속적인 모니터링을 수행할 수 있다 ≫ 유형별 의사결정 사안에 대한 모니터링 결과를 수집하여 데이터화할 수 있다 1. 프로젝트 수행 * 프로젝트 관리 계획서에 정의된 작업을 수행하고, 승인된 변경 .. IT knowledge/(etc) 2022. 3. 28.
violin plot (+seaborn) * EDA에 대해 알아보았고 EDA 과정에서 많이 쓰이는 시각화 방법 중 box plot에 대해 자세히 알아보았다. box plot (+seaborn) * 저번 EDA 개념 포스팅에서 EDA가 무엇인지 알아보았고, data 종류별 & 상황별 적절한 시각화 예에 대해서 공부했다. https://sh-avid-learner.tistory.com/entry/EDA-Exploratory-Data-Analysis EDA - Explorat.. sh-avid-learner.tistory.com ** 이젠 box plot과 매우 유사한 형태인 'violin plot'에 대해서 알아보자! → box plot과 마찬가지로 violin plot도 unimodal distribution을 갖는 continuous varia.. Visualizations/Various Graphs 2022. 3. 27.
Q. Matplotlib graph 한글깨짐현상 & (-) 부호 해결법 (IDE - Jupyter Notebook) cf) 미국에 최적화된 IDE에 한글을 일일이 대입해줘야 한다.. ㅠㅠ 😐 (조건) IDE - Jupyter Notebook & Windows 환경 (Mac & Linux환경이나 colab에서 실습) A. ↓↓↓↓ 아래 code 복붙 ↓↓↓↓ import matplotlib from matplotlib import font_manager, rc matplotlib.rcParams['axes.unicode_minus'] = False font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name() rc('font', family=font_name) -- 한글 글꼴 삽입 -- → matplotlib module에서 .. Failures & Issues/problem-solution 2022. 3. 27.
Data Science Methodology (from Coursera) - From problem to approach - Q1. What is the problem that you are trying to solve? Q2. How can you use data to answer the question? - Working with the data - Q3. What data do you need to answer the question? Q4. Where is the data coming from (identify all sources) and how will you get it? Q5. Is the data that you collected representative of the problem to be solved? Q6. What additional work is r.. Computer Science/Basics 2022. 3. 27.
[통합] 프로젝트 계획 수립하기 (통합관리 - 계획수립) 1. 서론 및 학습목표 → 통합관리 하고자 하는 IT 프로젝트 관리 대상 요소를 식별할 수 있다 → 통합관리를 위한 관리 체계를 정의하고, 관리를 위한 세부 프로세스를 정립할 수 있다 → 프로젝트 계획 수립을 위한 주요사항과 S/W 개발 방법론에 대해 이해할 수 있다 → 식별된 통합관리 대상 요소를 관리할 수 있는 계획을 수립할 수 있다 2. 프로젝트 통합 관리 개요 → 통합관리란? A. 프로젝트 진행의 다양한 프로세스를 파악하고 각각 정의, 정리하는 관리 활동을 말한다 - 즉, 단일화하고 결합하여 조정을 이루어가는 데 필요한 프로세스 및 활동 → 프로젝트에서 통합의 의미 - 요구사항 만족 - 기대치 관리 - 프로세스 체계적 단일화 - 프로젝트 관리를 효과적으로 표현하는 통합 - 자원 & 노력을 어느 곳.. IT knowledge/(etc) 2022. 3. 27.
[기획] 사업 발주하기 1. 서론 및 학습목표 → [기획] 사업계획서 포스팅 [기획] 사업계획 수립하기 1. 서론 [1] 프로젝트 & 프로세스 → 프로젝트는 목표 달성, 즉 성공을 위하여 수행하는 고유한 프로세스의 집합으로 구성 → 여러 프로세스는 시작일 & 종료일이 정해져 있고, 각 프로세스에서 sh-avid-learner.tistory.com → [기획] 제안요청서 포스팅 [기획] 제안 요청서 작성하기 1. 서론 및 학습목표 → [기획] 사업 계획서 수립하기 [기획] 사업계획 수립하기 1. 서론 [1] 프로젝트 & 프로세스 → 프로젝트는 목표 달성, 즉 성공을 위하여 수행하는 고유한 프로세스의 집합으 sh-avid-learner.tistory.com → 학습목표 1️⃣ 입찰공고 전에 제안요청서를 사전 공개, 열람하도록 하여.. IT knowledge/(etc) 2022. 3. 26.
Tools for Data Science (from Coursera) 1. Data Scientist's Toolkit [1] Languages of Data Science # Python → by far the most popular programming language for data science → it uses clear, readable syntax. You can do many of the things you are used to doing in other programming languages but with Python you can do it with less code. → a high-level general-purpose programming language that can be applied to many different classes of pro.. Computer Science/Basics 2022. 3. 26.
Tabular Data 🗄️ Tabular Data is... 1. Data organized into a table 2. Table is a grid of data 3. Column must be same type (homogenous data) 4. (but) Row can contain many types (heterogenous data) (ofc each elements of the tabular data has different types) - Tabular Data example - Tabular Data is composed of... 1) observations - a row 2) variables - a column 3) relationships - relationship between the tables (con.. Computer Science/Concepts 2022. 3. 26.
Seaborn vs Matplotlib 👏 정리 너무 잘해놓은 GeeksforGeeks 포스팅 글 그대로 발췌 👏 👐 Data Visualization is the graphic representation of data. It converts a huge dataset into small graphs, thus aiding in data analysis and predictions. It is an indispensable element of data science that makes complex data more understandable and accessible. Matplotlib and Seaborn act as the backbone of data visualization through Python. 👍Matplotlib: It .. Visualizations/Fundamentals 2022. 3. 26.
[기획] 제안 요청서 작성하기 1. 서론 및 학습목표 → [기획] 사업 계획서 수립하기 [기획] 사업계획 수립하기 1. 서론 [1] 프로젝트 & 프로세스 → 프로젝트는 목표 달성, 즉 성공을 위하여 수행하는 고유한 프로세스의 집합으로 구성 → 여러 프로세스는 시작일 & 종료일이 정해져 있고, 각 프로세스에서 sh-avid-learner.tistory.com → 학습목표 1️⃣ 사업계획서를 토대로 사업 범위, 내용. 기간, 요건 등에 부합하도록 제안 요청서를 작성할 수 있다 2️⃣ 입찰 방식, 제안서 평가방법, 기술성 평가기준, 제출서류, 제안서 제출일정 및 방법, 제안 설명회 등 세부내용을 작성할 수 있다. 3️⃣ 사업의 목적물에 대한 기능적, 비기능적 요구사항을 정리하여 목록을 작성할 수 있다. 2. 제안 요청서(RFP: Reque.. IT knowledge/(etc) 2022. 3. 26.
[기획] 사업계획 수립하기 1. 서론 [1] 프로젝트 & 프로세스 → 프로젝트는 목표 달성, 즉 성공을 위하여 수행하는 고유한 프로세스의 집합으로 구성 → 여러 프로세스는 시작일 & 종료일이 정해져 있고, 각 프로세스에서는 통제된 특정한 활동이 진행되게 됨 [2] 프로젝트 전제된 사항 → 요구사항 충족도: 프로젝트는 요구사항을 충족해야 한다 → 상호의존도: 어떠한 단계에 변경사항이 발생하면 다른 단계도 영향을 받는다 (플젝에 투입된 물적, 인적자원에 변동이 생기면 일정에도 변동이 생김) → 의사결정: 여러 이해관계자 간 의견의 일치 [3] 프로젝트 제약사항 → 프로젝트의 기간 → 목표달성을 위한 예산 → 목표달성을 위해 필요한 인력 → 현재 내부자원은 어느 정도이며 충분한지? → 얼마만큼의 현물 & 현금이 언제, 어디에 필요한지?.. IT knowledge/(etc) 2022. 3. 25.
pandas Tricks_04 👉🏻 'Build a DataFrame from multiple files (row-wise & column-wise) ' (Kevin by DataSchool) Q. 여러 csv파일을 가져와 한 개의 dataframe에 나타내고 싶으면? A) 👇 glob package의 glob module 사용! from glob import glob ♣ glob docu 👇👇 ♣ https://docs.python.org/3/library/glob.html ▧ glob module ▧ "The glob module finds all the pathnames matching a specified pattern according to the rules used by the Unix shell, although results are returned in arbitrary order(그래서 glob쓰면 sorted() 추천!). No tilde expansion is done, b.. Python/Pandas&Numpy 2022. 3. 25.
map & applymap & apply(on dataframe & Series) 「pandas dataframe에서 유용하게 쓰이는 두 method 'apply' & 'applymap' & 'map' 에 대해서 알아보자」 (+추가로 Series에서의 apply method도 알아보자) ▩ pandas.DataFrame.apply ▩ docu 👉 https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwargs) "Apply a function along an axis of the DataFrame. Objects passed to the function are Series object.. Python/Pandas&Numpy 2022. 3. 25.
Data Preprocessing * concepts🤲 ⊙ Although EDA and Data Preprocessing are two distinct terms, they involve many overlapping subtasks. At times, they are even used interchangeably ⊙ → 즉! 모아진 raw data를 data preprocessing 단계를 거치고 난 뒤, preprocessed된 data를 통해 EDA 과정을 거치고 또 data preprocessing하는 과정을 거치는 것처럼 서로 상호작용하며 같이 꼭 행해져야 하는 과정이라 할 수 있다 (EDA 과정 내에 data preprocessing이 들어간다고도 말하기도 함!) - 하지만 확실한 건 EDA에 들어가는 data insight.. Computer Science/Concepts 2022. 3. 25.
box plot (+seaborn) * 저번 EDA 개념 포스팅에서 EDA가 무엇인지 알아보았고, data 종류별 & 상황별 적절한 시각화 예에 대해서 공부했다. https://sh-avid-learner.tistory.com/entry/EDA-Exploratory-Data-Analysis EDA - Exploratory Data Analysis 1. concepts & goals → 탐색적 데이터 분석 - 수집한 데이터를 본격적으로 분석하기 전에 자료를 직관적으로 바라보는 과정이 필요한데, 이때 EDA를 사용한다 - 데이터 분석의 한 종류로 복잡한 모 sh-avid-learner.tistory.com - 저번 EDA 포스팅 (IQR, outlier 등등 여러 수치를 알 수 있지만, mode는 알 수 없음) - → 즉 unimodal di.. Visualizations/Various Graphs 2022. 3. 25.
<추정과 검정> - 표본추출법 (w/ python code) (1/2) - (아래) (제 1 - 2 - 3 - 4분면 순서대로) 단순임의추출법 - 계통추출법 - 집락추출법 - 층화추출법 - ** 앞선 포스팅에서 우리는 통계적 추론에 대해서 배웠고, 모집단에서 표본을 추출하여 여러 통계학적 방법을 이용해 모집단을 추측하는 것이 '통계학'이라고 배웠다. https://sh-avid-learner.tistory.com/entry/%EC%B6%94%EC%A0%95%EA%B3%BC-%EA%B2%80%EC%A0%95-%EC%B6%94%EB%A1%A0-%EA%B0%9C%EC%9A%94 Statistics/Concepts(+codes) 2022. 3. 25.
pandas Tricks_03 👉🏻 'Convert Strings→numbers ' (Kevin by DataSchool) Q. 숱하게 많이 보이는 string형 data type...! 하지만 우리는 계산을 위해서 무조건 수치형으로 바꿔야 한다.. 하지만 너무 많은 방법들이 있다. 어떤게 제일 효과적이고 좋은 방법일까? 이 포스팅으로 한 방에 해결하자..! A. 👉🏻 to_numeric 먼저 string type의 수를 모두 입력 (한 개는 -) df = pd.DataFrame({'col_one':['1.1','2.2','3.3'], 'col_two':['4.4','5.5','6.6'], 'col_three':['7,7','8.8','-']}) 1. astype() ♠astype() docu - https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.htm.. Python/Pandas&Numpy 2022. 3. 25.
pandas Tricks_02 👉🏻 'Select columns by Data Type' (Kevin by DataSchool) Q. 오늘도 데이터프레임이 주어졌다. 근데 특정 데이터 타입을 갖는 칼럼만 뽑아내고 싶다.. 어떻게 하면 될까...? A) 👉🏻 'select_dtypes' method 사용! 1> seaborn 'titanic' dataset 불러오면 (seaborn.load_dataset docu 👉🏻 https://seaborn.pydata.org/generated/seaborn.load_dataset.html) import pandas as pd import seaborn as sns titanic = sns.load_dataset('titanic') titanic.head() 2> 먼저 column dtypes 확인! #2) select columns by data type titanic.dtypes 3> se.. Python/Pandas&Numpy 2022. 3. 25.
Bayesian Theorem '(example - 2 exercises) Q1) At a certain stage of a criminal investigation, ①the inspector in charge is 60% convinced of the guilty of a certain suspect. Suppose now that a new piece of evidence that shows that ②the criminal has a left-handedness is uncovered. If ③20% of population possesses this characteristic, ④how certain of the guilt of the suspect should the inspector now be if it turns out that the suspect is amo.. Statistics/Exercises 2022. 3. 24.
시계열 데이터 - datetime ▧ python에서는 특별하게 datetime이라는 type이 존재한다 ▧ from datetime import datetime → 시계열 데이터로 바꾸기 위해서는 'xxxx-xx-xx (년-월-일)' data에 datetime()을 붙인다 dt = datetime(2022,1,24,21,30,42) dt.year #2022 dt.month #1 dt.day #24 dt.hour #21 dt.minute #30 dt.second #42 → 시계열 data는 indexing / slicing이 가능! (문자열과 다른 점) ex) pandas_datareader를 이용해 data를 import하고 '삼성증시' dataframe을 가져온다고 하면 !pip install pandas_datareader from.. Python/Fundamentals 2022. 3. 24.
<추정과 검정> - 추론 개요 1. 통계적 추론 개요 [1] 관련 기본 개념 → 모집단 = 관심대상을 다 모아 둔 것 → 모수 = 해당 모집단(↑)을 대표하는 값. 모집단의 특징을 요약하는 '수' (예를 들면 모집단의 평균, 분산) "but 우리가 알고 싶어하는 모집단을 이용하려면 시간 & 비용이 너무 많이 소요된다. 따라서 일부 표본을 추출!" → 표본 = 모집단에서 n개의 표본을 추출 (X1, X2 ~ Xn) (여기서 표본을 어떻게 추출하느냐? 다양한 표본 추출법이 있으며 그 내용은 다음 포스팅에) → 표본자료 = 추출한 표본에서 구하고자 하는 대응값 (x1, x2 ~ xn) (무슨 말이냐면... 우리가 모집단의 어떤 '값'에 대해 애초에 궁금했을 것이다. 예를 들면 우리나라 성인 '비만도'라는 값에 대해 궁금했다고 치자. 그러면.. Statistics/Concepts(+codes) 2022. 3. 24.
Hypothesis Test: H0 & Ha - concepts 1. Hypothesis Testing? → Null Hypothesis(H0) 🙆‍♂️ 1▶ Create a Hypothesis (without stating H0) ▷ (if data gives us strong evidence that the hypothesis is wrong) we can reject the Hypothesis ▷ (but when we have data that is similar to the hypothesis but not exactly the same) fail to reject the Hypothesis (best we can do) (because it's unclear if the hypothesis should be based on many different res.. Statistics/Concepts(+codes) 2022. 3. 24.