확률은 마치 동전을 던져 앞면이 나올 확률을 예측하는 것과 같습니다. 어떤 사건이 발생할 가능성을 수치로 표현하는 것입니다. 확률은 0에서 1 사이의 값으로 표현되며, 0은 사건이 절대 발생하지 않음을 의미하고, 1은 사건이 확실히 발생함을 의미합니다.
확률을 계산하는 방법에는 여러가지가 있습니다. 주사위를 던져 특정 숫자가 나올 확률을 계산하는 예시를 통해 설명할 수 있습니다. 각각의 면이 나올 확률이 동등할 경우, 각 면이 나올 확률은 1/6이 됩니다.
조건부 확률은 어떤 조건이 주어졌을 때 다른 사건이 발생할 확률을 의미합니다. 예를 들어, 비가 오는 날 중에 특정 사람이 우산을 가져올 확률을 계산하는 것이 조건부 확률의 예입니다.
확률 분포는 확률 변수가 가질 수 있는 값들과 그 값들이 나타날 확률을 나타내는 함수입니다. 주요 확률 분포에는 이항 분포, 정규 분포 등이 있으며, 데이터 분석에서 중요하게 사용됩니다.
+이항 분포는 이진 결과를 갖는 반복적인 실험에서 성공 횟수를 나타내는 확률 분포
확률 변수: 이항 분포의 확률 변수 XX는 특정 사건(예: 동전 던지기에서 앞면이 나오는 횟수)의 발생 횟수를 나타냅니다.
조건: 각 실험은 독립적이며, 각 실험에서 성공 확률 pp이 일정해야 합니다.
확률 질량 함수 (PMF): 성공 확률 pp와 실패 확률 1−p1-p을 가지고 있으며, 이를 통해 각각의 성공 횟수에 대한 확률을 계산할 수 있습니다.
예시: 시험 성적
학생들의 시험 성적은 일반적으로 정규 분포를 따릅니다. 평균적인 성적은 평균 μ\mu이며, 분포의 넓이는 표준 편차 σ\sigma로 나타낼 수 있습니다
+정규 분포는 많은 자연 현상에서 관측되는 연속적인 확률 분포로, 중심 극한 정리에 따라 발생합니다. 정규 분포의 주요 특징은 다음과 같습니다:
확률 변수: 정규 분포의 확률 변수 XX는 연속적인 값을 가질 수 있습니다.
대칭성: 평균 μ\mu을 중심으로 좌우 대칭인 종 모양을 가집니다.
평균과 분산: 평균 μ\mu와 분산 σ2\sigma^2에 의해 모양이 결정됩니다.
중심 극한 정리: 여러 독립적인 확률 변수들의 합은 정규 분포에 가까워집니다.
예시: 동전 던지기
동전을 여러 번 던져서 앞면이 나오는 횟수가 이항 분포를 따릅니다. 예를 들어, 10번의 동전 던지기에서 앞면이 나오는 횟수가 이항 분포를 따를 수 있습니다.
확률 개론은 데이터 분석에서 중요한 개념으로, 사건의 발생 가능성을 정량적으로 평가하는 데 도움을 줍니다. 다양한 확률 개념을 이해하고 실제 데이터 분석에 적용할 수 있는 능력을 배양하는 것이 목표입니다.
조건부 확률은 특정 조건이 주어졌을 때 다른 사건이 발생할 확률을 의미합니다. 예를 들어, 비가 올 확률은 날씨에 따라 달라질 수 있습니다. 날씨가 흐릴 때 비가 올 확률과 맑을 때 비가 올 확률은 다를 수 있습니다.
확률 분포는 확률 변수가 가질 수 있는 값들과 그 값들이 나타날 확률을 나타내는 함수입니다. 주요 확률 분포에는 이항 분포, 정규 분포 등이 있으며, 데이터 분석에서 중요하게 사용됩니다. 예를 들어, 특정 사건이 발생할 확률을 정확히 모델링하고 예측하는 데 사용될 수 있습니다.
확률은 데이터 분석에서 중요한 개념으로, 사건의 발생 가능성을 정량적으로 평가하는 데 필수적입니다. 다양한 확률 개념을 이해하고 실제 데이터 분석에 적용할 수 있는 능력을 배양하는 것이 목표입니다.
요리를 할 때, 어림잡아 재료의 양을 추정하는 것과 같습니다. 데이터 분석에서는 적은 양의 데이터를 기반으로 전체 모집단의 특성을 추정하는 것을 의미합니다.
평균 연령을 추정할 때, 주어진 샘플의 평균 연령을 이용해서 전체 인구의 평균 연령으로 추정하는 것입니다.
구간 추정은 마치 요리할 때 어느 정도의 재료가 필요할지를 범위로 추정하는 것과 같습니다. 데이터 분석에서는 신뢰 구간을 설정하여 추정값이 포함될 가능성을 정량화합니다.
+ 신뢰구간 : 특정 확률로 모집단 파라미터(예: 평균, 비율)가 포함될 것으로 추정되는 구간을 말합니다. 보통 95%나 99%와 같은 신뢰 수준을 사용하여 표현됩니다.
추정 방법론은 데이터 분석에서 사용되는 다양한 추정 기법을 의미합니다. 최대 가능도 추정 (Maximum Likelihood Estimation, MLE)이나 최소 제곱 추정 (Least Squares Estimation) 등의 방법을 통해 모집단의 파라미터를 추정할 수 있습니다.
+ 최대 가능도 추정 : 주어진 데이터를 바탕으로 확률 분포의 모수(parameter)를 추정하는 방법입니다. 이 방법은 관측된 데이터가 가장 '가능성(likelihood)'이 큰 모수 값을 추정하는 것을 목표로 합니다. 즉, 주어진 데이터가 발생할 확률을 가장 크게 만드는 모수를 찾는 과정입니다.
진행 방법 : 우도 함수(Likelihood Function): 우도 함수는 주어진 모수에 대해 데이터가 발생할 확률을 나타내는 함수입니다. 주어진 데이터의 우도를 최대화하는 모수 값을 찾는 것이 최대 가능도 추정의 핵심입니다.
최적화(Optimization) : 일반적으로 로그 우도 함수를 사용하여 최적화를 수행합니다. 로그를 취하는 이유는 계산의 편리성과 수치 안정성을 높이기 위함입니다.
모수 추정 : 최적화 과정을 통해 구한 모수 값이 최대 가능도 추정치입니다. 이 추정치는 표본 크기가 커질수록 실제 모수에 접근할 가능성이 높습니다.
+ 최소 제곱 추정 : 관측된 데이터와 예측값(모델로부터 계산된 값) 사이의 잔차 제곱합을 최소화하여 모델의 파라미터를 추정하는 방법입니다. 주로 회귀 분석에서 사용되며, 주어진 데이터에 가장 적합한 선형 모델을 찾는 것이 목표입니다.
진행 방법 : 잔차 제곱합(Residual Sum of Squares, RSS): 관측된 데이터와 모델의 예측값 사이의 차이를 제곱하여 더한 값입니다.
최적화(Optimization) : 잔차 제곱합을 최소화하는 방향으로 모델 파라미터(예: 회귀 계수)를 조정합니다. 이는 일반적으로 수치 최적화 알고리즘을 사용하여 수행됩니다.
파라미터 추정 : 최소 제곱 추정을 통해 구한 모델 파라미터가 최적의 값입니다. 이 추정치는 회귀 모델의 성능을 높이는 데 중요한 역할을 합니다.
표본 크기 결정은 마치 요리할 때 몇 인분을 만들어야 할지를 결정하는 것과 같습니다. 충분한 표본 크기를 사용하여 정확한 추정을 할 수 있도록 합니다.
추정은 데이터 분석에서 중요한 단계로, 데이터를 통해 모집단의 특성을 추정하고 결론을 도출하는 데 도움을 줍니다. 정확한 추정을 통해 데이터 기반의 결정을 내릴 수 있습니다.
우리가 가지고 있는 데이터를 바탕으로 어떤 주장이 맞는지를 검증하는 과정입니다. 예를 들어, 새로운 약이 효과가 있다고 주장할 때, 그 주장이 맞는지 여부를 데이터를 통해 확인하는 것입니다.
가설 설정: 연구자가 주장하고자 하는 가설을 설정합니다. 일반적으로 귀무 가설(H0)과 대립 가설(H1) 두 가지 형태로 설정됩니다.
표본 추출 및 데이터 수집: 연구를 위해 적절한 표본을 추출하고 데이터를 수집합니다.
통계적 검정: 수집된 데이터를 바탕으로 통계적 검정 방법을 사용하여 귀무 가설을 검증합니다.
결론 도출: 검정 결과를 바탕으로 귀무 가설을 기각하거나 채택하는 결론을 도출합니다.
+ 귀무가설 (Null Hypothesis, H₀) : 연구자가 주장하려는 반대의 입장(새로울게 없는, 전통적, 부정적, 제발 틀리기를 기도하는)을 나타내는 가설입니다. 통계적으로 반박하고자 하는 명제입니다.
표기법 및 예시:
주의사항: 귀무가설은 통계적으로 검증하려는 대상이며, 일반적으로 연구자가 잘못된 것으로 증명하고자 하는 명제입니다. 따라서 기본적인 가정이나 기존의 상태를 나타내는 경우가 많습니다.
+ 대립가설 (Alternative Hypothesis, H₁ 또는 Hₐ) : 연구자가 증명하고자 하는 가설(무언가 새로운, 진취적, 새로운)로, 귀무가설의 반대되는 입장을 나타냅니다. 즉, 연구나 실험을 통해 새롭게 입증하고자 하는 명제입니다.
표기법 및 예시:
주의사항: 대립가설은 연구자가 주장하고자 하는 새로운 이론이나 가설을 포함하며, 귀무가설을 기각하고 대립가설을 채택하려는 목적을 가지고 있습니다.
+ 가설 검정 (Hypothesis Testing)
예시:
가설 검정의 예시로는, 한 약물이 효과가 있는지를 검증하는 경우를 들 수 있습니다. 이때,
실제로 데이터를 분석하여 얻은 결과가 유의수준 내에서 귀무가설을 기각할 수 있는지를 확인하게 됩니다. 이를 통해 약물의 실질적인 효과를 판단할 수 있습니다.
요약
귀무가설과 대립가설은 통계적 추론에서 중요한 개념으로, 데이터를 통해 가설을 검증하고 결과를 도출하는 데 사용됩니다. 이 두 가설은 서로 상반된 입장을 나타내며, 데이터를 분석하여 어느 가설이 더 적절한지를 결정하는 데 결정적인 역할을 합니다.
유의수준 (Significance Level): 연구자가 귀무 가설을 기각하기로 결정하기 위해 설정하는 임계값입니다. 일반적으로 0.05 또는 0.01 수준으로 설정됩니다.
P값 (P-value): 관측된 데이터가 귀무 가설을 지지하는 정도를 나타내는 확률 값입니다. P값이 유의수준보다 작으면 귀무 가설을 기각하고, 대립 가설을 채택할 수 있습니다.
가설 검정에는 여러 가지 방법이 있으며, 예를 들어 t-검정, 카이제곱 검정, ANOVA 등이 일반적으로 사용됩니다. 각 방법은 연구의 목적과 데이터의 특성에 따라 선택되어야 합니다.
+ t-검정 (t-test)
개념: t-검정은 두 집단 간의 평균 차이가 유의미한지를 평가하는 통계적 방법입니다.
독립 표본 t-검정: 두 개의 독립적인 표본 집단의 평균을 비교합니다. 즉, 두 집단이 서로 독립적일 때 사용됩니다.
검정 통계량 (t-statistic):
대응 표본 t-검정: 같은 개체 또는 집단에서 얻은 두 관측치의 평균 차이를 비교합니다.
검정 통계량 (t-statistic):
+ 카이제곱 검정 (Chi-square test)
개념: 카이제곱 검정은 범주형 데이터의 독립성 검정이나 적합도 검정을 수행하는 통계적 방법입니다
독립성 검정: 두 범주형 변수가 서로 독립적인지를 판단합니다.
검정 통계량 (Chi-square statistic):
적합도 검정: 관측된 데이터가 기대되는 이론적 분포와 일치하는지를 평가합니다.
검정 통계량 (Chi-square statistic):
+ ANOVA (Analysis of Variance)
개념: ANOVA는 세 개 이상의 그룹 간 평균 차이를 비교하는 통계적 방법입니다
일원배치 분산분석: 한 개의 독립 변수(그룹)가 종속 변수(예: 성적)에 미치는 영향을 검정합니다.
검정 통계량 (F-statistic):
이원배치 분산분석: 두 개의 독립 변수(예: 그룹과 시간)가 종속 변수에 동시에 미치는 영향을 검정합니다. 이 경우 F-statistic을 계산하는 방법은 다소 복잡할 수 있습니다.
결론
각 검정 방법은 데이터의 특성과 연구 질문에 따라 적절히 선택되어야 합니다. 올바른 검정 방법을 선택하고 적용하는 것이 결과의 신뢰성을 높이는 데 중요합니다. 데이터 유형과 연구 목적을 잘 이해하고, 각 검정 방법의 전제와 조건을 고려하여 적절한 통계적 결론을 도출하는 것이 필요합니다.
가설 검정 과정에서는 두 종류의 오류가 발생할 수 있습니다:
제1종 오류 (Type I Error): 귀무 가설이 사실임에도 불구하고 기각하는 오류입니다.
제2종 오류 (Type II Error): 귀무 가설이 거짓임에도 불구하고 채택하는 오류입니다.
가설 검정은 데이터 분석에서 중요한 도구로, 주장이 기각되거나 채택될 수 있는 객관적인 기준을 제공합니다. 정확한 가설 검정을 통해 데이터에 기반한 결정을 내릴 수 있습니다.
출처 : https://ethanweed.github.io/pythonbook/04.01-intro-to-probability.html
(_기초_) Machine Learning 이란? (0) | 2024.08.03 |
---|---|
[K-Digital Training] 한국경제신문 with toss bank (한달 후기) (0) | 2024.07.31 |
Python 으로 통계 학습하기 - 데이터 작업 (0) | 2024.07.13 |
MY SQL - SQL 실전 문제 ( 1 ) (0) | 2024.07.12 |
MY SQL - SQL 기초 문법 ( 2 ) (0) | 2024.07.12 |