ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 정준상관분석의 설명과 2가지 연구 예시
    연구방법론 2023. 8. 14. 12:14

    이번 글에서는 정준상관분석(Canonical Correlation Analysis, CCA)의 개념과 기본 원리를 살펴보겠습니다. CCA는 두 개 이상의 다변량 변수 집합 간의 선형 상관 관계를 이해하고 파악하기 위한 강력한 통계적 도구로 사용됩니다. 또한 CCA를 적용하는 과정과 그 결과 해석 방법에 대해서도 예시를 통해 설명하겠습니다. 이를 통해 복잡한 변수 간의 관계를 해석하고 데이터의 차원 축소와 관계 파악에 어떻게 활용될 수 있는지를 알아보도록 하겠습니다.

     

    정준상관분석의 정의

     

    정준상관분석(Canonical Correlation Analysis, CCA)은 정준변량분석이라고도 하며 상호 공분산 행렬로부터 정보를 추측하는 방법입니다. 확률 변수의 두 벡터 X가 있고 변수 간에 상관관계가 있는 경우, 정준상관분석은 두 변수 집합 간의 선형 상관 관계를 파악하고 이해하기 위해 사용됩니다. 이렇듯 두 개 이상의 독립변수와 두 개 이상의 종속변수의 관계를 분석하기 때문에 다변량분석으로 분류되는 것입니다. 이 분석을 통해 변수들 간의 상호작용과 패턴을 찾아 낼 수 있으며, 주로 데이터의 차원 축소와 변수 간의 관계를 파악할 수 있습니다.

     

     

    정준상관분석의 가정

     

    정준상관분석을 진행하기 위해서는 몇 가지 가정을 충족해야 합니다. 첫째, 다변량 정규분포 가정입니다. 가능하다면, 각 변수 집합은 다변량 정규분포를 따른다고 가정합니다. 둘째, 선형 관계 가정입니다. 변수들 간의 관계는 선형적이라고 가정합니다. 셋째, 독립성 가정입니다. 두 변수 집합은 서로 독립적이어야 합니다.

     

     

    정준상관분석의 연구 예시 1

     

    정준상관분석의 연구 예시를 설명해보겠습니다. 예를 들어 학생들의 학업 성취와 그들의 학업 태도 및 학습 습관 간의 관계를 이해하고자 한다고 가정해봅시다. 연구를 위해 두 가지 주요 데이터 집합을 수집했습니다. 첫 번째 변수 집합은 학생들의 성적 데이터(시험 점수, 평균 성적 등)이며, 두 번째 변수 집합은 학생들의 학습 습관과 태도(공부시간, 수업참여도, 학습 동기 등)에 대한 설문조사 데이터입니다. 이렇게 설정한 변수에 대해 수집한 데이터를 정규화하고 결측치를 처리한 후, 변수 간의 공분산 및 상관계수 행렬을 계산합니다.

     

    다음으로는 계산된 공분산 및 상관계수 행렬을 기반으로 정준상관분석을 실행합니다. 이때 첫 번째 변수 집합과 두 번째 변수 집합 간의 정준변수들 간의 정준상관계수를 계산합니다. 먼저 첫번째 정준변수는 학업 성취와 관련된 변수들의 조합을 나타냅니다. 예를 들어, 시험 성적, 평균 성적, 과목별 점수 등이 이 정준변수에 영향을 미칠 수 있습니다. 정준상관계수는 0.75, 자유도(첫 번째, 두 번째 변수 집합의 변수 개수)df1과 df2는 각 5와 8로, 유의확률 (p-value)은 0.022로 나타났습니다. 두 번째 정준변수는 학습 태도와 학습 습관과 관련된 변수들의 조합을 나타냅니다. 공부 시간, 수업 참여도, 학습 동기 등이 이 정준변수에 영향을 미칠 수 있습니다.

     

    정준상관계수는 0.62, 자유도(첫 번째, 두 번째 변수 집합의 변수 개수)df1과 df2는 각 5와 8로, 유의확률 (p-value)은 0.056로 나타났습니다. 여기서 정준상관계수는 각 변수 집합 간의 최대 상관관계를 나타내는 것이며, 첫 번째 정준변수의 유의확률은 0.022로 유의미한 상관 관계를 나타내고 있으나, 두 번째 정준변수의 유의확률은 0.056으로 유의미하지 않은 상관 관계를 나타내고 있습니다. 통계분석의 결과 수치를 정리하면 아래의 표와 같습니다.

    정준상관변수 정준상관계수rc 자유도 df1 자유도 df2 유의확률 p-value
    첫번째 정준상관변수 0.75 5 8 0.022
    두번째 정준상관변수 0.6 5 8 0.056

     

    분석 결과, 정준상관분석을 통해 얻은 정준변수들이 나타내는 패턴을 해석합니다. 예를 들어, 첫 번째 정준변수는 학업 성취와 관련이 높은 변수들의 조합일 수 있고, 두 번째 정준변수는 학습 태도와 학습 습관과 관련된 변수들의 조합일 수 있습니다. 이러한 분석을 통해 학업 성취와 학습 태도 간의 복잡한 관계를 더 잘 이해할 수 있습니다. 예를 들어, 학습 태도가 긍정적인 학생들은 학업 성취가 높을 수 있으며, 이를 교육 프로그램 개발이나 학생 지원에 활용할 수 있습니다. 또한, 이해하기 어려운 다차원 데이터를 상호 관련성이 있는 정준변수들로 축소함으로써 데이터의 복잡성을 낮추고 분석의 통찰력을 높일 수 있습니다.

     

     

    정준상관분석의 연구 예시 2

     

    이번에는 환경과 관련된 다른 연구 예시를 들어보겠습니다.  기후 변화와 동식물의 생태계 변화 간의 관계를 이해하고자 한다고 가정해봅시다.  연구를 위해 두 가지 주요 데이터 집합을 수집했습니다. 첫 번째 변수 집합은 기후 데이터(온도, 강수량, 기타 기후 요소)이며, 두 번째 변수 집합은 생태계 데이터(동식물 종 다양성, 개체 수, 서식지 변화 등)입니다.

     

    수집한 데이터를 정규화하고 결측치를 처리한 후, 변수 간의 공분산 및 상관계수 행렬을 계산하고 이를 기반으로 정준상관분석을 실행합니다. 이때 기후 데이터와 생태계 데이터 간의 정준변수들 간의 정준상관계수를 계산합니다.

     

    정준상관분석 결과 첫 번째 정준변수의 정준상관계수는 0.85로, 자유도(첫 번째, 두 번째 변수 집합의 변수 개수)df1과 df2는 6과 9로, 유의확률 (p-value)은 0.014로 나타났습니다. 두 번째 정준변수의 정준상관계수는 0.47로, 자유도(첫 번째, 두 번째 변수 집합의 변수 개수)df1과 df2는 6과 9로, 유의확률 (p-value)은 0.251로 나타났습니다. 

     

    정준상관변수 정준상관계수rc 자유도 df1 자유도 df2 유의확률 p-value
    첫번째 정준상관변수 0.85 6 9 0.014
    두번째 정준상관변수 0.6 6 9 0.251

     

    분석 결과, 정준상관분석을 통해 얻은 정준변수들이 나타내는 패턴을 해석합니다. 예를 들어, 첫 번째 정준변수는 기후 변화와 관련된 기후 요소들의 조합을 나타낼 수 있으며, 두 번째 정준변수는 생태계의 변화와 관련된 변수들의 조합일 수 있습니다. 첫 번째 정준변수는 기후 요소와 생태계 변화 간의 강한 상관 관계를 나타내며, 두 번째 정준변수는 기후 요소와 생태계 변화의 상관 관계가 상대적으로 약하다는 것을 나타냅니다. 이러한 정보는 기후 변화와 생태계 변화 간의 복잡한 관계를 이해하는 데에 도움을 줄 수 있습니다.

     

    이러한 분석을 통해 기후 변화와 생태계의 변화 간의 복잡한 관계를 더 잘 이해할 수 있습니다. 예를 들어, 특정 기후 요소의 변화가 생태계의 특정 종 다양성에 어떤 영향을 미치는지, 또는 서식지 변화가 어떤 동식물 종의 개체 수에 영향을 주는지를 파악할 수 있습니다. 이러한 정보는 환경 변화에 대응하는 정책 수립이나 보전 활동을 지원하는 데에 활용될 수 있습니다.

     

     

     

    결론

     

    정준상관분석은 다변량 데이터의 상호 관련성을 파악하고 해석하는 데에 유용한 분석 방법입니다. 이를 통해 복잡한 변수들 간의 관계와 패턴을 찾아내어 데이터 분석과 의사 결정에 도움을 줄 수 있습니다. 예시로는 학업 성취와 학습 태도, 그리고 기후와 생태계의 관계를 분석하는 두 가지 상황을 살펴보았습니다. 이러한 분석은 교육, 환경, 사회 등 다양한 분야에서 문제 해결과 의사 결정을 지원하는 중요한 도구로 활용될 수 있습니다. 정준상관분석의 결과를 통해 데이터에 내재된 정보를 더 잘 이해하고 활용하는 데에 도움이 되길 바랍니다.

Designed by Tistory.