HCI 실험 디자인 및 실제 연구 사례 소개

Weekly content


Week2_lecture_pdf


HCI(Human-Computer Interaction)

  • 사용자와 기술의 상호작용을 연구하는 분야

  • 다양한 디지털 인터페이스와 인공지능 기술이 우리의 일상생활에 점점 더 깊이 스며듦에 따라 점점 더 중요해지는 학문 영역

  • HCI 연구에서 연구 디자인은 매우 중요한 단계이며, 연구의 목표에 따라 연구 방법이 달라짐


HCI 실험 디자인의 기본 요소

  • 연구 문제 정의: 연구의 핵심 질문을 명확히 설정. 연구 문제에 따라 실험(또는 설문)의 방향이 결정되므로, 이를 명확히 규정하는 것이 필수적.

  • 독립 변수와 종속 변수 결정: HCI 연구에서는 독립 변수(변경 가능한 요소)와 종속 변수(결과로 관찰되는 측정값)를 정의해야 합니다. 예를 들어, UI 디자인의 색상(독립 변수)이 사용자 만족도(종속 변수)에 미치는 영향을 연구할 수 있음

  • 참여자 모집: 실험(또는 설문)에 필요한 참여자 수와 참여자 특성을 고려하여 실험 대상을 모집. 참여자의 다양성은 연구 결과의 일반화 가능성에 영향을 미칠 수 있음.

  • 연구 환경 설정: 실험(또는 설문)이 진행되는 환경은 실험 결과에 큰 영향을 미칠 수 있습니다. 온라인 실험(설문), 실제 환경에서의 관찰, 또는 실험실 내에서의 설정 등 적합한 환경을 선택해야 함.

  • 데이터 수집 방법: 실험(설문) 중 어떤 데이터를 어떻게 수집할지 결정. 설문조사, 사용 로그 분석, 인터뷰 등 다양한 방법을 사용할 수 있으며, 각 방법은 그 나름의 장단점이 있음.


HCI 실험 연구 사례

사례 1: 가상 현실(VR)에서의 사용자 경험 연구

  • 가상 현실에서 사용자의 몰입감을 측정하는 연구는 HCI 분야에서 활발히 진행되고 있음.

  • 예를 들어, 몰입감이 어떻게 사용자 만족도에 영향을 미치는지 알아보기 위해 실험을 설계할 수 있는데, 이 실험에서 독립 변수는 그래픽 품질이나 상호작용 방식이 될 수 있고, 종속 변수는 사용자 몰입감사용자 만족도.

  • 실험 참가자들은 각각 다른 그래픽 품질과 상호작용 방식을 경험하고, 이후 설문을 통해 몰입감과 만족도를 평가.

  • 연구자는 이 데이터를 통해 가상 현실 환경에서의 UX(User Experience)를 개선하는 인사이트를 얻을 수 있음.

사례 2: 음성 인터페이스 연구

  • 음성 비서(AI Assistant)와의 상호작용에서 사용자 경험을 연구하는 실험도 HCI 연구에서 중요한 부분.

  • 이 실험에서는 음성 인식 정확도응답 시간을 독립 변수로 설정하고, 사용자 만족도과제 완료 시간을 종속 변수로 측정할 수 있음.

  • 참여자들은 다양한 명령어를 음성 비서를 통해 수행하게 되고, 음성 인식 정확도나 응답 시간이 사용자에게 어떤 영향을 미치는지 분석할 수 있음.

  • 이를 통해 음성 인터페이스의 성능을 향상시키는 방법을 도출할 수 있을 것으로 기대.

사례 3: 모바일 UI 디자인 평가

  • 모바일 앱의 UI 디자인이 사용성에 미치는 영향을 분석하는 실험도 많이 수행됨

  • 예를 들어, 버튼 크기색상 대비가 사용자의 과제 수행 시간에 어떤 영향을 미치는지 연구할 수 있는데, 이 때 연구자는 다양한 UI 디자인을 실험 참가자들에게 제시하고, 그들이 과제를 얼마나 빠르고 정확하게 수행하는지를 측정.


HCI 설문 연구 사례

HCI(Human-Computer Interaction) 연구에서 실험뿐만 아니라 설문조사를 통한 연구도 자주 사용됩니다. 설문은 사용자 경험(UX), 만족도, 태도 등을 조사할 때 매우 유용한 방법이며, 특히 대규모 데이터를 수집하거나(빅데이터) 실험 환경을 설정하기 어려운 경우에 효과적입니다.

설문 기반 HCI 연구의 기본 요소

  • 명확한 질문 구성: 설문 질문은 명확하고 간결하게. 사용자들이 질문을 쉽게 이해하고 응답할 수 있어야 정확한 데이터를 얻을 수 있음.
  • 적절한 질문 유형 선택: 리커트 척도(Likert scale), 선택형 질문, 개방형 질문 등을 적절히 조합하여 다양한 정보를 수집할 수 있는데, 연구 질문과 모형에 따라 질문의 유형을 잘 선택해야 함.

  • 참여자 모집 및 샘플링: 설문조사의 신뢰성을 높이기 위해 적절한 표본을 선택하고 다양한 참여자들의 의견을 반영하는 것이 중요.

사례 1: 웹사이트 사용성 평가

  • 웹사이트의 사용성을 평가하기 위해 설문조사를 활용한 연구: 주로 시스템 사용성 척도(System Usability Scale, SUS) 같은 표준화된 설문을 사용하여 웹사이트의 사용성 점수를 측정.

  • 사용자가 웹사이트를 사용한 후, SUS 설문을 통해 직관성, 효율성, 만족도 등을 평가.

  • 리커트 척도를 사용하여 사용자들이 각 문항에 대해 평가할 수 있도록 구성.

  • 수집된 데이터를 바탕으로 웹사이트의 사용성에 대한 총점을 산출하고, 이를 기반으로 문제점과 개선 사항을 도출.

사례 2: 모바일 앱 사용자 경험(UX) 연구

  • 모바일 애플리케이션의 사용자 경험(UX)을 평가하는 설문 연구는 HCI에서 중요한 역할을 하는데, 예를 들어, 연구자는 앱의 인터페이스 디자인, 성능, 기능성에 대한 사용자 피드백을 수집할 수 있음

  • 설문 문항은 사용 편의성, 디자인의 일관성, 앱의 반응성 등을 평가하는 항목으로 구성.

  • 리커트 척도를 사용하여 사용자가 각 항목에 대해 얼마나 만족하는지 평가.

  • 개방형 질문을 포함하여 사용자가 자유롭게 의견을 제시할 수 있도록 하여 정성적 데이터를 수집.

  • 이 데이터를 분석하여 UX 개선 방향을 도출하고, 추가 기능 구현이나 디자인 개선을 계획할 수 있음.

사례 3: 소셜 미디어 사용 패턴 연구

  • 소셜 미디어 플랫폼에서의 사용자 행동 패턴을 분석하기 위한 연구도 많이 진행: 사용자의 행동태도를 조사하여 소셜 미디어 사용이 개인에게 미치는 영향을 분석

  • 설문을 통해 사용자의 일일 사용 시간, 주로 사용하는 기능, 소셜 미디어를 사용하는 동기 등에 대한 데이터를 수집.

  • 또한 소셜 미디어 사용이 정서적 상태대인관계에 미치는 영향을 평가하는 질문을 포함할 수 있음.

  • 수집된 데이터를 통해 사용자의 소셜 미디어 사용 패턴을 분석하고, 플랫폼 설계 개선 및 기능 업데이트에 필요한 인사이트를 얻을 수 있음.


HCI 연구에서 실험, 설문조사, 빅데이터 분석의 장단점 비교

HCI(Human-Computer Interaction) 연구에서 실험설문조사는 전통적으로 많이 사용되었지만, 최근에는 빅데이터 분석이 점점 더 중요한 연구 방법으로 자리 잡고 있습니다. 빅데이터를 활용하면 방대한 양의 사용자 데이터를 기반으로 더 깊이 있는 분석이 가능하며, 새로운 인사이트를 얻을 수 있습니다.

1. 데이터 수집 범위 및 규모

  • 실험 연구

    • 장점: 실험은 특정한 연구 질문에 맞게 제어된 환경에서 데이터를 수집할 수 있어, 데이터의 신뢰성이 높음

    • 단점: 실험에서 수집할 수 있는 데이터는 제한적이며, 시간과 비용이 많이 들기 때문에 데이터 규모가 작을 수 있음.

  • 설문조사

    • 장점: 설문조사는 대규모 데이터를 수집할 수 있어 다양한 사람들의 의견을 반영할 수 있음.

    • 단점: 설문에 응답하는 사람들의 수가 많더라도 응답의 신뢰성과 응답자 성실성에 의존하기 때문에 질적인 한계가 있을 수 있음.

  • 빅데이터 분석

    • 장점: 빅데이터 분석은 광범위한 사용자 행동과 상호작용 데이터를 실시간으로 수집할 수 있으며, 사용자 그룹 간의 행동 패턴을 대규모로 분석할 수 있음. 특히, 실제 사용 환경에서의 데이터가 포함되어 있어 현실적인 인사이트를 도출할 수 있음.

    • 단점: 빅데이터는 방대한 데이터 처리를 요구하므로 전문적 기술인프라가 필요. 또한, 데이터의 정확성과 품질을 보장하기 어려울 수 있음.

2. 분석의 정밀도 및 인과관계 도출

  • 실험

    • 장점: 실험은 독립 변수와 종속 변수를 명확히 설정하여 (연구 설계가 제대로 되었다면) 인과관계를 명확히 도출할 수 있음. 변수 조작이 가능하기 때문에 결과에 대한 해석이 명확한 편.

    • 단점: 실험 환경이 통제된 상황에서 이루어지기 때문에 실제 사용 환경과는 다를 수 있으며, 실험의 외적 타당도가 떨어질 수 있음.

  • 설문조사

    • 장점: 설문은 사용자의 주관적 경험이나 태도에 대한 깊이 있는 정보를 얻는 데 적합. 다양한 의견을 수집함으로써 정성적인 인사이트를 도출할 수 있음.

    • 단점: 설문조사 결과만으로는 명확한 인과관계를 도출하기 어려움. 응답자의 주관적 인식과 실제 행동이 다를 수 있기 때문.

  • 빅데이터 분석

    • 장점: 빅데이터 분석을 통해 실제 사용자 행동을 기반으로 패턴상관관계를 도출할 수 있으며, 정밀한 예측 모델을 만들 수 있음. 대규모 데이터를 통해 변수 간의 관계를 자동으로 분석하고, 예상치 못한 인사이트를 발견할 수 있음.

    • 단점: 빅데이터는 상관관계를 잘 도출하지만, 인과관계를 직접적으로 도출하기 어려울 수 있음. 추가적인 실험이나 분석이 필요할 수도 있음.

3. 비용 및 효율성

  • 실험

    • 장점: 연구 목적에 맞는 특정 변수를 제어하여 효율적으로 데이터를 수집할 수 있음. 데이터의 품질이 높기 때문에 작은 규모로도 유의미한 결과를 얻을 수 있음.

    • 단점: 실험 환경을 구축하고, 참여자를 모집하며, 데이터를 분석하는 데 많은 시간비용이 소요. 특히 대규모 실험을 진행할 경우 상당한 자원이 필요.

  • 설문조사

    • 장점: 설문조사는 상대적으로 저렴한 비용으로 대규모 데이터를 수집할 수 있음. 특히 온라인 설문 플랫폼을 활용하면 시간과 비용을 절약할 수 있음.

    • 단점: 설문조사 자체는 효율적이지만, 설문 설계가 잘못되거나 응답자들이 성실하지 않다면 데이터의 품질이 떨어질 수 있음.

  • 빅데이터 분석

    • 장점: 기존에 축적된 데이터를 사용하면 추가적인 비용 없이 방대한 데이터를 분석할 수 있음. 이미 수집된 데이터에서 실시간 분석이 가능하여 신속한 의사결정에 도움을 줄 수 있음.

    • 단점: 빅데이터 분석을 시작하기 위해서는 데이터 수집 인프라전문가가 필요하며, 초기 구축 및 유지 비용이 매우 높을 수 있음.

실험, 설문조사, 빅데이터 분석은 각각의 장단점이 뚜렷하며, 연구 목적과 상황에 따라 적합한 방법을 선택하거나 상호 보완적으로 활용할 수 있습니다.

  • 실험은 인과관계를 명확하게 밝히고 정밀한 통제를 가능하게 하지만, 시간과 비용이 많이 들며 대규모로 확대하기 어려움

  • 설문조사는 비용 효율적이고 대규모 데이터를 수집할 수 있지만, 주관적 응답에 의존하기 때문에 신뢰성과 인과관계 분석에 한계가 있음

  • 빅데이터 분석은 실제 사용자 데이터를 기반으로 대규모 패턴 분석이 가능하지만, 인과관계 도출이 어려우며 초기 인프라 구축 비용이 많이 들어감


통계학 기반 연구 디자인

To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of.

Sir Ronald Fisher

위 인용 문구의 의미는 무엇일까?


가장 먼저 이해해야 할 것은 데이터 수집을 일종의 측정(measurement)으로 생각할 수 있다는 것. 즉, 우리가 여기서 하려는 것은 인간의 행동이나 인간의 마음에 대한 무언가를 측정(measure)하는 것. “측정”이란 무엇을 의미할까?

Measurement

Measurement itself is a subtle concept, but basically it comes down to finding some way of assigning numbers, or labels, or some other kind of well-defined descriptions to “stuff”. So, any of the following would count as a psychological measurement:

  • My age is 33 years.

  • I do not like anchovies.

  • My chromosomal gender is male.

  • My self-identified gender is male.

In the short list above, the bolded part is “the thing to be measured”, and the italicised part is “the measurement itself”. In fact, we can expand on this a little bit, by thinking about the set of possible measurements that could have arisen in each case:

  • My age (in years) could have been 0, 1, 2, 3 …, etc. The upper bound on what my age could possibly be is a bit fuzzy, but in practice you’d be safe in saying that the largest possible age is 150, since no human has ever lived that long.

  • When asked if I like anchovies, I might have said that I do, or I do not, or I have no opinion, or I sometimes do.

  • My chromosomal gender is almost certainly going to be male (XY) or female (XX), but there are a few other possibilities. I could also have Klinfelter’s syndrome (XXY), which is more similar to male than to female. And I imagine there are other possibilities too.

  • My self-identified gender is also very likely to be male or female, but it doesn’t have to agree with my chromosomal gender. I may also choose to identify with neither, or to explicitly call myself transgender.

보시다시피, 어떤 것(예: 나이)의 경우 가능한 측정 세트가 무엇인지가 상당히 명확해 보이지만 다른 것의 경우 약간 까다로워짐.

  • 하지만 누군가의 나이의 경우에도 이보다 훨씬 더 미묘할 수 있음.

  • 예를 들어, 위의 예에서 나이를 년 단위로 측정하는 것이 괜찮다고 가정했지만 발달 심리학자라면 너무 원시적이기 때문에 종종 년과 월 단위로 나이를 측정(어린이가 2년 11개월이면 일반적으로 “2;11”이라고 작성). 신생아에 관심이 있다면 출생 이후 일수, 심지어 출생 이후 시간 단위로 나이를 측정하고 싶을 수 있음. 다시 말해 허용되는 측정 값을 지정하는 방식이 중요.

이것을 조금 더 자세히 살펴보면, “나이”라는 개념이 실제로 그렇게 정확하지 않다는 것을 깨닫게 됨!

  • 일반적으로 “나이”라고 말할 때 우리는 암묵적으로 “출생 이후의 시간 길이”를 의미하지만 항상 그게 옳은 방법은 아니라는 것

  • 신생아가 눈의 움직임을 어떻게 조절하는지에 관심이 있다고 가정해 보자. 그렇게 어린 아이에게 관심이 있다면, “출생”이 신경 써야 할 유일한 의미 있는 시점이 아닐까 걱정하기 시작할 수도 있음.

  • 아기 앨리스가 3주 일찍 태어났고 아기 비앙카가 1주일 늦게 태어났다면, 우리가 “출생 후 2시간”에 그들을 만났을 때 “같은 나이”라고 말하는 것이 정말 말이 될까?

    • 어떤 면에서는 그렇다고 할 수 있는데, 사회적 관습에 따라 우리는 일상 생활에서 나이에 대해 이야기할 때 출생을 기준점으로 사용하는데 그것은 사람이 세상에서 독립적인 존재로 활동한 시간을 정의하기 때문.

    • 하지만 과학적 관점에서 볼 때 그것이 우리가 신경 쓰는 유일한 것은 아닐 수 있음. 인간의 생물학에 대해 생각할 때, 우리 자신을 (정자와 난자의) 수정 이후로 성장하고 성숙해 온 유기체로 생각하는 것이 종종 쓸모 있으며, 그 관점에서 앨리스와 비앙카는 나이가 같다고 할 수 없음.

    • 따라서 “나이”라는 개념을 (1) 수정 이후의 시간과 (2) 출생 이후의 시간으로 나누어 볼 수 있음.

그렇다면 누군가의 나이를 알아내기 위해 어떤 구체적인 “측정 방법”을 사용해야 할까?

  • 물어보기: 몇 살 이세요? 당신의 나이는? 생년월일은?

  • 부모에게 물어보기: 자녀 A는 몇 살인가요?

  • 산부인과 의사가 판단한 출생 시점을 물어보기 (자료 제출 등)


Operationalisation: defining your measurement

All of the ideas discussed in the previous section all relate to the concept of operationalisation (운영화). To be a bit more precise about the idea, operationalisation is the process by which we take a meaningful but somewhat vague concept, and turn it into a precise measurement. The process of operationalisation can involve several different things:

  • 측정하려는 내용에 대해 정확하게 설명.

    • 예를 들어, 연구 맥락에서 “나이”는 “출생 이후 시간”을 의미하는지? 아니면 “수정 이후 시간”을 의미?
  • 측정에 사용할 방법을 결정.

    • 나이를 측정하기 위해 Self-report 를 사용할 것인지? 부모에게 물어보거나 공식 기록을 찾을 것인지?

    • Self-report 를 사용하는 경우 질문을 어떻게 표현할 것인지? 측정에서 사용할 수 있는

  • 허용 가능한 값 집합을 정의.

    • 나이를 측정할 때 값은 숫자. 허용되는 숫자에 대해 신중하게 생각해야 할 것 (값은 항상 숫자일 필요는 없음).

    • 기타 다른 유형의 측정(예: 성별)의 경우 값은 숫자가 아님. 하지만 이전과 마찬가지로 어떤 값이 허용되는지 생각해야 함.

    • 사람들에게 자신의 성별을 스스로 보고하도록 요청하는 경우, 어떤 옵션을 선택할 수 있도록 허용해야 할까? “남성” 또는 “여성”만 허용하는 것으로 충분할까? “기타” 옵션이 필요할까? 아니면 사람들에게 구체적인 옵션을 제공하지 않고 그들이 직접 대답하도록 해야 할까? 그리고 가능한 값 집합을 모든 구두 응답을 포함하도록 개방한다면, 그들의 답변을 어떻게 해석할 것인지? (설문 피로도 고려)


Groseries to check!

  • A theoretical construct. This is the thing that you’re trying to take a measurement of, like “age”, “gender” or an “opinion”. A theoretical construct can’t be directly observed, and often they’re actually a bit vague.

  • A measure. The measure refers to the method or the tool that you use to make your observations. A question in a survey, a behavioural observation or a brain scan could all count as a measure.

  • An operationalisation. The term “operationalisation” refers to the logical connection between the measure and the theoretical construct, or to the process by which we try to derive a measure from a theoretical construct.

  • A variable. Finally, a new term. A variable is what we end up with when we apply our measure to something in the world. That is, variables are the actual “data” that we end up with in our data sets.


Scales of measurement

But not all variables are of the same qualitative type, and it’s very useful to understand what types there are. A very useful concept for distinguishing between different types of variables is what’s known as scales of measurement.

Nominal scale

  • 명목 척도 변수(범주형 변수라고도 함, categorical variable)는 다양한 가능성 간에 특별한 관계가 없는 변수.

    • 그 중 하나가 다른 변수보다 “더 크거나” “더 낫다”고 말하는 것은 말이 되지 않으며, 평균을 내는 것도 전혀 말이 되지 않는다.

    • 전형적인 예는 “눈 색깔”. 눈은 파란색, 초록색, 갈색 등 여러 가지 가능성이 있지만, 그 중 어느 것도 다른 변수보다 “더 나은” 것은 아님.

    • 성별도 명목적. 남성이 여성보다 더 좋거나 나쁘지 않으며, “평균 성별”에 대해 이야기하는 것도 말이 되지 않기 때문.

Suppose I was doing research on how people commute to and from work. One variable I would have to measure would be what kind of transportation people use to get to work. This “transport type” variable could have quite a few possible values, including: “train”, “bus”, “car”, “bicycle”, etc. For now, let’s suppose that these four are the only possibilities, and suppose that when I ask 100 people how they got to work today, and I get this:

Transportation Number of people
(1) Train 12
(2) Bus 30
(3) Car 48
(4) Bicycle 10
  • So, what’s the average transportation type? 

  • Similarly, notice that the order in which I list the options isn’t very interesting


Ordinal scale

  • 순서형 척도 변수는 명목형 척도 변수보다 구조가 조금 더 있지만 크게 다르지는 않다. 순서형 척도 변수는 다양한 가능성을 자연스럽고 의미 있게 정렬할 수 있는 방법이 있음

  • 순서형 변수의 일반적인 예는 “경주에서 마무리하는 순위”. 1위를 차지한 사람이 2위를 차지한 사람보다 더 빨랐다고 말할 수 있지만 얼마나 더 빨랐는지는 알 수 없음.

  • 결과적으로 1위 > 2위, 2위 > 3위라는 것을 알 수 있지만 1위와 2위의 차이는 2위와 3위의 차이보다 훨씬 클 수 있음.

심리적으로 더 흥미로운 예를 들어보면, 연구에서 사람들의 기후 변화에 대한 태도에 관심이 있다고 가정하고, 설문 응답자들에게 다음 네 가지 진술 중 자신의 신념과 가장 일치하는 것을 선택하라고 요청하였다.

  1. Temperatures are rising, because of human activity
  2. Temperatures are rising, but we don’t know why
  3. Temperatures are rising, but not because of humans
  4. Temperatures are not rising

위 네 가지 진술은 실제로 “현재 과학에 동의하는 정도”라는 측면에서 자연스러운 순서가 있다. 진술 1은 거의 일치하고, 진술 2는 적당히 일치하고, 진술 3은 잘 일치하지 않으며, 진술 4는 과학에 강하게 반대. 따라서 연구자가 관심 있는 것(사람들이 과학을 지지하는 정도)의 측면에서 항목을 1 > 2 > 3 > 4로 정렬할 수 있음.

따라서 아래와 같이 옵션을 나열하는 것에 대한 여러분의 의견은?

  1. Temperatures are rising, but not because of humans
  2. Temperatures are rising, because of human activity
  3. Temperatures are not rising
  4. Temperatures are rising, but we don’t know why

이상하다고 느꼈다면 이유는?

  • Because it seems to violate the natural “structure” to the question.


Interval scale

  • 명목형 및 순서형 척도 변수와 달리 간격 척도 (interval scale) 및 비율 척도 변수 (ratio scale variable) 는 숫자 값이 진정으로 의미 있는 변수.

  • 간격 척도 변수의 경우 숫자 간의 차이는 해석 가능하지만 변수에는 “자연스러운” 0 (natural zero)값이 없다.

  • 간격 척도 변수의 좋은 예: 섭씨 온도.

    • 예를 들어 어제가 15도 였고 오늘은 18도 였다면 두 값 사이의 3도 차이는 진정으로 의미가 있음. 게다가 그 3도 차이는 7도 와 10도 사이의 3도 차이와 정확히 같다. 간단히 말해 간격 척도 변수의 경우 덧셈과 뺄셈이 의미가 있다고 할 수 있다.

    • 그러나 0도가 “온도가 전혀 없음”을 의미하는 것이 아니라는 점에 유의. 실제로는 “물이 얼 때의 온도”를 의미하는데, 이는 매우 임의적인 것.

    • 결과적으로 온도를 곱하거나 나누는 것은 무의미해짐. 20도 가 10도 보다 두 배 더 뜨겁다고 말하는 것은 잘못된 것이며, 20도 가 -10도 보다 -2배 더 뜨겁다고 주장하는 것도 이상하고 무의미함.


Ratio scale

  • 비율 척도 변수에서 0은 실제로 0을 의미하며 곱하고 나누어도 됨.

  • 비율 척도 변수의 좋은 심리학적 예는 응답 시간(RT).

    • 많은 작업에서 누군가가 문제를 해결하거나 질문에 답하는 데 걸리는 시간을 기록하는 것은 매우 일반적. 이는 작업의 어려움을 나타내는 지표이기 때문.

    • Alan이 질문에 답하는 데 2.3초가 걸리는 반면 Ben은 3.1초가 걸린다고 가정해 보자. 간격 척도 변수와 마찬가지로 덧셈과 뺄셈은 여기에서 모두 의미가 있음. Ben은 실제로 Alan보다 3.1 - 2.3 = 0.8초 더 걸렸음.

    • 그러나 곱셈과 나눗셈도 여기에서 의미가 있습니다. Ben은 Alan보다 질문에 답하는 데 3.1 / 2.3 = 1.35배 더 오래 걸렸습니다. 그리고 이렇게 할 수 있는 이유는 RT와 같은 비율 척도 변수의 경우 “0초”는 실제로 “시간이 전혀 없음”을 의미하기 때문.


Continuous versus discrete variables

어렵다면: 그래서 중간이 있는거야 없는거야? 라고 물어보자!

A continuous variable is one in which, for any two values that you can think of, it’s always logically possible to have another value in between. A discrete variable is, in effect, a variable that isn’t continuous. For a discrete variable, it’s sometimes the case that there’s nothing in the middle.

  • 이러한 정의는 약간 추상적으로 보일 수 있지만 몇 가지 예를 보면 매우 간단함.

    • 예를 들어, 응답 시간은 연속적입니다. Alan이 질문에 응답하는 데 3.1초가 걸리고 Ben이 2.3초가 걸리면 Cameron의 응답 시간은 3.0초가 걸려서 그 사이에 있을 수 있음. 물론 David가 응답하는 데 3.031초가 걸릴 수도 있으므로 그의 RT는 Cameron과 Alan 사이에 있을 것.

    • 실제로 RT를 그렇게 정확하게 측정하는 것은 불가능할 수 있지만, 원칙적으로는 확실히 가능. 우리는 항상 다른 두 RT 사이에 새로운 RT 값을 찾을 수 있기 때문에 RT가 연속적이라고 할 수 있음.

  • 이 규칙을 위반하면 이산 변수가 발생.

    • 예를 들어, 명목 척도 변수는 항상 이산적. 기차와 자전거 사이에 있는 교통 수단은 없음. 따라서 교통 수단 유형은 이산적.

    • 마찬가지로 순서 척도 변수는 항상 이산적입니다. “2위”가 “1위”와 “3위” 사이에 있지만, 논리적으로 “1위”와 “2위” 사이에 있을 수 있는 것은 없다.

    • 간격 척도와 비율 척도 변수는 어느 쪽으로든 갈 수 있다. 위에서 보았듯이 반응 시간(비율 척도 변수)은 연속적. 섭씨 온도(간격 척도 변수)도 연속적. 그러나 학교에 다닌 해(간격 척도 변수)는 이산적. 2002년과 2003년 사이에는 년도 구분이 없기 때문.

    • 참/거짓 테스트(비율 척도 변수)에서 정답을 맞힌 문제의 수도 이산적. 참/거짓 문제는 “부분적으로 옳을” 수 없기 때문에 5/10과 6/10 사이에는 아무것도 없다.

아래 표의 체크 표시는 가능성을 나타낸 것

continuous discrete
nominal
ordinal
interval
ratio


Some complexities

현실은 녹록치 않다. 분류 체계가 암시하는 것보다 훨씬 더 지저분하다. 현실 세계에서 위와 같이 깔끔한 범주에 속하는 변수는 거의 없으므로 측정 척도를 성경처럼 받들기 보다는 하나의 잣대가 된다는 것을 명심하자.

  • 심리적 고전적인 예: 리커트 척도 (Likert-scale): 리커트 척도는 모든 설문 조사 설계의 기본 도구. 여러분 스스로 수백, 어쩌면 수천 개를 작성했을 것이고, 아마도 여러분 스스로 이미 하나 이상 사용했을 것. 다음과 같은 설문 조사 질문이 있다고 가정해 보자.

Which of the following best describes your opinion of the statement that “all pirates are freaking awesome” …

  • 그리고 리커트 스케일로 답을 아래와 같이 받았다면,
  1. Strongly disagree
  2. Disagree
  3. Neither agree nor disagree
  4. Agree
  5. Strongly agree
  • 이 항목 세트는 5점 리커트 척도의 예. 사람들은 여러 가지(이 경우 5개) 명확하게 정렬된 가능성 중 하나를 선택하도록 요청받으며, 일반적으로 각 경우에 언어적 설명자가 제공된다. 그러나 모든 항목이 명확하게 설명될 필요는 없다. 아래는 5점 리커트 척도의 또 다른 완벽한 예이기도 합니다.
  1. Strongly disagree
  2. Strongly agree
  • 리커트 척도는 매우 편리하지만 다소 제한적인 도구. 문제는 리커트 척도는 어떤 종류의 변수인가?

    • 중간이 있는지에 대한 응답을 줄 수 없기 때문에 분명히 이산적. 항목이 정렬되어 있기 때문에 분명히 명목 척도가 아니며 자연스러운 0이 없기 때문에 비율 척도도 아님.
  • 그렇다면, 순서형 척도인가, 간격형 척도인가?

    • 한 가지 주장은 “강력히 동의함”과 “동의함”의 차이가 “동의함”과 “동의도 비동의도 아님”의 차이와 같은 크기라는 것을 실제로 증명할 수 없다고 말하고 있음.

    • 사실, 일상생활에서 이 둘이 전혀 같지 않다는 것은 매우 분명합니다. 따라서 이는 리커트 척도를 순서형 변수로 취급해야 함을 시사하는 반면 실제로 대부분 참가자는 “1~5점 척도” 부분을 상당히 심각하게 받아들이는 듯하며, 5가지 응답 옵션 간의 차이가 서로 상당히 비슷하다고 생각하는 경향이 있음.

    • 결과적으로 많은 연구자들은 리커트 척도 데이터를 마치 간격 척도인 것처럼 취급. 간격 척도는 아니지만 실제로는 우리가 보통 준간격 척도로 생각할 만큼 충분히 가깝다고 할 수 있겠다.


Assessing the reliability of a measurement

위에서 우리는 이론적 구성을 작동화하고 심리적 측정을 만드는 방법에 대해 조금 생각해 보았다. 그리고 심리적 측정을 적용하면 여러 유형으로 나타날 수 있는 변수가 생긴다는 것을 알게 되었다. 이 시점에서 우리는 당연한 질문에 대해 논의를 시작해야 한다. 측정이 유용한가? (Is the measurement any good?) 우리는 이를 신뢰성(reliability)과 타당성(validity)이라는 두 가지 관련 아이디어의 관점에서 살펴볼 것이다.

간단히 말해서, 측정의 신뢰성은 무언가를 얼마나 정확하게 측정하는지 알려주는 반면, 측정의 타당성은 측정이 얼마나 정확한지 알려주는 것이다.

  • 신뢰성은 실제로 매우 간단한 개념: 측정의 반복성(repeatability) 또는 일관성(consistency)을 말한다.

    • 높은 신뢰성: “욕실 저울”을 사용하여 제 체중을 측정하는 것은 매우 신뢰할 수 있다. 저울에 계속해서 올라타고 내려도 저울은 같은 답을 줄 것이다.

    • 낮은 신뢰성: “엄마한테 물어봐서” 내 지능을 측정하는 것은 매우 신뢰할 수 없다. 어떤 날은 내가 좀 둔하다고 말하고, 다른 날은 내가 완전히 멍청하다고 말한다.

  • 타당성: 이 신뢰성의 개념은 측정이 정확한지 여부에 대한 질문과는 다르다. 내가 감자 자루를 들고 욕실 저울에 오르내릴 때에도 측정은 여전히 ​​신뢰할 수 있다. 항상 같은 답이 나올 것이기 때문이다. 그러나 이 매우 신뢰할 수 있는 답은 내 실제 체중과 전혀 맞지 않으므로 틀렸다. 즉, 기술적으로 말하면, 이것은 신뢰할 수 있지만 타당하지 않은 측정.

    • 신뢰할 수 없지만 타당한 측정: 마찬가지로, 엄마가 내 지능에 대해 내린 평가는 약간 신뢰할 수 없지만, 그녀가 맞을 수도 있다. 아마도 내가 그렇게 똑똑하지 않아서, 그녀가 내 지능에 대해 내린 평가가 날마다 꽤 심하게 변동하지만, 기본적으로는 맞다. 그러므로 그것은 신뢰할 수 없지만 타당한 측정이 된다.


그렇다면, 신뢰성을 측정할 수 있는 다양한 방법에 대해 생각해 보자.

  • Test-retest reliability. This relates to consistency over time: if we repeat the measurement at a later date, do we get a the same answer?

  • Inter-rater reliability. This relates to consistency across people: if someone else repeats the measurement (e.g., someone else rates my intelligence) will they produce the same answer?

  • Parallel forms reliability. This relates to consistency across theoretically-equivalent measurements: if I use a different set of bathroom scales to measure my weight, does it give the same answer?

  • Internal consistency reliability. If a measurement is constructed from lots of different parts that perform similar functions (e.g., a personality questionnaire result is added up across several questions) do the individual parts tend to give similar answers.


The “role” of variables: predictors and outcomes

일반적으로 연구를 하면 다양한 변수가 많이 나온다. 그런 다음 데이터를 분석할 때 일반적으로 다른 변수의 관점에서 일부 변수를 설명하려고 한다. “설명하는 것”과 “설명되는 것”의 두 역할을 구분하는 것이 중요하다.

  • 이제 분석을 할 때 X 와 Y 에 익숙해져야 함: 분석에서 서로 다른 역할을 하기 때문.

  • 독립 변수(IV)와 종속 변수(DV)

    • IV는 설명을 위해 사용하는 변수(예: X )이고 DV는 설명되는 변수(예: Y ).

    • 어원: X 와 Y 사이에 실제로 관계가 있다면 Y 가 X 에 의존(종속)한다고 말할 수 있고, 연구를 “적절하게” 설계했다면 X 가 다른 어떤 것에도 의존하지 않는다(독립).

    • 하지만 IV는 실제로 “다른 모든 것과 독립적이지” 않고 (b) 관계가 없다면 DV가 실제로 IV에 의존하지 않는다.

    • 대안: 예측 변수와 결과 변수. X (예측 변수)를 사용하여 Y (결과)에 대한 추측을 하는 것

role of the variable classical name modern name
to be explained dependent variable (DV) outcome
to do the explaining independent variable (IV) predictor


Experimental and non-experimental research

Experimental research

  • 실험 연구의 주요 특징은 연구자가 연구의 모든 측면, 특히 연구 중에 참가자가 경험하는 것을 제어한다는 것. 특히 연구자는 예측 변수(IV)를 조작하거나 변경한 다음 결과 변수(DV)가 자연스럽게 변하도록 한다.

  • 여기서 아이디어는 예측 변수(IV)를 의도적으로 변경하여 결과에 인과 관계가 있는지 확인하는 것. 또한 예측 변수 이외의 다른 것이 결과를 일으킬 가능성이 없도록 하기 위해 다른 모든 것은 일정하게 유지되거나 다른 방식으로 “균형”을 이루어 결과에 영향을 미치지 않도록 해야 한다.

  • 실제로 실험 결과에 영향을 미칠 수 있는 다른 모든 것을 생각하는 것은 거의 불가능하며, 더군다나 일정하게 유지하는 것은 더욱 불가능하다.

  • 이에 대한 표준 솔루션은 무작위화 (randomization).

    • 즉, 사람들을 무작위로 다른 그룹에 할당한 다음 각 그룹에 다른 처리를 제공하는 것(즉, 예측 변수의 다른 값을 할당).

    • 무작위화는 예측 변수를 처리 하는 일이 그룹 간에 체계적인 차이가 있을 가능성을 최소화하는 것(물론 없앨 수는 없음).

  • 매우 간단하고 완전히 비현실적이며 극도로 비윤리적인 예를 생각해 보자.

    • 흡연이 폐암을 유발하는지 알아보고 싶다고 가정해 보자.

    • 이를 위한 한 가지 방법은 흡연자와 비흡연자를 찾아 흡연자의 폐암 발병률이 더 높은지 확인하는 것.

      • 이는 연구자가 흡연자와 비흡연자를 통제할 수 없기 때문에 적절한 실험이 아님

      • 예를 들어, 담배를 피우기로 선택한 사람들은 식단이 좋지 않거나 석면 광산에서 일하는 경향이 있을 수 있음.

      • 여기서 요점은 그룹(흡연자와 비흡연자)이 흡연뿐만 아니라 실제로 많은 면에서 다르다는 것.

      • 따라서 흡연자 사이에서 폐암 발병률이 높은 것은 흡연 자체가 아닌 다른 요인 때문일 수 있음.

      • 기술적으로 이러한 다른 요인(예: 식단)을 “혼동 요인(confounding factors)”이라고 함.

    • 적절한 실험이라면?

      • 윤리적인 실험을 할 필요가 없다면 해결책은 누가 흡연하고 누가 흡연하지 않는지 통제하는 것.

      • 구체적으로, 참가자를 무작위로 두 그룹으로 나누고 그 중 절반을 흡연자로 만든다면, 절반이 흡연한다는 사실 외에는 그룹이 어떤 면에서든 다를 가능성이 매우 낮다.

      • 그렇게 하면 흡연 그룹이 비흡연 그룹보다 암에 걸릴 확률이 더 높다면 흡연이 암을 유발한다고 더 명확하게 말할 수 있는 것.


Non-experimental research

  • 비실험적 연구는 “연구자가 실험에서만큼 통제력이 없는 모든 연구”를 포괄하는 광범위한 용어.

  • 분명히 과학자들은 통제력을 갖고 싶어하지만, 이전 예에서 알 수 있듯이 통제력을 얻으려고 시도할 수 없거나 시도해서는 안 되는 상황이 많이 있음.

    • 암에 걸리는지 알아보기 위해 사람들에게 흡연을 강요하는 것은 매우 비윤리적이고(거의 확실히 범죄) 실험적 통제력을 얻으려고 시도해서는 안 되는 상황의 좋은 예

    • 하지만 윤리적 문제를 제쳐두더라도 “흡연 실험”에는 몇 가지 다른 문제가 있음.

    • 예를 들어, 절반의 사람들을 흡연자로 “강제”하자고 제안했을 때, 비흡연자 샘플로 시작해서 흡연자가 되도록 강요하는 것에 대해 이야기했을 것.

    • 이것은 미친 과학자가 좋아할 만한 사악한 실험 설계처럼 들리지만, 현실 세계에서 그 효과를 조사하는 데는 그다지 타당한 방법이 아닐 수 있음.

    • 예를 들어, 흡연은 사람들이 나쁜 식단을 먹을 때만 폐암을 유발한다고 가정하고, 일반적으로 흡연하는 사람들은 나쁜 식단을 먹는 경향이 있다고 가정하자.

    • 하지만 우리 실험에서 “흡연자”는 “자연적인” 흡연자가 아니기 때문에(즉, 우리는 비흡연자를 흡연자가 되도록 강요했기 때문에 흡연자가 가질 수 있는 다른 모든 정상적이고 실제적인 특성을 가지고 있지 않았다).

    • 따라서 아마도 자연적인 흡연자보다 강요된 흡연자는 더 나은 식단을 먹을 것. 아마도 이 처치 그룹은 폐암에 걸릴 확률이 대조 그룹과 크게 다르지 않을 것이고, 우리의 실험은 “자연적인” 세계의 구조를 위반하기 때문에 실패할 것(“Artificial” result).

  • 준실험적 연구(Quasi-experimental Study)와 사례 연구(Case Study)

    • 앞서 실험 연구에서 잘못되 예로 논의한 예는 흡연자와 비흡연자의 폐암 발생률을 조사하고자 했지만, 누가 흡연하고 누가 흡연하지 않는지 통제하려고 하지 않았다.

      • 이것은 준실험적 설계라고 볼 수 있다. 즉, 실험과 동일하지만 예측 변수(IV)를 제어하지 않은 것. 여전히 통계를 사용하여 결과를 분석할 수 있지만 훨씬 더 조심해야 함.
    • 대안적인 접근 방식인 사례 연구는 하나 또는 몇 가지 사례에 대한 매우 자세한 설명을 제공하는 것을 목표로 한다.

      • 일반적으로 통계를 사용하여 사례 연구의 결과를 분석할 수 없으며 몇 가지 고립된 사례에서 “일반인”에 대한 일반적인 결론을 도출하는 것은 일반적으로 매우 어렵다.

      • 사례 연구가 유용한 순간은, 첫째, 대안이 없는 상황. 때로는 특정 영역에서 뇌 손상을 입은 사람을 많이 찾을 수 없으므로 할 수 있는 일은 가능한 한 자세하고 세심하게 사례를 설명하는 것뿐.

      • 그러나 사례 연구에는 몇 가지 진정한 이점도 있습니다. 연구할 사람이 많지 않기 때문에 각 사례에서 작용하는 특정 요소를 이해하기 위해 많은 시간과 노력을 투자하게 된다. (깊이 있는 연구가 가능 like documentary)

      • 결과적으로 사례 연구는 실험 및 준실험 설계에서 볼 수 있는 통계 지향적 접근 방식을 보완할 수 있다.


프로그래밍 언어

Data

  • 인간은 데이터를 수집하고 결합하여 분석을 하는 작업을 태어날 때부터 수행.

    • 우리가 사용할 수 있는 모든 감각 기관을 통해서 수집한 데이터는 뇌에 저장되고 처리되고 이러한 과정을 통하여 인간은 예측하고 결정하며 행동.

    • 이러한 인간의 능력을 컴퓨터로 구현하려는 학문이 기계학습(machine learning)과 인공지능(Artifical intelligence).

  • 우리가 느끼고 보고 듣는 것들이 어떻게 인간의 뇌에 저장되는지는 여전히 Blackbox

    • 하지만 우리는 다양한 자료를 컴퓨터에 저장할 수 있는 방법을 만들었고 이를 통상적으로 데이터(data)라고 부름

    • 특별히, 우리가 현재 말하는 데이터는 디지털화된 자료 로서 기본적으로 0과 1로, 즉 BIT 로 이루어진 자료.

    • IT 기술은 단순한 0과 1의 조합으로 다양한 데이터를 아주 많이 그리고 편리하게 저장할 수 있게 해 주었음.

Programming language

Language is a communication

  • 사람들은 언어를 통하여 자신의 의사를 전달하고 타인의 생각을 이해하며 서로 소통함

    • 언어를 이용하여 상대방에 자신이 원하는 일을 시킬 수 있고 또한 언어를 통하여 자신의 생각과 수행한 일을 다른 사람에게 설명할 수 있음.

    • 인간과 인간을 연결해주는 언어는 수 천 가지 종류가 있고(예를 들어 한국어, 영어, 일본어, 독일어 등) 언어를 표현하는 문자(writing system)와 문자들을 배열하는 규칙인 문법(grammar)이 있음.

    • 예를 들어 우리는 영어를 사용하는 사람들과 소통하기 위하여 영어 단어를 외우고 문법을 익혀서 말하고 듣고 읽어서 의사를 전달하고 여러 가지 다양한 일을 수행.

  • 프로그래밍 언어컴퓨터와 소통하기 위해서 개발된 언어

    • 프로그래밍 언어도 인간 사이의 언어와 같이 언어를 구성하는 단어도 있으며 문법도 존재.

    • 인간 사이의 언어 소통에서 단어를 잘못 선택하거나 문법이 틀리면 소통이 어려운 것과 마찬가지로 컴퓨터와 소통하는 경우에도 선택된 프로그래밍 언어의 단어와 문법에 맞게 사용해야 오류 없이 소통할 수 있음.

    • 프로그래밍 언어도 인간의 언어와 마찬가지로 하나만 있는 것이 아님. 가장 초기에 나온Fortran 언어가 있고 그 이후에 CLispJAVAR 등 매우 많은 언어가 개발됨.

    • 이렇게 많은 프로그래밍 언어들 중에 무엇을 배울지 선택하는 것은 어렵지만 많이 사용되는 언어를 배우면 여러 면에서 편리한 것처럼 프로그래밍 언어도 마찬가지일 것.