HCI 실험 디자인 개론

통계학을 기반으로 한 연구 설계

Weekly content

Week2_lecture_pdf

HCI(Human-Computer Interaction)

사용자가 컴퓨터, 모바일 기기, 가상현실(VR), 증강현실(AR), 웨어러블 디바이스, 인공지능 시스템 등 다양한 기술과 어떻게 상호작용하는지를 연구하는 학문 분야
초기의 HCI는 “사람이 컴퓨터를 얼마나 효율적으로 사용할 수 있는가”(예: 작업 속도, 오류율, 사용 편의성) 같은 사용성(usability) 중심의 문제에서 출발. 그러나 오늘날에는 훨씬 더 확장되어, 다음과 같은 주제들을 포괄하게 되었음:
- 경험(UX, User Experience): 단순히 효율성만이 아니라 즐거움, 몰입감, 정서적 반응까지 포함
- AI 및 지능형 인터페이스: 음성 비서, 추천 시스템, 생성형 AI 등 새로운 상호작용 방식
- 사회적·윤리적 측면: 개인정보 보호, 알고리즘 편향, 디지털 웰빙 등

HCI의 중요성

HCI는 단순한 학문적 연구를 넘어, 디지털 사회 전반을 설계하는 핵심 기반이 되고 있음.
- 산업적 중요성: 성공적인 제품·서비스는 뛰어난 기술만으로는 불가능하며, 사람들이 실제로 쉽고 즐겁게 사용할 수 있도록 설계되어야 함. (예: 아이폰, 넷플릭스, 카카오톡)
- 사회적 중요성: 기술 사용 경험이 삶의 질, 사회적 관계, 심지어 정신 건강까지 직결됨.
- 학문적 중요성: 심리학, 사회학, 디자인, 데이터과학 등과 깊이 연결되는 다학제적 연구 영역.

HCI 연구와 연구 디자인

HCI 연구에서 연구 디자인(research design)은 특히 중요한데, 이는 곧 “우리가 어떤 질문을 던지고, 어떤 방법으로 답을 찾을 것인가”를 결정하는 단계이기 때문
연구 질문에 따라 방법이 달라짐:
- 예: “UI 색상 변화가 사용자 만족도에 영향을 주는가?” → 실험(Experiment) 설계 필요
- 예: “어떤 요인이 사람들이 특정 앱을 더 오래 사용하게 만드는가?” → 설문조사나 로그 데이터 분석 활용
- 잘못된 연구 디자인 → 잘못된 결론: 연구 질문과 방법의 불일치가 발생하면, 얻어진 결과는 신뢰성과 타당성을 확보하기 어려움.
즉, HCI 연구에서 연구 디자인은 단순한 절차적 준비가 아니라 연구의 성공과 실패를 좌우하는 설계도(blueprint)

HCI 실험 디자인의 기본 요소

연구 문제 정의: 연구의 핵심 질문을 명확히 설정. 연구 문제에 따라 실험(또는 설문)의 방향이 결정되므로, 이를 명확히 규정하는 것이 필수적.
- 핵심: 연구의 출발점은 “무엇을 알고 싶은가?”
- 의미: 연구 문제를 명확히 규정하지 않으면, 실험 변수를 어떻게 설정할지, 어떤 데이터를 수집할지 방향이 흐려짐
- 예시:
  - “앱에서 알림 빈도가 사용자 집중도에 영향을 미치는가?”
  - “메타버스 아바타의 외형 선택이 몰입감에 어떤 차이를 만드는가?”
- 주의: 연구 문제는 측정 가능한 형태로 구체화해야 함. “재미있다”보다 “재미 점수(1–7 Likert 척도)”처럼 명시적이어야 실험으로 옮길 수 있다는 것.
독립 변수와 종속 변수 결정: HCI 연구에서는 독립 변수(변경 가능한 요소)와 종속 변수(결과로 관찰되는 측정값)를 정의해야 함. 예를 들어, UI 디자인의 색상(독립 변수)이 사용자 만족도(종속 변수)에 미치는 영향을 연구할 수 있음
- 독립 변수 (IV): 연구자가 조작하거나 변화시키는 요소.
- 종속 변수 (DV): 그 변화의 결과로 관찰되는 측정값.
- 예시:
  - IV: UI 버튼 색상 (파랑 vs 빨강)
  - DV: 사용자 클릭률, 작업 성공률, 만족도 설문 점수
참여자 모집: 실험(또는 설문)에 필요한 참여자 수와 참여자 특성을 고려하여 실험 대상을 모집. 참여자의 다양성은 연구 결과의 일반화 가능성에 영향을 미칠 수 있음.
- 참여자 수 (Sample size): 통계적 검정력을 확보하기 위해 충분한 수가 필요 (예: t-test에서 최소 30명, 실험군·대조군 각각 15명 이상 등)
- 참여자 특성: 성별, 연령, 디지털 리터러시 수준, 문화적 배경 등은 결과 해석에 큰 영향을 줄 수 있음. 결과의 일반화 가능성 (External validity)이 높을 수록 좋은 연구.
- 예시:
  - 아동 대상 교육용 앱 연구 → 참여자 나이 범위(7–12세)
  - 고령층 대상 모바일 뱅킹 연구 → 디지털 경험 수준이 중요한 통제 요인
연구 환경 설정: 실험(또는 설문)이 진행되는 환경은 실험 결과에 큰 영향을 미칠 수 있음. 온라인 실험(설문), 실제 환경에서의 관찰, 또는 실험실 내에서의 설정 등 적합한 환경을 선택해야 함.
- 실험실: 변수 통제가 용이하나, 현실감이 낮을 수 있음.
- 현장(실제 사용 환경): 높은 생태 타당도(실제성), 그러나 외부 요인 통제가 어려움.
- 온라인: 많은 참여자 모집 가능, 다양한 기기·환경 노출, 그러나 데이터 품질 관리가 관건.
데이터 수집 방법: 실험(설문) 중 어떤 데이터를 어떻게 수집할지 결정. 설문조사, 사용 로그 분석, 인터뷰 등 다양한 방법을 사용할 수 있으며, 각 방법은 그 나름의 장단점이 있음.
- 설문조사: 태도, 인식, 만족도 등 주관적 평가에 유용
- 사용 로그 분석: 클릭 수, 체류 시간, 오류율 등 객관적 행동 데이터 확보
- 인터뷰 / 포커스 그룹: 정성적 인사이트 도출
- 생체 데이터: 뇌파(EEG), 심박수, 시선 추적 등 → 몰입감·스트레스 같은 비의식적 반응 측정
- 예시:
  - UX 만족도 → 설문
  - UI 버튼 오류율 → 사용 로그
  - VR 몰입감 → 설문 + 심박수 결합

HCI 실험 연구 사례

사례 1: 가상 현실(VR)에서의 사용자 경험 연구

가상 현실에서 사용자의 몰입감을 측정하는 연구는 HCI 분야에서 활발히 진행되고 있음.
예를 들어, 몰입감이 어떻게 사용자 만족도에 영향을 미치는지 알아보기 위해 실험을 설계할 수 있는데, 이 실험에서 독립 변수는 그래픽 품질이나 상호작용 방식이 될 수 있고, 종속 변수는 사용자 몰입감과 사용자 만족도.
실험 참가자들은 각각 다른 그래픽 품질과 상호작용 방식을 경험하고, 이후 설문을 통해 몰입감과 만족도를 평가.
연구자는 이 데이터를 통해 가상 현실 환경에서의 UX(User Experience)를 개선하는 인사이트를 얻을 수 있음.

사례 2: 음성 인터페이스 연구

음성 비서(AI Assistant)와의 상호작용에서 사용자 경험을 연구하는 실험도 HCI 연구에서 중요한 부분.
이 실험에서는 음성 인식 정확도와 응답 시간을 독립 변수로 설정하고, 사용자 만족도와 과제 완료 시간을 종속 변수로 측정할 수 있음.
참여자들은 다양한 명령어를 음성 비서를 통해 수행하게 되고, 음성 인식 정확도나 응답 시간이 사용자에게 어떤 영향을 미치는지 분석할 수 있음.
이를 통해 음성 인터페이스의 성능을 향상시키는 방법을 도출할 수 있을 것으로 기대.

사례 3: 모바일 UI 디자인 평가

모바일 앱의 UI 디자인이 사용성에 미치는 영향을 분석하는 실험도 많이 수행됨
예를 들어, 버튼 크기나 색상 대비가 사용자의 과제 수행 시간에 어떤 영향을 미치는지 연구할 수 있는데, 이 때 연구자는 다양한 UI 디자인을 실험 참가자들에게 제시하고, 그들이 과제를 얼마나 빠르고 정확하게 수행하는지를 측정.

HCI 설문 연구

HCI(Human–Computer Interaction) 연구에서 실험은 인과관계를 밝히는 데 강점이 있지만, 항상 가능하거나 효율적인 방법은 아님. 특히 사용자 경험(UX), 만족도, 태도, 인식과 같은 심리적·주관적 요소를 측정할 때는 설문조사(survey)가 매우 효과적입니다.

대규모 사용자 데이터를 수집할 때

실험 환경을 통제하기 어려운 경우 (예: 특정 앱의 실제 사용자 집단)

설문 기반 HCI 연구의 기본 요소

명확한 질문 구성: 설문 질문은 명확하고 간결하게. 사용자들이 질문을 쉽게 이해하고 응답할 수 있어야 정확한 데이터를 얻을 수 있음.
- 잘못된 질문 → “앱이 재미있고 유용하다고 생각하시나요?” (두 가지 의미 혼합)
- 개선된 질문 → “앱이 재미있다고 느끼시나요?” / “앱이 유용하다고 느끼시나요?” (분리)
적절한 질문 유형 선택: 리커트 척도(Likert scale), 선택형 질문, 개방형 질문 등을 적절히 조합하여 다양한 정보를 수집할 수 있는데, 연구 질문과 모형에 따라 질문의 유형을 잘 선택해야 함.
- 지나치게 긴 개방형 문항은 응답 피로감을 높이므로, 적절히 배치하는 것이 중요
참여자 모집 및 샘플링: 설문조사의 신뢰성을 높이기 위해 적절한 표본을 선택하고 다양한 참여자들의 의견을 반영하는 것이 중요.

사례 1: 웹사이트 사용성 평가

웹사이트의 사용성을 평가하기 위해 설문조사를 활용한 연구: 주로 시스템 사용성 척도(System Usability Scale, SUS) 같은 표준화된 설문을 사용하여 웹사이트의 사용성 점수를 측정.
사용자가 웹사이트를 사용한 후, SUS 설문을 통해 직관성, 효율성, 만족도 등을 평가.
리커트 척도를 사용하여 사용자들이 각 문항에 대해 평가할 수 있도록 구성.
수집된 데이터를 바탕으로 웹사이트의 사용성에 대한 총점을 산출하고, 이를 기반으로 문제점과 개선 사항을 도출.

사례 2: 모바일 앱 사용자 경험(UX) 연구

모바일 애플리케이션의 사용자 경험(UX)을 평가하는 설문 연구는 HCI에서 중요한 역할을 하는데, 예를 들어, 연구자는 앱의 인터페이스 디자인, 성능, 기능성에 대한 사용자 피드백을 수집할 수 있음
설문 문항은 사용 편의성, 디자인의 일관성, 앱의 반응성 등을 평가하는 항목으로 구성.
리커트 척도를 사용하여 사용자가 각 항목에 대해 얼마나 만족하는지 평가.
개방형 질문을 포함하여 사용자가 자유롭게 의견을 제시할 수 있도록 하여 정성적 데이터를 수집.
이 데이터를 분석하여 UX 개선 방향을 도출하고, 추가 기능 구현이나 디자인 개선을 계획할 수 있음.

사례 3: 소셜 미디어 사용 패턴 연구

소셜 미디어 플랫폼에서의 사용자 행동 패턴을 분석하기 위한 연구도 많이 진행: 사용자의 행동과 태도를 조사하여 소셜 미디어 사용이 개인에게 미치는 영향을 분석
설문을 통해 사용자의 일일 사용 시간, 주로 사용하는 기능, 소셜 미디어를 사용하는 동기 등에 대한 데이터를 수집.
또한 소셜 미디어 사용이 정서적 상태나 대인관계에 미치는 영향을 평가하는 질문을 포함할 수 있음.
수집된 데이터를 통해 사용자의 소셜 미디어 사용 패턴을 분석하고, 플랫폼 설계 개선 및 기능 업데이트에 필요한 인사이트를 얻을 수 있음.

HCI 연구에서 실험, 설문조사, 빅데이터 분석의 장단점 비교

HCI(Human-Computer Interaction) 연구에서 실험과 설문조사는 전통적으로 많이 사용되었지만, 최근에는 빅데이터 분석이 점점 더 중요한 연구 방법으로 자리 잡고 있음. 빅데이터를 활용하면 방대한 양의 사용자 데이터를 기반으로 더 깊이 있는 분석이 가능하며, 새로운 인사이트를 얻을 수 있음.

1. 데이터 수집 범위 및 규모

실험 연구
- 장점: 실험은 특정한 연구 질문에 맞게 제어된 환경에서 데이터를 수집할 수 있어, 데이터의 신뢰성이 높음
- 단점: 실험에서 수집할 수 있는 데이터는 제한적이며, 시간과 비용이 많이 들기 때문에 데이터 규모가 작을 수 있음.
설문조사
- 장점: 설문조사는 대규모 데이터를 수집할 수 있어 다양한 사람들의 의견을 반영할 수 있음.
- 단점: 설문에 응답하는 사람들의 수가 많더라도 응답의 신뢰성과 응답자 성실성에 의존하기 때문에 질적인 한계가 있을 수 있음.
빅데이터 분석
- 장점: 빅데이터 분석은 광범위한 사용자 행동과 상호작용 데이터를 실시간으로 수집할 수 있으며, 사용자 그룹 간의 행동 패턴을 대규모로 분석할 수 있음. 특히, 실제 사용 환경에서의 데이터가 포함되어 있어 현실적인 인사이트를 도출할 수 있음.
- 단점: 빅데이터는 방대한 데이터 처리를 요구하므로 전문적 기술과 인프라가 필요. 또한, 데이터의 정확성과 품질을 보장하기 어려울 수 있음.

2. 분석의 정밀도 및 인과관계 도출

실험
- 장점: 실험은 독립 변수와 종속 변수를 명확히 설정하여 (연구 설계가 제대로 되었다면) 인과관계를 명확히 도출할 수 있음. 변수 조작이 가능하기 때문에 결과에 대한 해석이 명확한 편.
- 단점: 실험 환경이 통제된 상황에서 이루어지기 때문에 실제 사용 환경과는 다를 수 있으며, 실험의 외적 타당도가 떨어질 수 있음.
설문조사
- 장점: 설문은 사용자의 주관적 경험이나 태도에 대한 깊이 있는 정보를 얻는 데 적합. 다양한 의견을 수집함으로써 정성적인 인사이트를 도출할 수 있음.
- 단점: 설문조사 결과만으로는 명확한 인과관계를 도출하기 어려움. 응답자의 주관적 인식과 실제 행동이 다를 수 있기 때문.
빅데이터 분석
- 장점: 빅데이터 분석을 통해 실제 사용자 행동을 기반으로 패턴과 상관관계를 도출할 수 있으며, 정밀한 예측 모델을 만들 수 있음. 대규모 데이터를 통해 변수 간의 관계를 자동으로 분석하고, 예상치 못한 인사이트를 발견할 수 있음.
- 단점: 빅데이터는 상관관계를 잘 도출하지만, 인과관계를 직접적으로 도출하기 어려울 수 있음. 추가적인 실험이나 분석이 필요할 수도 있음.

3. 비용 및 효율성

실험
- 장점: 연구 목적에 맞는 특정 변수를 제어하여 효율적으로 데이터를 수집할 수 있음. 데이터의 품질이 높기 때문에 작은 규모로도 유의미한 결과를 얻을 수 있음.
- 단점: 실험 환경을 구축하고, 참여자를 모집하며, 데이터를 분석하는 데 많은 시간과 비용이 소요. 특히 대규모 실험을 진행할 경우 상당한 자원이 필요.
설문조사
- 장점: 설문조사는 상대적으로 저렴한 비용으로 대규모 데이터를 수집할 수 있음. 특히 온라인 설문 플랫폼을 활용하면 시간과 비용을 절약할 수 있음.
- 단점: 설문조사 자체는 효율적이지만, 설문 설계가 잘못되거나 응답자들이 성실하지 않다면 데이터의 품질이 떨어질 수 있음.
빅데이터 분석
- 장점: 기존에 축적된 데이터를 사용하면 추가적인 비용 없이 방대한 데이터를 분석할 수 있음. 이미 수집된 데이터에서 실시간 분석이 가능하여 신속한 의사결정에 도움을 줄 수 있음.
- 단점: 빅데이터 분석을 시작하기 위해서는 데이터 수집 인프라와 전문가가 필요하며, 초기 구축 및 유지 비용이 매우 높을 수 있음.

실험, 설문조사, 빅데이터 분석은 각각의 장단점이 뚜렷하며, 연구 목적과 상황에 따라 적합한 방법을 선택하거나 상호 보완적으로 활용할 수 있음.

실험은 인과관계를 명확하게 밝히고 정밀한 통제를 가능하게 하지만, 시간과 비용이 많이 들며 대규모로 확대하기 어려움
설문조사는 비용 효율적이고 대규모 데이터를 수집할 수 있지만, 주관적 응답에 의존하기 때문에 신뢰성과 인과관계 분석에 한계가 있음
빅데이터 분석은 실제 사용자 데이터를 기반으로 대규모 패턴 분석이 가능하지만, 인과관계 도출이 어려우며 초기 인프라 구축 비용이 많이 들어감

통계학 기반 연구 디자인

“실험이 끝난 후에야 통계학자를 찾는 것은, 이미 죽은 환자를 부검해 달라고 부탁하는 것과 같다. 그는 아마도 실험이 왜 죽었는지 말해줄 수 있을 뿐이다.” by Ronald Fisher

연구 설계 단계에서부터 통계적 사고를 반영해야 함: 실험을 다 끝내고 나서야 분석 방법을 고민하면, 그 결과가 이미 한계에 부딪힌 상태일 수 있음.

가장 먼저 이해해야 할 것은 데이터 수집을 일종의 측정(measurement)으로 생각할 수 있다는 것. 즉, 우리가 여기서 하려는 것은 인간의 행동이나 인간의 마음에 대한 무언가를 측정(measure)하는 것. “측정”이란 무엇을 의미할까?

Measurement

연구에서 우리가 하는 일은 결국 어떤 개념을 수치나 분류로 표현하는 것. 이것이 바로 측정(measurement)

My age is 33 years.
I do not like anchovies.
My chromosomal gender is male.
My self-identified gender is male.

측정의 미묘함: ’나이’의 사례

겉보기에 단순해 보이는 나이조차, 어떻게 정의하느냐에 따라 다른 결과가 나오기도 함.
- 보통: 출생 이후의 시간(예: 25세)
- 발달 심리학: 아동은 ‘년;월(예: 2;11)’ 단위로 측정 → 발달 단계 구분을 더 정밀하게 반영
- 신생아 연구: 출생 이후 일수·시간 단위로 측정
- 생물학적 관점: 수정 이후 경과 시간으로 계산 → 조산/만산 아기의 발달 비교에서 더 의미 있을 수 있음
예를 들어,
- 아기 하임이는 3주 일찍 태어났고
- 아기 하운이는 1주 늦게 태어났다고 하자.
둘 다 “출생 후 2시간”이라면 같은 나이라고 볼 수 있을까?
- 사회적으로는 그렇다고 하겠지만, 생물학적 발달 상태를 연구한다면 그렇지 않을 수도 있음.

측정 방법은 어떻게 정할까?

어떤 방식으로 “나이”를 물을지는 연구 목적에 따라 달라짐
- 자기보고: “당신은 몇 살 입니까?”
- 부모 보고: “자녀 A의 나이는 몇 살입니까?”
- 공식 기록: 출생 신고일, 병원 진단서 등
즉, 동일한 개념(나이)이라도 연구 맥락과 분석 목적에 따라 다른 방식으로 operationalize(구체화)할 수 있다는 것.

Groseries to check!

A theoretical construct. This is the thing that you’re trying to take a measurement of, like “age”, “gender” or an “opinion”. A theoretical construct can’t be directly observed, and often they’re actually a bit vague.
A measure. The measure refers to the method or the tool that you use to make your observations. A question in a survey, a behavioural observation or a brain scan could all count as a measure.
An operationalisation. The term “operationalisation” refers to the logical connection between the measure and the theoretical construct, or to the process by which we try to derive a measure from a theoretical construct.
A variable. Finally, a new term. A variable is what we end up with when we apply our measure to something in the world. That is, variables are the actual “data” that we end up with in our data sets.

Scales of measurement

But not all variables are of the same qualitative type, and it’s very useful to understand what types there are. A very useful concept for distinguishing between different types of variables is what’s known as scales of measurement.

Nominal scale

명목 척도 변수(범주형 변수라고도 함, categorical variable)는 다양한 가능성 간에 특별한 관계가 없는 변수.
- 그 중 하나가 다른 변수보다 “더 크거나” “더 낫다”고 말하는 것은 말이 되지 않으며, 평균을 내는 것도 전혀 말이 되지 않는다.
- 전형적인 예는 “눈 색깔”. 눈은 파란색, 초록색, 갈색 등 여러 가지 가능성이 있지만, 그 중 어느 것도 다른 변수보다 “더 나은” 것은 아님.
- 성별도 명목적. 남성이 여성보다 더 좋거나 나쁘지 않으며, “평균 성별”에 대해 이야기하는 것도 말이 되지 않기 때문.

Suppose I was doing research on how people commute to and from work. One variable I would have to measure would be what kind of transportation people use to get to work. This “transport type” variable could have quite a few possible values, including: “train”, “bus”, “car”, “bicycle”, etc. For now, let’s suppose that these four are the only possibilities, and suppose that when I ask 100 people how they got to work today, and I get this:

Transportation	Number of people
(1) Train	12
(2) Bus	30
(3) Car	48
(4) Bicycle	10

So, what’s the average transportation type?
Similarly, notice that the order in which I list the options isn’t very interesting

Ordinal scale

순서형 척도 변수는 명목형 척도 변수보다 구조가 조금 더 있지만 크게 다르지는 않다. 순서형 척도 변수는 다양한 가능성을 자연스럽고 의미 있게 정렬할 수 있는 방법이 있음
순서형 변수의 일반적인 예는 “경주에서 마무리하는 순위”. 1위를 차지한 사람이 2위를 차지한 사람보다 더 빨랐다고 말할 수 있지만 얼마나 더 빨랐는지는 알 수 없음.
결과적으로 1위 > 2위, 2위 > 3위라는 것을 알 수 있지만 1위와 2위의 차이는 2위와 3위의 차이보다 훨씬 클 수 있음.

심리적으로 더 흥미로운 예를 들어보면, 연구에서 사람들의 기후 변화에 대한 태도에 관심이 있다고 가정하고, 설문 응답자들에게 다음 네 가지 진술 중 자신의 신념과 가장 일치하는 것을 선택하라고 요청하였다.

Temperatures are rising, because of human activity
Temperatures are rising, but we don’t know why
Temperatures are rising, but not because of humans
Temperatures are not rising

위 네 가지 진술은 실제로 “현재 과학에 동의하는 정도”라는 측면에서 자연스러운 순서가 있다. 진술 1은 거의 일치하고, 진술 2는 적당히 일치하고, 진술 3은 잘 일치하지 않으며, 진술 4는 과학에 강하게 반대. 따라서 연구자가 관심 있는 것(사람들이 과학을 지지하는 정도)의 측면에서 항목을 1 > 2 > 3 > 4로 정렬할 수 있음.

과학적 합의와 거의 일치
온난화는 인정하지만 원인에 대해 중립적
온난화는 인정하지만 원인에 대해 과학과 불일치
온난화 자체를 부정 (강한 불일치)

그런데 순서를 뒤섞으면?

만약 문항을 이렇게 배치한다고 해보자:

Temperatures are rising, but not because of humans
Temperatures are rising, because of human activity
Temperatures are not rising
Temperatures are rising, but we don’t know why

여기서는 1–2–3–4의 자연스러운 흐름이 깨짐: 응답자가 보기에 “논리적 구조”가 불명확해져서 헷갈릴 수 있음 → 마치 “매우 동의한다, 조금 동의한다, 전혀 동의하지 않는다, 어느 정도 동의한다” 같은 이상한 순서로 선택지를 배열한 셈이 되기 때문.

Interval scale

명목형 및 순서형 척도 변수와 달리 간격 척도 (interval scale) 및 비율 척도 변수 (ratio scale variable) 는 숫자 값이 진정으로 의미 있는 변수.
간격 척도 변수의 경우 숫자 간의 차이는 해석 가능하지만 변수에는 “자연스러운” 0 (natural zero)값이 없다.
간격 척도 변수의 좋은 예: 섭씨 온도.
- 예를 들어 어제가 15도 였고 오늘은 18도 였다면 두 값 사이의 3도 차이는 진정으로 의미가 있음. 게다가 그 3도 차이는 7도 와 10도 사이의 3도 차이와 정확히 같다. 간단히 말해 간격 척도 변수의 경우 덧셈과 뺄셈이 의미가 있다고 할 수 있다.
- 그러나 0도가 “온도가 전혀 없음”을 의미하는 것이 아니라는 점에 유의. 실제로는 “물이 얼 때의 온도”를 의미하는데, 이는 매우 임의적인 것.
- 결과적으로 온도를 곱하거나 나누는 것은 무의미해짐. 20도 가 10도 보다 두 배 더 뜨겁다고 말하는 것은 잘못된 것이며, 20도 가 -10도 보다 -2배 더 뜨겁다고 주장하는 것도 이상하고 무의미함.

Ratio scale

비율 척도 변수에서 0은 실제로 0을 의미하며 곱하고 나누어도 됨.
비율 척도 변수의 좋은 심리학적 예는 응답 시간(RT).
- 많은 작업에서 누군가가 문제를 해결하거나 질문에 답하는 데 걸리는 시간을 기록하는 것은 매우 일반적. 이는 작업의 어려움을 나타내는 지표이기 때문.
- Alan이 질문에 답하는 데 2.3초가 걸리는 반면 Ben은 3.1초가 걸린다고 가정해 보자. 간격 척도 변수와 마찬가지로 덧셈과 뺄셈은 여기에서 모두 의미가 있음. Ben은 실제로 Alan보다 3.1 - 2.3 = 0.8초 더 걸렸음.
- 그러나 곱셈과 나눗셈도 여기에서 의미가 있습니다. Ben은 Alan보다 질문에 답하는 데 3.1 / 2.3 = 1.35배 더 오래 걸렸습니다. 그리고 이렇게 할 수 있는 이유는 RT와 같은 비율 척도 변수의 경우 “0초”는 실제로 “시간이 전혀 없음”을 의미하기 때문.

Continuous versus discrete variables

A continuous variable is one in which, for any two values that you can think of, it’s always logically possible to have another value in between. A discrete variable is, in effect, a variable that isn’t continuous. For a discrete variable, it’s sometimes the case that there’s nothing in the middle.

어렵다면: 그래서 중간이 있는거야 없는거야? 라고 물어보자!

이러한 정의는 약간 추상적으로 보일 수 있지만 몇 가지 예를 보면 매우 간단함.
- 예를 들어, 응답 시간은 연속적입니다. Alan이 질문에 응답하는 데 3.1초가 걸리고 Ben이 2.3초가 걸리면 Cameron의 응답 시간은 3.0초가 걸려서 그 사이에 있을 수 있음. 물론 David가 응답하는 데 3.031초가 걸릴 수도 있으므로 그의 RT는 Cameron과 Alan 사이에 있을 것.
- 실제로 RT를 그렇게 정확하게 측정하는 것은 불가능할 수 있지만, 원칙적으로는 확실히 가능. 우리는 항상 다른 두 RT 사이에 새로운 RT 값을 찾을 수 있기 때문에 RT가 연속적이라고 할 수 있음.
이 규칙을 위반하면 이산 변수가 발생.
- 예를 들어, 명목 척도 변수는 항상 이산적. 기차와 자전거 사이에 있는 교통 수단은 없음. 따라서 교통 수단 유형은 이산적.
- 마찬가지로 순서 척도 변수는 항상 이산적. “2위”가 “1위”와 “3위” 사이에 있지만, 논리적으로 “1위”와 “2위” 사이에 있을 수 있는 것은 없기 때문.
- 간격 척도와 비율 척도 변수는 어느 쪽으로든 갈 수 있다. 위에서 보았듯이 반응 시간(비율 척도 변수)은 연속적. 섭씨 온도(간격 척도 변수)도 연속적. 그러나 학교에 다닌 해(간격 척도 변수)는 이산적. 2002년과 2003년 사이에는 년도 구분이 없기 때문.
- 참/거짓 테스트(비율 척도 변수)에서 정답을 맞힌 문제의 수도 이산적. (5/10과 6/10 사이에는 아무것도 없다). 참/거짓 문제는 “부분적으로 옳을” 수 없기 때문에 이산적.

아래 표의 체크 표시는 가능성을 나타낸 것

	continuous	discrete
nominal		✓
ordinal		✓
interval	✓	✓
ratio	✓	✓

Some complexities - 리커트 척도의 애매함

현실의 데이터는 교과서처럼 깔끔하지 않음. 변수들이 항상 명확히 “명목형, 순서형, 간격형, 비율형” 중 하나에만 딱 맞아떨어지는 건 아니기 때문. 연구자는 이 분류 체계를 절대적인 규칙이 아니라 ‘실무적 잣대’ 정도로 이해할 필요가 있음. (뭣이 중한디..)

심리학에서의 고전적인 예: 리커트 척도

리커트 척도는 설문 연구에서 가장 흔히 쓰이는 도구. 예를 들어 이런 질문이 있다고 해보자:

“모든 해적은 멋지다”라는 주장에 대해 당신의 의견은?

응답을 5점 리커트 척도로 받으면:

Strongly disagree
Disagree
Neither agree nor disagree
Agree
Strongly agree

전형적인 5점 리커트 척도.

문제: 리커트 척도는 어떤 변수인가?

명목형은 아님: 항목에 자연스러운 순서가 있음.
비율형도 아님: “0”이라는 절대적 기준이 없음.
남는 건 순서형 vs 간격형

순서형(Ordinal)으로 볼 때

“강력히 동의” > “동의” > “중립” > “동의 안 함” > “강력히 동의 안 함”
순서는 명확
하지만 각 단계 사이 간격이 같은지는 보장할 수 없음
- “강력히 동의 ↔︎ 동의” 간 차이와
- “동의 ↔︎ 중립” 간 차이가 같다고 말할 근거는 없음.

간격형(Interval)처럼 쓸 때

실제 응답자들은 이 척도를 숫자 1~5점처럼 다루는 경향이 있음.
연구자도 편의상 이걸 평균 내고, t-test·회귀분석 등에 넣기도 함. (나도 많은 연구에서 그렇게 했음)
엄밀히는 간격형이 아니지만, “준간격척도(quasi-interval)”처럼 다룰 수 있을 만큼 현실에서는 충분히 유용.
리커트 척도 데이터는 순서형이 원칙이지만, 많은 연구자들은 분석의 편의성을 위해 간격형에 가깝다고 보고 활용하고 있음.
논문에서 리커트 척도를 쓸 때는 → “본 연구에서는 리커트 척도를 간격형 변수처럼 다루었다”고 밝혀주는 것이 안전함.

Assessing the reliability of a measurement

위에서 우리는 이론적 구성을 작동화하고 심리적 측정을 만드는 방법에 대해 생각해 보았음. 그리고 심리적 측정을 적용하면 여러 유형으로 나타날 수 있는 변수가 생긴다는 것을 알게 되었음.

그렇다면, 측정이 유용한가? (Is the measurement any good?)

이 논의는 신뢰성(reliability)과 타당성(validity)이라는 두 가지 관련 아이디어의 관점에서 살펴봐야 함.

측정의 신뢰성은 무언가를 얼마나 정확하게 측정하는지 알려주는 반면, 측정의 타당성은 측정이 얼마나 정확한지 알려주는 것.

신뢰성은 실제로 매우 간단한 개념: 측정의 반복성(repeatability) 또는 일관성(consistency)을 말한다.
- 높은 신뢰성: “욕실 저울”을 사용하여 제 체중을 측정하는 것은 매우 신뢰할 수 있다. 저울에 계속해서 올라타고 내려도 저울은 같은 답을 줄 것이다.
- 낮은 신뢰성: “엄마한테 물어봐서” 내 지능을 측정하는 것은 매우 신뢰할 수 없다. 어떤 날은 내가 좀 둔하다고 말하고, 다른 날은 내가 완전히 멍청하다고 말한다.
타당성: 이 신뢰성의 개념은 측정이 정확한지 여부에 대한 질문과는 다르다. 내가 감자 자루를 들고 욕실 저울에 오르내릴 때에도 측정은 여전히 신뢰할 수 있다. 항상 같은 답이 나올 것이기 때문이다. 그러나 이 신뢰할 수 있는 답은 내 실제 체중과 전혀 맞지 않으므로 틀렸다. 즉, 기술적으로 말하면, 이것은 신뢰할 수 있지만 타당하지 않은 측정이라고 할 수 있다.

그렇다면, 신뢰성을 측정할 수 있는 다양한 방법에 대해 생각해 보자.

Test-retest reliability. This relates to consistency over time: if we repeat the measurement at a later date, do we get a the same answer?
Inter-rater reliability. This relates to consistency across people: if someone else repeats the measurement (e.g., someone else rates my intelligence) will they produce the same answer?
Parallel forms reliability. This relates to consistency across theoretically-equivalent measurements: if I use a different set of bathroom scales to measure my weight, does it give the same answer?
Internal consistency reliability. If a measurement is constructed from lots of different parts that perform similar functions (e.g., a personality questionnaire result is added up across several questions) do the individual parts tend to give similar answers.

The “role” of variables: predictors and outcomes

일반적으로 연구를 하면 다양한 변수가 많이 나온다. 그런 다음 데이터를 분석할 때 일반적으로 다른 변수의 관점에서 일부 변수를 설명하려고 한다. “설명하는 것”과 “설명되는 것”의 두 역할을 구분하는 것이 중요함.

분석에서, X 와 Y 에 익숙해져야 함: 분석에서 서로 다른 역할을 하기 때문.
독립 변수(IV)와 종속 변수(DV)
- IV는 설명을 위해 사용하는 변수(예: X )이고 DV는 설명되는 변수(예: Y ).
- 어원: X 와 Y 사이에 실제로 관계가 있다면 Y 가 X 에 의존(종속)한다고 말할 수 있고, 연구를 “적절하게” 설계했다면 X 가 다른 어떤 것에도 의존하지 않는다(독립).
- 하지만 IV는 실제로 “다른 모든 것과 독립적이지” 않고 (b) 관계가 없다면 DV가 실제로 IV에 의존하지 않는다.
- 대안: 예측 변수와 결과 변수. X (예측 변수)를 사용하여 Y (결과)에 대한 추측을 하는 것

role of the variable	classical name	modern name
to be explained	dependent variable (DV)	outcome
to do the explaining	independent variable (IV)	predictor

Experimental and non-experimental research

Experimental research

실험 연구의 주요 특징은 연구자가 연구의 모든 측면, 특히 연구 중에 참가자가 경험하는 것을 제어한다는 것. 특히 연구자는 예측 변수(IV)를 조작하거나 변경한 다음 결과 변수(DV)가 자연스럽게 변하도록 한다.
여기서 아이디어는 예측 변수(IV)를 의도적으로 변경하여 결과에 인과 관계가 있는지 확인하는 것. 또한 예측 변수 이외의 다른 것이 결과를 일으킬 가능성이 없도록 하기 위해 다른 모든 것은 일정하게 유지되거나 다른 방식으로 “균형”을 이루어 결과에 영향을 미치지 않도록 해야 한다.
실제로 실험 결과에 영향을 미칠 수 있는 다른 모든 것을 생각하는 것은 거의 불가능하며, 더군다나 일정하게 유지하는 것은 더욱 불가능하다.
이에 대한 표준 솔루션은 무작위화 (randomization).
- 즉, 사람들을 무작위로 다른 그룹에 할당한 다음 각 그룹에 다른 처리를 제공하는 것(즉, 예측 변수의 다른 값을 할당).
- 무작위화는 예측 변수를 처리 하는 일이 그룹 간에 체계적인 차이가 있을 가능성을 최소화하는 것(물론 없앨 수는 없음).
매우 간단하고 완전히 비현실적이며 극도로 비윤리적인 예를 생각해 보자.
- 흡연이 폐암을 유발하는지 알아보고 싶다고 가정해 보자.
- 이를 위한 한 가지 방법은 흡연자와 비흡연자를 찾아 흡연자의 폐암 발병률이 더 높은지 확인하는 것.
  - 이는 연구자가 흡연자와 비흡연자를 통제할 수 없기 때문에 적절한 실험이 아님
  - 예를 들어, 담배를 피우기로 선택한 사람들은 식단이 좋지 않거나 석면 광산에서 일하는 경향이 있을 수 있음.
  - 여기서 요점은 그룹(흡연자와 비흡연자)이 흡연뿐만 아니라 실제로 많은 면에서 다르다는 것.
  - 따라서 흡연자 사이에서 폐암 발병률이 높은 것은 흡연 자체가 아닌 다른 요인 때문일 수 있음.
  - 기술적으로 이러한 다른 요인(예: 식단)을 “혼동 요인(confounding factors)”이라고 함.
- 적절한 실험이라면?
  - 윤리적인 실험을 할 필요가 없다면 해결책은 누가 흡연하고 누가 흡연하지 않는지 통제하는 것.
  - 구체적으로, 참가자를 무작위로 두 그룹으로 나누고 그 중 절반을 흡연자로 만든다면, 절반이 흡연한다는 사실 외에는 그룹이 어떤 면에서든 다를 가능성이 매우 낮다.
  - 그렇게 하면 흡연 그룹이 비흡연 그룹보다 암에 걸릴 확률이 더 높다면 흡연이 암을 유발한다고 더 명확하게 말할 수 있는 것.

Non-experimental research

비실험적 연구는 “연구자가 실험에서만큼 통제력이 없는 모든 연구”를 포괄하는 광범위한 용어.
분명히 과학자들은 통제력을 갖고 싶어하지만, 이전 예에서 알 수 있듯이 통제력을 얻으려고 시도할 수 없거나 시도해서는 안 되는 상황이 많이 있음.
- 암에 걸리는지 알아보기 위해 사람들에게 흡연을 강요하는 것은 매우 비윤리적이고(거의 확실히 범죄) 실험적 통제력을 얻으려고 시도해서는 안 되는 상황의 좋은 예
- 하지만 윤리적 문제를 제쳐두더라도 “흡연 실험”에는 몇 가지 다른 문제가 있음.
- 예를 들어, 절반의 사람들을 흡연자로 “강제”하자고 제안했을 때, 비흡연자 샘플로 시작해서 흡연자가 되도록 강요하는 것에 대해 이야기했을 것.
- 이것은 미친 과학자가 좋아할 만한 사악한 실험 설계처럼 들리지만, 현실 세계에서 그 효과를 조사하는 데는 그다지 타당한 방법이 아닐 수 있음.
- 예를 들어, 흡연은 사람들이 나쁜 식단을 먹을 때만 폐암을 유발한다고 가정하고, 일반적으로 흡연하는 사람들은 나쁜 식단을 먹는 경향이 있다고 가정하자.
- 하지만 우리 실험에서 “흡연자”는 “자연적인” 흡연자가 아니기 때문에(즉, 우리는 비흡연자를 흡연자가 되도록 강요했기 때문에 흡연자가 가질 수 있는 다른 모든 정상적이고 실제적인 특성을 가지고 있지 않았다).
- 따라서 아마도 자연적인 흡연자보다 강요된 흡연자는 더 나은 식단을 먹을 것. 아마도 이 처치 그룹은 폐암에 걸릴 확률이 대조 그룹과 크게 다르지 않을 것이고, 우리의 실험은 “자연적인” 세계의 구조를 위반하기 때문에 실패할 것(“Artificial” result).
준실험적 연구(Quasi-experimental Study)와 사례 연구(Case Study)
- 앞서 실험 연구에서 잘못되 예로 논의한 예는 흡연자와 비흡연자의 폐암 발생률을 조사하고자 했지만, 누가 흡연하고 누가 흡연하지 않는지 통제하려고 하지 않았다.
  - 이것은 준실험적 설계라고 볼 수 있다. 즉, 실험과 동일하지만 예측 변수(IV)를 제어하지 않은 것. 여전히 통계를 사용하여 결과를 분석할 수 있지만 훨씬 더 조심해야 함.
- 대안적인 접근 방식인 사례 연구는 하나 또는 몇 가지 사례에 대한 매우 자세한 설명을 제공하는 것을 목표로 한다.
  - 일반적으로 통계를 사용하여 사례 연구의 결과를 분석할 수 없으며 몇 가지 고립된 사례에서 “일반인”에 대한 일반적인 결론을 도출하는 것은 일반적으로 매우 어렵다.
  - 사례 연구가 유용한 순간은, 첫째, 대안이 없는 상황. 때로는 특정 영역에서 뇌 손상을 입은 사람을 많이 찾을 수 없으므로 할 수 있는 일은 가능한 한 자세하고 세심하게 사례를 설명하는 것뿐.
  - 그러나 사례 연구에는 몇 가지 진정한 이점도 있음. 연구할 사람이 많지 않기 때문에 각 사례에서 작용하는 특정 요소를 이해하기 위해 많은 시간과 노력을 투자하게 된다. (깊이 있는 연구가 가능 like documentary)
  - 결과적으로 사례 연구는 실험 및 준실험 설계에서 볼 수 있는 통계 지향적 접근 방식을 보완할 수 있다.

프로그래밍 언어

Data

인간은 데이터를 수집하고 결합하여 분석을 하는 작업을 태어날 때부터 수행.
- 우리가 사용할 수 있는 모든 감각 기관을 통해서 수집한 데이터는 뇌에 저장되고 처리되고 이러한 과정을 통하여 인간은 예측하고 결정하며 행동.
- 이러한 인간의 능력을 컴퓨터로 구현하려는 학문이 기계학습(machine learning)과 인공지능(Artifical intelligence).
우리가 느끼고 보고 듣는 것들이 어떻게 인간의 뇌에 저장되는지는 여전히 Blackbox
- 하지만 우리는 다양한 자료를 컴퓨터에 저장할 수 있는 방법을 만들었고 이를 통상적으로 데이터(data)라고 부름
- 특별히, 우리가 현재 말하는 데이터는 디지털화된 자료 로서 기본적으로 0과 1로, 즉 BIT 로 이루어진 자료.
- IT 기술은 단순한 0과 1의 조합으로 다양한 데이터를 아주 많이 그리고 편리하게 저장할 수 있게 해 주었음.

Programming language

Language is a communication

사람들은 언어를 통하여 자신의 의사를 전달하고 타인의 생각을 이해하며 서로 소통함
- 언어를 이용하여 상대방에 자신이 원하는 일을 시킬 수 있고 또한 언어를 통하여 자신의 생각과 수행한 일을 다른 사람에게 설명할 수 있음.
- 인간과 인간을 연결해주는 언어는 수 천 가지 종류가 있고(예를 들어 한국어, 영어, 일본어, 독일어 등) 언어를 표현하는 문자(writing system)와 문자들을 배열하는 규칙인 문법(grammar)이 있음.
- 예를 들어 우리는 영어를 사용하는 사람들과 소통하기 위하여 영어 단어를 외우고 문법을 익혀서 말하고 듣고 읽어서 의사를 전달하고 여러 가지 다양한 일을 수행.
프로그래밍 언어는 컴퓨터와 소통하기 위해서 개발된 언어
- 프로그래밍 언어도 인간 사이의 언어와 같이 언어를 구성하는 단어도 있으며 문법도 존재.
- 인간 사이의 언어 소통에서 단어를 잘못 선택하거나 문법이 틀리면 소통이 어려운 것과 마찬가지로 컴퓨터와 소통하는 경우에도 선택된 프로그래밍 언어의 단어와 문법에 맞게 사용해야 오류 없이 소통할 수 있음.
- 프로그래밍 언어도 인간의 언어와 마찬가지로 하나만 있는 것이 아님. 가장 초기에 나온Fortran 언어가 있고 그 이후에 C, Lisp, JAVA, R 등 매우 많은 언어가 개발됨.
- 이렇게 많은 프로그래밍 언어들 중에 무엇을 배울지 선택하는 것은 어렵지만 많이 사용되는 언어를 배우면 여러 면에서 편리한 것처럼 프로그래밍 언어도 마찬가지일 것.

Activity

사례 A (VR 연구)
VR 환경에서 그래픽 품질(고해상도 vs 저해상도) 이 사용자의 몰입감에 어떤 영향을 주는가?

사례 B (모바일 앱 UI 연구)
스마트폰 앱에서 버튼 크기(작게 vs 크게) 와 색상 대비(낮음 vs 높음) 가 작업 수행 시간 및 오류율에 미치는 영향은 무엇인가?

사례 C (음성 인터페이스 연구)
스마트 스피커에서 음성 인식 정확도(높음 vs 낮음) 와 응답 지연 시간(짧음 vs 김) 이 사용자 만족도에 어떤 차이를 만드는가?

Q1. 각 사례에서 독립변수(IV)와 종속변수(DV)는 무엇인가요?
Q2. 이 연구에 숨겨진 통제 변수(Control Variable)는 무엇이 있을까요? (예: VR 연구에서 사용자의 게임 경험 수준, 앱 연구에서 화면 크기 등)
Q3. 만약 여러분이 이 연구를 설계한다면 측정 방법을 어떻게 operationalize 하시겠습니까? (예: 몰입감 = 설문 척도, 오류율 = 시스템 로그, 만족도 = 리커트 척도 등)

내가 자주 쓰는 앱/디지털 서비스를 하나 골라 IV와 DV를 설정해보고, 짧게 실험 시나리오를 공유해보자.

시나리오 예시
- 앱: 인스타그램
- IV: 피드 알고리즘 (시간순 vs 추천순)
- DV: 사용자가 머무는 시간, 포스트 좋아요 수
- 통제 변수: 사용자의 팔로워 수, 인터넷 속도