실험, 인과추론 (Experiments & Causal Inference)

이 변화가 진짜로 결과를 움직였는가, 를 측정하는 도구들

어트리뷰션 (Attribution)이 과거를 측정하는 일이라면, 인과추론은 변화를 의사결정하는 일에 가까움.

왜 인과추론인가

상관이랑 인과는 다름

흔한 함정:

광고비를 늘렸더니 매출이 늘었음” → 광고비 효과? 아니면 시즌 효과?
푸시 받은 유저가 결제를 더 많이 함 → 푸시 효과? 아니면 원래 활성 유저가 푸시 알림도 켜놓은 것?
이 크리에이티브가 ROAS 좋음 → 크리에이티브 자체? 아니면 그 크리에이티브가 받은 더 좋은 인벤토리?

반사실 (Counterfactual)

이상적 측정(같은 유저에게 광고를 보여준 시점의 결과와 안 보여준 시점의 결과 비교)는 불가능함.
대신 통계적으로 비슷한 두 집단을 만들어 한쪽엔 처치 (광고/이벤트/기능), 다른 쪽엔 미처치하고 결과를 비교함.

A/B 테스트 (Online Controlled Experiment)

기본 구조

유저를 랜덤으로 통제군 (Control) / 실험군 (Treatment) 분할
같은 기간, 같은 환경에서 다른 처치 적용
결과 (KPI) 비교

게임에서 자주 하는 A/B

튜토리얼: 길이, 스킵 가능 여부, 첫 보상
첫 페이월: 위치 (레벨 5 vs 레벨 10), 가격, 디자인
광고 노출 빈도: 세션당 RV 횟수
이벤트 보상: 일일 보상 가치, 출석 도장
UI 변경: 버튼 색, 위치, 메시지 카피
밸런싱: 난이도, 시간 비용
푸시 카피: 시간대, 메시지
가격: 패키지 가격, 보너스 비율

표본 크기와 통계적 검정

Effect Size (효과 크기): 검출하고 싶은 최소 차이. 예) D7 ROAS 30% → 32% (Δ = 2%p, 상대 6.7% 증가)
통계적 파워: 실제 효과가 있을 때 발견할 확률. 보통 0.8 (80%) 목표
유의 수준 (α): 귀무가설이 옳을 때 기각할 확률. 보통 0.05

표본 크기 근사식 (이항/평균 검정):

N_{per group} \approx \frac{16 σ ^{2}}{Δ ^{2}}

16은 power 80% / α = 5%의 근사
ROAS, ARPDAU 같은 long-tail 분포에서는 표본이 매우 커야 함. 캐주얼 게임 A/B 표본은 보통 몇만 ~ 수십만

Multivariate Testing (MVT)

여러 변수를 동시에 테스트. 예: (튜토리얼 길이) × (첫 패키지 가격) × (UI 색).

셀 수 폭발 (3 × 3 × 3 = 27셀). 각 셀에 충분한 표본 필요
보통은 주효과 + 1 ~ 2가지 상호작용까지만 의도적으로 검정

Sequential / Bayesian A/B

전통적 A/B: 사전 표본 크기 결정 후 한 번 검정
Sequential: 데이터가 쌓이는 동안 멈출 시점을 동적으로 결정 (multiple-testing 보정 필요)
Bayesian: posterior probability “treatment가 더 나을 확률”로 의사결정. 직관적

흔한 실패

Peeking: 결과를 자주 들여다보고 유의해 보일 때 멈춤. 실제 false positive 폭증
Underpowered: 표본이 작아 진짜 효과도 통계적으로 유의 안 보임
표본 누설 (SUTVA 위반): 통제군과 실험군이 서로 영향 (길드 같은 소셜 기능)
Survivorship bias: 분석 시점에 살아있는 유저만 봄
Novelty effect: UI 변경 직후 새로워서 효과가 나옴, 이후 사라짐

Best Practice

사전 등록 (pre-registration): 가설, KPI, 표본 크기, 분석 방법을 시작 전에 정의
Guard-rail metrics: 주 KPI 외에 보호 지표 (예: 결제 증가가 churn 증가를 동반하지 않는지)
Holdout / Negative Control: 처치를 반대 방향으로 한 그룹
Post-hoc segment analysis는 탐색용: 결론용이 아님

Incrementality (증분 효과)

Incrementality = (Treatment 결과) - (Control 결과)

Last-click은 어차피 인스톨 했을 유저에도 광고 크레딧을 부여함. Incrementality는 처치하지 않은 통제 집단과의 비교로 그 진짜 효과만 골라냄. 보통 incrementality 결과는 채널 자체 보고의 50 ~ 80% 수준 (즉, 채널 보고가 1.2 ~ 2배 부풀려진 셈).

테스트 종류 (Geo-lift / Holdout / Ghost Bidding / Switchback / Synthetic Control), Lift 계산식, Geo-lift 표준 절차, 게임 응용 5가지, 측정 비용까지 자세히는 Incrementality 참고.

MMM (Marketing Mix Modeling)

여러 채널 광고 지출과 외부 변수 (시즌, 가격, 경쟁사) 가 총매출에 미치는 영향을 회귀로 분해.

Sales (t) = β_{0} + i \sum β_{i} Spend_{i} (t) + γ Seasonality (t) + ε

ATT 이후 deterministic 어트리뷰션 신호가 약해지면서 큰 게임사들의 기준 신호가 last-click에서 MMM으로 옮겨가는 흐름이 진행 중. Adstock, Hill saturation, 도구 (Meridian, Robyn, PyMC-Marketing) 등 자세히는 MMM 참고.

Triangulation - 세 신호 결합

신호	강점	한계
Attribution (MMP)	일별, 캠페인 단위 빠른 신호	인과 X, last-click 과대평가
Incrementality	진짜 lift 정확 측정	비용 큼, 자주 못 함
MMM	장기, 전체 채널 균형	캠페인 디테일 불가

팁

세 신호가 비슷한 결론이면 신뢰. 다르면 원인 진단.

Long-tail 매출의 통계적 처리

매출은 멱법칙. 평균(mean)의 분산이 크고, 중심극한정리가 느리게 수렴.

A/B 테스트의 표본 크기 계산이 과소평가되기 쉬움

대처

Trimmed mean (상위 1% cap)
Log transform 후 t-test (다만 결과 해석이 변환됨)
Quantile regression (중앙값, 75/90 분위수의 차이)
Bootstrap CI

다중 비교 (Multiple Testing)

여러 segment를 post-hoc으로 보면 false positive 폭증.

대처
- Bonferroni 보정 (가장 보수적)
- FDR (False Discovery Rate) 보정 - Benjamini-Hochberg
- 사전 가설로 검정 분리

CUPED (Controlled-experiment Using Pre-Experiment Data)

A/B 테스트의 분산을 줄이는 기법.

아이디어

각 유저의 처치 전 행동 (예: 결제 이력) 을 covariate로 사용
결과에서 그 covariate의 효과를 빼면 잔차의 분산이 작아짐 → 표본 크기 효율 ↑

효과

일반적으로 분산 30 ~ 50% 감소
표본을 1/2로 해도 같은 power

구현

회귀:

KPI_{post} = α + β Treatment + γ KPI_{pre} + ε

$β$ 의 추정치가 분산 감소된 treatment 효과.

한계

pre-period가 충분히 길어야
신규 유저는 pre-data 없음 → 적용 어려움
게임에서는 기존 유저 대상 LiveOps A/B에 매우 유용. 신규 유저 onboarding 테스트엔 부적합

Bandits / Adaptive Allocation

동기

A/B 테스트는 모든 유저를 동등 확률로 분할 → 학습 종료까지 나쁜 처치를 받는 유저도 그대로.

Multi-Armed Bandit

각 처치 (arm) 의 보상을 추적
좋은 arm에 더 많은 트래픽 할당
ε-greedy / Thompson Sampling / UCB 등

게임에서의 활용

크리에이티브 자동 선별 (광고 채널들이 내부적으로 함)
패키지 가격 / 보너스 자동 최적화
푸시 카피 자동 선별

한계

결과의 통계적 신뢰 약함 (탐색 자체가 편향)
장기 효과 측정 어려움 - bandit은 단기 보상에 최적화

의사결정 컷 (실험)

표본 크기 / 검정력 추정 - 기획 단계
Effect size + CI - 결과 단계. p-value보다 효과 크기, 신뢰구간이 의사결정에 직접적
Segment별 효과 - 효과가 누구에게 나타났는가
Guard-rail 변화 - 의도한 KPI 외의 변화
Long-tail 매출 vs 평균 - 효과가 평균에서 와도 분포 변화는 없을 수도

플랫폼별 적용

위 추상 개념의 플랫폼별 적용은 분리 예정. 모바일 , Steam 안에서 동명 또는 인접 문서로 이어짐.

작성 중

모바일 적용: (작성 예정)

Steam 적용: (작성 예정)

함정

p < 0.05라서 뽑음: 효과 크기는 무시. 비즈니스적 의미 없는 차이일 수도
A/A test 안 함: 분할이 진짜로 균등한지 검증 안 함 (A/A: 같은 처치를 두 그룹에. 차이 0이어야 정상)
표본 누설: 친구, 길드 메커니즘이 control과 treatment 사이에 정보 흘림
너무 짧은 기간: 새로움 효과 / 시즌 효과로 해석 어려움
결과를 미리 보고 멈춤 (Peeking)
Segment 사후 발굴을 발견으로 착각: post-hoc segment는 가설이지 결론이 아님
MMM 결과를 100% 믿음: 모델링 가정에 매우 민감. Sensitivity analysis 필수

짧은 사례

Supercell의 A/B 문화

Brawl Stars 등은 출시 전 매우 광범위한 Soft launch + A/B. 게임의 튜토리얼, 캐릭터 밸런싱, 페이월까지 거의 모든 변수를 데이터 기반 실험으로 결정. Brawl Stars는 출시 전 약 17 ~ 18개월간 (캐나다, 핀란드 등 소프트런칭 약 522일) 카메라 시점, 모드 구성, 결제 모델 등 다양한 메커닉 변형을 단계적으로 A/B 검증한 것으로 알려져 있음.

MMM 전환 트렌드

ATT 이후 마케팅 측정의 기준 신호가 last-click에서 MMM으로 옮겨가는 흐름이 큰 게임사 중심으로 진행 중. 캠페인 단위 디테일은 어트리뷰션 (Attribution) 신호로 보조하고, 전체 매체 믹스 의사결정은 MMM으로 가져가는 이중 운영이 일반적.

Incrementality 사례 (Meta Conversion Lift Study, Geo-lift 한계, K-Factor Holdout) 는 Incrementality 의 짧은 사례 절 참고.

참고

Trustworthy Online Controlled Experiments - Ron Kohavi (Microsoft). A/B 테스트의 거의 모든 함정
Google CausalImpact / Meridian 문서, Meta Robyn, PyMC-Marketing
AppsFlyer Incrementality 가이드

탐색기

회고

일상

정원

실험, 인과추론 (Experiments & Causal Inference)

왜 인과추론인가

상관이랑 인과는 다름

반사실 (Counterfactual)

A/B 테스트 (Online Controlled Experiment)

기본 구조

게임에서 자주 하는 A/B

표본 크기와 통계적 검정

Multivariate Testing (MVT)

Sequential / Bayesian A/B

흔한 실패

Best Practice

Incrementality (증분 효과)

MMM (Marketing Mix Modeling)

Triangulation - 세 신호 결합

Long-tail 매출의 통계적 처리

대처

다중 비교 (Multiple Testing)

CUPED (Controlled-experiment Using Pre-Experiment Data)

아이디어

효과

구현

한계

Bandits / Adaptive Allocation

동기

Multi-Armed Bandit

게임에서의 활용

한계

의사결정 컷 (실험)

플랫폼별 적용

함정

짧은 사례

Supercell의 A/B 문화

MMM 전환 트렌드

참고

목차

백링크

그래프 뷰