이 변화가 진짜로 결과를 움직였는가, 를 측정하는 도구들
어트리뷰션 (Attribution)이 과거를 측정하는 일이라면, 인과추론은 변화를 의사결정하는 일에 가까움.
왜 인과추론인가
상관이랑 인과는 다름
흔한 함정:
- 광고비를 늘렸더니 매출이 늘었음” → 광고비 효과? 아니면 시즌 효과?
- 푸시 받은 유저가 결제를 더 많이 함 → 푸시 효과? 아니면 원래 활성 유저가 푸시 알림도 켜놓은 것?
- 이 크리에이티브가 ROAS 좋음 → 크리에이티브 자체? 아니면 그 크리에이티브가 받은 더 좋은 인벤토리?
반사실 (Counterfactual)
이상적 측정(같은 유저에게 광고를 보여준 시점의 결과와 안 보여준 시점의 결과 비교)는 불가능함.
대신 통계적으로 비슷한 두 집단을 만들어 한쪽엔 처치 (광고/이벤트/기능), 다른 쪽엔 미처치하고 결과를 비교함.
A/B 테스트 (Online Controlled Experiment)
기본 구조
- 유저를 랜덤으로 통제군 (Control) / 실험군 (Treatment) 분할
- 같은 기간, 같은 환경에서 다른 처치 적용
- 결과 (KPI) 비교
게임에서 자주 하는 A/B
- 튜토리얼: 길이, 스킵 가능 여부, 첫 보상
- 첫 페이월: 위치 (레벨 5 vs 레벨 10), 가격, 디자인
- 광고 노출 빈도: 세션당 RV 횟수
- 이벤트 보상: 일일 보상 가치, 출석 도장
- UI 변경: 버튼 색, 위치, 메시지 카피
- 밸런싱: 난이도, 시간 비용
- 푸시 카피: 시간대, 메시지
- 가격: 패키지 가격, 보너스 비율
표본 크기와 통계적 검정
- Effect Size (효과 크기): 검출하고 싶은 최소 차이. 예) D7 ROAS 30% → 32% (Δ = 2%p, 상대 6.7% 증가)
- 통계적 파워: 실제 효과가 있을 때 발견할 확률. 보통 0.8 (80%) 목표
- 유의 수준 (α): 귀무가설이 옳을 때 기각할 확률. 보통 0.05
표본 크기 근사식 (이항/평균 검정):
- 16은 power 80% / α = 5%의 근사
- ROAS, ARPDAU 같은 long-tail 분포에서는 표본이 매우 커야 함. 캐주얼 게임 A/B 표본은 보통 몇만 ~ 수십만
Multivariate Testing (MVT)
여러 변수를 동시에 테스트. 예: (튜토리얼 길이) × (첫 패키지 가격) × (UI 색).
- 셀 수 폭발 (3 × 3 × 3 = 27셀). 각 셀에 충분한 표본 필요
- 보통은 주효과 + 1 ~ 2가지 상호작용까지만 의도적으로 검정
Sequential / Bayesian A/B
- 전통적 A/B: 사전 표본 크기 결정 후 한 번 검정
- Sequential: 데이터가 쌓이는 동안 멈출 시점을 동적으로 결정 (multiple-testing 보정 필요)
- Bayesian: posterior probability “treatment가 더 나을 확률”로 의사결정. 직관적
흔한 실패
- Peeking: 결과를 자주 들여다보고 유의해 보일 때 멈춤. 실제 false positive 폭증
- Underpowered: 표본이 작아 진짜 효과도 통계적으로 유의 안 보임
- 표본 누설 (SUTVA 위반): 통제군과 실험군이 서로 영향 (길드 같은 소셜 기능)
- Survivorship bias: 분석 시점에 살아있는 유저만 봄
- Novelty effect: UI 변경 직후 새로워서 효과가 나옴, 이후 사라짐
Best Practice
- 사전 등록 (pre-registration): 가설, KPI, 표본 크기, 분석 방법을 시작 전에 정의
- Guard-rail metrics: 주 KPI 외에 보호 지표 (예: 결제 증가가 churn 증가를 동반하지 않는지)
- Holdout / Negative Control: 처치를 반대 방향으로 한 그룹
- Post-hoc segment analysis는 탐색용: 결론용이 아님
Incrementality (증분 효과)
Incrementality = (Treatment 결과) - (Control 결과)
Last-click은 어차피 인스톨 했을 유저에도 광고 크레딧을 부여함. Incrementality는 처치하지 않은 통제 집단과의 비교로 그 진짜 효과만 골라냄. 보통 incrementality 결과는 채널 자체 보고의 50 ~ 80% 수준 (즉, 채널 보고가 1.2 ~ 2배 부풀려진 셈).
테스트 종류 (Geo-lift / Holdout / Ghost Bidding / Switchback / Synthetic Control), Lift 계산식, Geo-lift 표준 절차, 게임 응용 5가지, 측정 비용까지 자세히는 Incrementality 참고.
MMM (Marketing Mix Modeling)
여러 채널 광고 지출과 외부 변수 (시즌, 가격, 경쟁사) 가 총매출에 미치는 영향을 회귀로 분해.
ATT 이후 deterministic 어트리뷰션 신호가 약해지면서 큰 게임사들의 기준 신호가 last-click에서 MMM으로 옮겨가는 흐름이 진행 중. Adstock, Hill saturation, 도구 (Meridian, Robyn, PyMC-Marketing) 등 자세히는 MMM 참고.
Triangulation - 세 신호 결합
| 신호 | 강점 | 한계 |
|---|---|---|
| Attribution (MMP) | 일별, 캠페인 단위 빠른 신호 | 인과 X, last-click 과대평가 |
| Incrementality | 진짜 lift 정확 측정 | 비용 큼, 자주 못 함 |
| MMM | 장기, 전체 채널 균형 | 캠페인 디테일 불가 |
팁
세 신호가 비슷한 결론이면 신뢰. 다르면 원인 진단.
Long-tail 매출의 통계적 처리
매출은 멱법칙. 평균(mean)의 분산이 크고, 중심극한정리가 느리게 수렴.
- A/B 테스트의 표본 크기 계산이 과소평가되기 쉬움
대처
- Trimmed mean (상위 1% cap)
- Log transform 후 t-test (다만 결과 해석이 변환됨)
- Quantile regression (중앙값, 75/90 분위수의 차이)
- Bootstrap CI
다중 비교 (Multiple Testing)
여러 segment를 post-hoc으로 보면 false positive 폭증.
- 대처
- Bonferroni 보정 (가장 보수적)
- FDR (False Discovery Rate) 보정 - Benjamini-Hochberg
- 사전 가설로 검정 분리
CUPED (Controlled-experiment Using Pre-Experiment Data)
A/B 테스트의 분산을 줄이는 기법.
아이디어
- 각 유저의 처치 전 행동 (예: 결제 이력) 을 covariate로 사용
- 결과에서 그 covariate의 효과를 빼면 잔차의 분산이 작아짐 → 표본 크기 효율 ↑
효과
- 일반적으로 분산 30 ~ 50% 감소
- 표본을 1/2로 해도 같은 power
구현
회귀:
의 추정치가 분산 감소된 treatment 효과.
한계
- pre-period가 충분히 길어야
- 신규 유저는 pre-data 없음 → 적용 어려움
- 게임에서는 기존 유저 대상 LiveOps A/B에 매우 유용. 신규 유저 onboarding 테스트엔 부적합
Bandits / Adaptive Allocation
동기
A/B 테스트는 모든 유저를 동등 확률로 분할 → 학습 종료까지 나쁜 처치를 받는 유저도 그대로.
Multi-Armed Bandit
- 각 처치 (arm) 의 보상을 추적
- 좋은 arm에 더 많은 트래픽 할당
- ε-greedy / Thompson Sampling / UCB 등
게임에서의 활용
- 크리에이티브 자동 선별 (광고 채널들이 내부적으로 함)
- 패키지 가격 / 보너스 자동 최적화
- 푸시 카피 자동 선별
한계
- 결과의 통계적 신뢰 약함 (탐색 자체가 편향)
- 장기 효과 측정 어려움 - bandit은 단기 보상에 최적화
의사결정 컷 (실험)
- 표본 크기 / 검정력 추정 - 기획 단계
- Effect size + CI - 결과 단계. p-value보다 효과 크기, 신뢰구간이 의사결정에 직접적
- Segment별 효과 - 효과가 누구에게 나타났는가
- Guard-rail 변화 - 의도한 KPI 외의 변화
- Long-tail 매출 vs 평균 - 효과가 평균에서 와도 분포 변화는 없을 수도
플랫폼별 적용
위 추상 개념의 플랫폼별 적용은 분리 예정. 모바일 , Steam 안에서 동명 또는 인접 문서로 이어짐.
작성 중
- 모바일 적용: (작성 예정)
- Steam 적용: (작성 예정)
함정
- p < 0.05라서 뽑음: 효과 크기는 무시. 비즈니스적 의미 없는 차이일 수도
- A/A test 안 함: 분할이 진짜로 균등한지 검증 안 함 (A/A: 같은 처치를 두 그룹에. 차이 0이어야 정상)
- 표본 누설: 친구, 길드 메커니즘이 control과 treatment 사이에 정보 흘림
- 너무 짧은 기간: 새로움 효과 / 시즌 효과로 해석 어려움
- 결과를 미리 보고 멈춤 (Peeking)
- Segment 사후 발굴을 발견으로 착각: post-hoc segment는 가설이지 결론이 아님
- MMM 결과를 100% 믿음: 모델링 가정에 매우 민감. Sensitivity analysis 필수
짧은 사례
Supercell의 A/B 문화
Brawl Stars 등은 출시 전 매우 광범위한 Soft launch + A/B. 게임의 튜토리얼, 캐릭터 밸런싱, 페이월까지 거의 모든 변수를 데이터 기반 실험으로 결정. Brawl Stars는 출시 전 약 17 ~ 18개월간 (캐나다, 핀란드 등 소프트런칭 약 522일) 카메라 시점, 모드 구성, 결제 모델 등 다양한 메커닉 변형을 단계적으로 A/B 검증한 것으로 알려져 있음.
MMM 전환 트렌드
ATT 이후 마케팅 측정의 기준 신호가 last-click에서 MMM으로 옮겨가는 흐름이 큰 게임사 중심으로 진행 중. 캠페인 단위 디테일은 어트리뷰션 (Attribution) 신호로 보조하고, 전체 매체 믹스 의사결정은 MMM으로 가져가는 이중 운영이 일반적.
Incrementality 사례 (Meta Conversion Lift Study, Geo-lift 한계, K-Factor Holdout) 는 Incrementality 의 짧은 사례 절 참고.
참고
- Trustworthy Online Controlled Experiments - Ron Kohavi (Microsoft). A/B 테스트의 거의 모든 함정
- Google CausalImpact / Meridian 문서, Meta Robyn, PyMC-Marketing
- AppsFlyer Incrementality 가이드