Showing Posts From

Maze

Maze 리포트를 보며 '어? 여기서?'라고 놀란 이유

Maze 리포트를 보며 '어? 여기서?'라고 놀란 이유

Maze 리포트를 보며 '어? 여기서?'라고 놀란 이유 오전 10시, Maze 리포트 출근하자마자 Maze 리포트를 열었다. 지난주에 돌린 프로토타입 테스트. 40명 참여. 결제 플로우 개선안이었다. 클릭 히트맵을 봤다. 85%가 '다음' 버튼을 찾았다. 평균 완료 시간 2분 30초. 만족도 4.2점. 나쁘지 않았다. "이 정도면 괜찮은데?" PM한테 공유하려고 슬랙을 열었다. 그런데 뭔가 걸렸다. 지난주 유저 인터뷰 내용이 떠올랐다. 32세 여성, 온라인 쇼핑 자주 한다는 사람. 프로토타입 테스트할 때 말했다. "어? 이거 결제하는 거 맞아요? 좀 이상한데..." 그 사람도 결국 완료했다. Maze 데이터에는 '성공'으로 찍혔을 거다. 근데 그 순간의 망설임. 3초 정도. 화면을 두 번 확인했던 것. 그게 데이터에는 안 보였다.정량 데이터가 말하는 것 Maze 리포트를 다시 봤다. 천천히. 태스크 성공률: 85%40명 중 34명이 완료 평균 완료 시간 2분 30초 오류 클릭 1.2회 평균히트맵 분석:'다음' 버튼 클릭률 92% '취소' 버튼 오인 클릭 8% 스크롤 깊이 평균 78%만족도:4.2/5점 "쉬웠다" 응답 72% "개선 필요" 응답 15%숫자만 보면 괜찮다. 85% 성공이면 업계 평균 이상이다. PM이 보면 "고(Go)" 할 수준. 근데 뭔가 찝찝했다. 15%는 왜 실패했지? 1.2회 오류 클릭은 어디서 나온 거지? Maze는 '어디를' 클릭했는지는 알려준다. '왜' 클릭했는지는 모른다. 커피를 마셨다. 세 번째였다.정성 리서치가 보여준 것 지난주 유저 인터뷰. 5명. 각 1시간씩. 참여자 3번, 32세 여성:프로토타입 완료 시간: 2분 40초 (Maze 데이터 평균과 비슷) 성공 여부: 완료 만족도: 4점근데 인터뷰 녹취록을 다시 들었다. "음... (3초 정지) 이게 결제 버튼인가? 색깔이 좀... 배송지 입력하는 건가?" 결국 클릭했다. 맞는 버튼이었다. Maze에는 '성공'으로 기록됐다. 근데 저 망설임. 3초. 참여자 5번, 28세 남성:완료 시간: 3분 10초 성공 여부: 완료 만족도: 3점녹취록: "여기서 뭘 하라는 거지? (화면 스크롤) 아, 여기 있네. 근데 왜 여기 있어요? 위에 있을 줄 알았는데." 이 사람도 완료했다. 데이터에는 '성공'. 근데 저 당황. "왜 여기 있어요?" 그 질문. 참여자 1번, 41세 여성:완료 시간: 1분 50초 (평균보다 빠름) 성공 여부: 완료 만족도: 5점녹취록: "아, 이런 거 자주 써봐서. 보통 여기 있잖아요. 익숙해요." 이 사람은 순조로웠다. 경험이 많았다. 근데 이게 우리 타겟 유저인가? 41세, 온라인 쇼핑 파워유저. 우리 주 타겟은 20대 후반인데. 정리하면서 느꼈다. Maze 데이터의 '85% 성공'과 인터뷰의 '망설임'은 다른 이야기였다. 불일치의 순간 점심 먹고 데이터를 다시 정리했다. Maze 정량 데이터:85% 성공률 평균 2분 30초 만족도 4.2점 → "괜찮다"유저 인터뷰 정성 데이터:"이게 결제 버튼인가?" "왜 여기 있어요?" "좀 이상한데..." → "뭔가 불편하다"이 간극. 85%는 완료했지만, 과정에서 당황했다. 숫자는 '성공'이지만 경험은 '불편'이었다. Notion에 메모했다: 정량 = What (무엇을 했는가) 정성 = Why (왜 그렇게 했는가)Maze: 85%가 버튼을 '찾았다' 인터뷰: 근데 '망설였다'둘 다 맞다. 근데 다르다.PM한테 슬랙을 보냈다. "Maze 리포트 나왔어요. 근데 인터뷰 내용이랑 같이 봐야 할 것 같아요." 답장이 왔다. "85%면 괜찮은데요? 일단 Go 하죠." 머리가 아팠다.한 유저의 행동 그날 저녁. 퇴근 전에 Maze 로우 데이터를 다시 파고들었다. 40명의 개별 데이터. 클릭 타임스탬프. 마우스 움직임. 하나씩 봤다. 참여자 23번:완료 시간: 4분 50초 (평균보다 2배 이상) 오류 클릭: 5회 만족도: 2점이 사람 데이터를 따라가 봤다.첫 화면 진입: 30초 정지 잘못된 영역 클릭: 3회 뒤로 가기 버튼: 2회 다시 시도 완료완료는 했다. 85%에 포함됐다. 근데 이 과정. 4분 50초. 5회 오류. 만족도 2점. Maze 요약 리포트에는 이렇게 나왔다: "평균 완료 시간: 2분 30초" 참여자 23번의 4분 50초는 평균에 묻혔다. 참여자 1번의 1분 50초가 평균을 낮췄다. 통계적으로는 맞다. 근데 참여자 23번의 경험은? 그 사람한테는 '최악'이었을 거다. 여기서 깨달았다. 평균은 '대표값'이 아니다. '중간값'이다. 통계를 뒤엎는 순간 다음날 아침. 팀 회의. PM이 물었다. "Maze 리포트 봤는데, 85% 성공이면 괜찮은 거 아니에요?" 개발 리드도 거들었다. "만족도도 4.2점이잖아요. 이 정도면 배포해도 될 것 같은데." 나는 노트북을 돌렸다. "이 사람 봐주세요." 참여자 23번 데이터를 보여줬다. 4분 50초. 5회 오류. 만족도 2점. "이 사람도 85%에 포함됐어요. 근데 이 사람 경험은 최악이었어요. 만약 우리 실제 유저가 이렇게 되면?" PM이 말했다. "그래도 소수 아니에요? 대부분은 괜찮았잖아요." 나는 인터뷰 클립을 틀었다. 참여자 3번. "이게 결제 버튼인가?" 그 3초 정지. "이 사람도 완료했어요. 2분 40초. 평균이랑 비슷해요. 근데 이 망설임. 실제 서비스에서는 이탈로 이어질 수 있어요." 회의실이 조용해졌다. 디자이너가 물었다. "그럼 어떻게 해요? 85%도 안 믿어요?" 나는 정리했다. "85%는 '완료'를 측정한 거예요. '경험'을 측정한 게 아니에요. 정량 데이터는 '무엇'을 알려주고, 정성 데이터는 '왜'를 알려줘요. 둘 다 필요해요." PM이 한숨을 쉬었다. "그럼 또 수정해야 해요?" "네. 근데 작은 수정이에요. 버튼 위치하고 색상. 이거만 바꾸면 망설임이 줄어들 거예요." 그렇게 2주가 더 걸렸다. 불일치를 해석하는 법 그 뒤로 Maze 리포트를 보는 방식이 바뀌었다. 1. 평균 말고 분포를 본다 Maze 리포트:평균 완료 시간: 2분 30초내가 보는 것:최소: 1분 50초 최대: 4분 50초 중앙값: 2분 20초 90 퍼센타일: 3분 40초평균은 극값에 영향을 받는다. 중앙값과 분포를 봐야 '진짜' 경험이 보인다. 2. 성공률 말고 과정을 본다 Maze 리포트:성공률: 85%내가 보는 것:오류 클릭이 어디서? 망설임이 어디서? (타임 갭) 뒤로 가기가 왜?'완료'와 '순조로운 완료'는 다르다. 3. 만족도 말고 맥락을 본다 Maze 리포트:만족도: 4.2점내가 보는 것:5점 준 사람: 파워유저, 경험 많음 2점 준 사람: 첫 이용, 당황함평균 4.2점은 '두 그룹의 평균'이다. 우리 타겟은 어느 쪽인가? 4. 정량 데이터에 정성 데이터를 겹친다 이제는 리포트를 이렇게 만든다: [Maze 정량] 85% 성공률, 평균 2분 30초[유저 인터뷰 정성] "이게 결제 버튼인가?" (참여자 3) → 버튼 레이블 모호함"왜 여기 있어요?" (참여자 5) → 레이아웃 기대와 불일치[해석] 완료는 하지만 망설임 존재 → 버튼 위치 + 레이블 수정 필요정량은 '증상'을 알려준다. 정성은 '원인'을 알려준다. 둘이 합쳐져야 '해결책'이 나온다. 9년 차의 깨달음 UX 기획 9년 차. 지금 알게 된 것. 데이터는 거짓말을 안 한다. 근데 전부를 말하지도 않는다. Maze 리포트의 85% 성공률. 거짓말 아니다. 40명 중 34명이 실제로 완료했다. 근데 그 과정의 망설임, 당황, 불편함. 그건 숫자에 안 나온다. 한 유저의 불편이 전체 경험을 대표할 수 있다. 참여자 23번. 4분 50초 걸린 그 사람. 통계적으로는 이상치(outlier)다. 제거해도 된다. 근데 실제 서비스에서 그 사람 같은 유저가 100명이면? 그들은 이탈한다. 리뷰에 "불편하다"고 쓴다. 숫자에는 안 나오지만 비즈니스에는 타격이다. 정량과 정성의 균형 초반에는 정량 데이터만 믿었다. "숫자가 진실이야." 중반에는 정성 리서치에 빠졌다. "유저 목소리를 들어야 해." 지금은 안다. 둘 다 필요하다. 둘 다 불완전하다. 정량 데이터는 '무엇'을 알려준다. 큰 그림. 트렌드. 패턴. 정성 데이터는 '왜'를 알려준다. 맥락. 이유. 감정. '무엇'만 알면 개선 방향을 모른다. '왜'만 알면 규모를 모른다. 둘을 겹쳐야 완전해진다. 이제 하는 것 요즘은 Maze 리포트를 열 때 이렇게 한다.평균값을 본다 (전체 경향) 분포를 본다 (극값과 중앙값) 이상치를 본다 (문제의 신호) 인터뷰 녹취를 겹친다 (이유 파악) 해석을 쓴다 (무엇 + 왜 = 어떻게)그리고 팀한테 공유할 때 이렇게 말한다: "Maze에서는 85%가 성공했어요. 근데 인터뷰에서는 망설임이 있었어요. 둘 다 맞는 얘기예요. 85%는 완료했지만, 과정이 불편했다는 거죠. 개선이 필요해요." PM은 가끔 불평한다. "데이터도 믿고 인터뷰도 믿어야 하면 뭘 믿어요?" 나는 답한다. "둘 다요. 근데 다른 걸 믿는 거예요."정량 데이터는 '무엇'을, 정성 데이터는 '왜'를 말한다. 둘 다 진실이다. 근데 다른 진실이다. UX 기획자의 일은 두 진실을 연결하는 거다. 그래야 '어떻게' 개선할지 보인다.