설문 문항 하나 때문에 3시간 회의한 날

14 Dec, 2025
- 유저인터뷰

오전 10시, 회의실

설문 문항 검토 회의다. 30분 잡았다.

“이 문항 어때요? ‘서비스 이용에 만족하십니까?’”

마케팅팀 대리가 물었다. 나는 고개를 저었다.

“너무 포괄적이에요. 무엇에 대한 만족인지 명확하지 않아요.”

“그럼 뭐가 문제인데요?”

설명을 시작했다. 만족도라는 게 단일 차원이 아니라는 것. 기능 만족, 디자인 만족, 속도 만족이 전부 다르다는 것.

“그럼 이렇게 하죠. ‘서비스 기능에 만족하십니까?’”

여전히 안 된다. ‘기능’도 애매하다. 검색 기능인지, 결제 기능인지, 알림 기능인지.

회의실에 침묵이 흘렀다.

데이터팀 팀장이 말했다. “근데 너무 세분화하면 문항 수가 너무 많아지는데요?”

맞는 말이다. 설문 길이와 정확성의 트레이드오프. 항상 마주하는 딜레마다.

문항 설계의 함정

설문 문항 하나 만드는 게 이렇게 어렵다.

지난주에 진행한 설문이 있었다. “신기능을 자주 사용하십니까?” 라고 물었다.

결과는 70%가 “그렇다”였다. 우리는 좋아했다. 신기능이 잘 먹힌다고.

그런데 GA4 데이터를 보니 이상했다. 실제 사용률은 35%였다. 응답과 실제가 달랐다.

문제는 ‘자주’였다. 누구에게는 주 1회가 자주고, 누구에게는 하루 5회가 자주다. 주관적 표현이 데이터를 망쳤다.

리서치 결과를 가지고 기획 방향을 잡았는데, 그게 틀렸다는 얘기다. 3주 작업이 날아갔다.

그때부터 문항 하나에 집착한다. 단어 하나, 문장 구조 하나가 결과를 바꾼다.

회의는 계속됐다

11시가 됐다. 아직도 같은 문항이다.

“이렇게 물으면 어때요? ‘지난 한 달간 검색 기능을 몇 회 사용하셨습니까?’”

좋아졌다. 구체적이다. 기간도 명확하고, 기능도 명확하고, 빈도도 숫자로 받는다.

그런데 개발팀장이 손을 들었다.

“사용자가 정확히 기억할까요? 저도 제가 한 달에 검색 몇 번 했는지 모르는데.”

또 막혔다. 회상 오류. 리서치 방법론 수업에서 배운 개념이다.

사람들은 자신의 행동을 부정확하게 기억한다. 특히 반복적 행동은 더 그렇다.

“그럼 선택지를 주면 어떨까요? 0-5회, 6-10회, 11-20회, 21회 이상.”

구간을 나누면 회상 부담이 줄어든다. 하지만 또 다른 문제가 생긴다.

“구간이 비대칭인데요?” 마케팅 팀장이 지적했다. “앞은 5회씩 나누고 뒤는 10회씩 나누면 왜곡 아닌가요?”

맞다. 구간 설정도 결과에 영향을 준다. 0-10회, 11-20회로 나누면 분포가 달라진다.

점심시간을 넘겼다

12시 반. 아직도 회의 중이다.

배가 고프다. 그런데 멈출 수가 없다. 이 문항으로 1500명한테 설문을 돌린다. 잘못 만들면 1500개의 쓸모없는 응답이 생긴다.

“처음으로 돌아가죠. 우리가 진짜 알고 싶은 게 뭐죠?”

내가 물었다. 회의의 기본이다. 목적으로 돌아가기.

“신기능이 사용자에게 유용한지 알고 싶어요.” 프로덕트 오너가 답했다.

“그럼 ‘유용함’을 어떻게 측정할 건데요?”

침묵. 유용함도 애매한 개념이다. 만족도처럼.

“사용 빈도로 측정할까요? 아니면 만족도로 측정할까요?”

두 개는 다르다. 자주 쓰지만 만족하지 않을 수도 있다. 선택지가 없어서 쓰는 경우.

반대로 자주 안 쓰지만 만족할 수도 있다. 필요할 때만 쓰는 기능이면.

“둘 다 물어야 할 것 같은데요.”

결국 문항이 2개가 됐다. 하나는 행동 측정, 하나는 태도 측정.

행동: “지난 한 달간 [기능명]을 사용한 횟수를 선택해주세요.” 태도: “[기능명]이 귀하의 문제 해결에 도움이 되었습니까?”

두 번째 문항도 또 논쟁이 시작됐다. ‘문제 해결’이 명확한가. 어떤 문제인가.

1시, 드디어

문항 하나가 완성됐다.

정확히는 두 개가 됐지만. 3시간 걸렸다.

“[기능명]을 지난 한 달간 사용한 횟수를 선택해주세요.

사용하지 않음
1-3회
4-7회
8-15회
16회 이상”

“[기능명]을 사용했을 때, 원하는 결과를 얻는 데 도움이 되었습니까?

전혀 도움 안 됨
별로 도움 안 됨
보통
도움 됨
매우 도움 됨 ※ 사용하지 않은 경우 ‘해당 없음’ 선택”

구간은 로그 스케일로 조정했다. 초기 사용자와 파워 유저를 동시에 잡기 위해.

‘문제 해결’ 대신 ‘원하는 결과’로 바꿨다. 더 포괄적이고 덜 무겁다.

5점 척도는 리커트 표준. 홀수로 해야 중립 선택지가 생긴다. 이것도 논쟁이 있었지만 일단 표준을 따랐다.

“해당 없음” 선택지를 추가했다. 사용 안 한 사람이 억지로 답하면 데이터가 오염된다.

회의 끝, 생각 시작

회의실을 나왔다. 점심을 먹으러 갔다.

동료가 말했다. “문항 하나에 3시간은 너무한 거 아니에요?”

나도 그렇게 생각했다. 아침에는.

그런데 지금은 아니다. 3시간이 아깝지 않다.

잘못된 문항으로 설문 돌리면 3주가 날아간다. 3시간은 투자다.

리서치의 정확성은 문항 설계에서 시작된다. 측정 도구가 잘못되면 측정 결과도 잘못된다.

물리학 실험처럼. 자가 휘어져 있으면 길이를 정확히 잴 수 없다.

설문도 마찬가지다. 문항이 애매하면 응답도 애매하다. 애매한 데이터로는 정확한 결론을 낼 수 없다.

“우리가 데이터 기반 의사결정 한다고 하잖아요.”

동료가 끄덕였다.

“그 데이터의 품질은 질문의 품질에 달렸어요. 질문이 엉망이면 데이터도 엉망이고, 의사결정도 엉망이죠.”

오후 3시, 다시 검토

회의실로 돌아왔다. 이번엔 혼자.

완성된 문항을 다시 봤다. 정말 완성된 걸까.

체크리스트를 꺼냈다. 늘 쓰는 거다.

명확성: 질문이 하나의 의미만 갖는가? - OK
구체성: 시간, 대상, 범위가 명확한가? - OK
중립성: 유도 질문이 아닌가? - OK
측정 가능성: 응답자가 답할 수 있는가? - OK
일관성: 다른 문항과 모순 없는가? - 확인 필요

전체 설문 흐름을 봤다. 20개 문항.

우리가 만든 건 15번, 16번 문항이다. 앞뒤 맥락을 확인했다.

14번 문항: “새로운 기능을 알고 계셨습니까?” 15번 문항: “[기능명]을 지난 한 달간 사용한 횟수…” 16번 문항: “[기능명]을 사용했을 때, 원하는 결과를…”

흐름이 자연스럽다. 인지 → 행동 → 태도. 리서치 프레임워크와 일치한다.

그런데 한 가지 더 보였다. 14번에서 “모름”을 선택한 사람은 15번, 16번을 스킵해야 한다.

조건부 질문 로직이 필요하다. 설문 도구 설정에 추가해야 한다.

디테일의 연쇄

문항 하나가 다른 문항에 영향을 준다.

15번에서 “사용하지 않음”을 선택하면 16번에서 “해당 없음”이 자동 선택되어야 한다.

응답자 경험을 생각하면 그렇다. 같은 질문을 반복하면 짜증 난다.

설문 이탈률이 올라간다. 완료율이 내려간다. 데이터 품질이 떨어진다.

이런 것까지 고려해야 한다. 문항 설계는 단순히 질문을 만드는 게 아니다.

응답자 여정을 설계하는 거다. UX 기획과 같다. 사용자 플로우를 그리듯이 응답 플로우를 그린다.

Figma를 열었다. 설문 플로우를 그렸다.

시작 → 스크리닝 → 인지도 → 사용 경험 → 만족도 → 개선 의견 → 인구통계 → 종료

각 단계에서 분기 조건을 표시했다. 조건부 로직 6개. 스킵 로직 4개.

이걸 설문 도구에 구현해야 한다. 그것도 일이다.

오후 5시, 테스트

설문을 직접 응답해봤다.

연구원이 해야 하는 기본 중 기본이다. 자기가 만든 설문을 자기가 풀어보기.

1분 30초 걸렸다. 20개 문항. 적당하다. 3분 넘어가면 이탈률이 확 오른다.

그런데 11번 문항에서 걸렸다. “귀하의 직업을 선택해주세요.”

선택지가 10개다. 너무 많다. 5개로 줄이고 “기타”를 추가하는 게 낫다.

또 수정이다. 11번 수정하면 전체 번호가 밀린다. 15번, 16번이 16번, 17번이 된다.

조건부 로직 설정도 다시 해야 한다.

이런 게 쌓인다. 수정이 수정을 낳는다. 그래서 처음에 제대로 만들어야 한다.

문항 하나에 3시간 쓰는 이유다.

파일럿 테스트

동료 5명에게 설문을 보냈다. 내부 테스트다.

“10분 안에 풀어주시고, 이상한 부분 있으면 말씀해주세요.”

30분 후 피드백이 왔다.

“15번 문항 구간이 이상해요. 1-3회는 너무 적고 16회 이상은 너무 많은 것 같아요.”

“16번 문항에서 ‘원하는 결과’가 애매해요. 무슨 결과요?”

“왜 중간에 기능 이름이 계속 반복돼요? 한 번만 나와도 될 것 같은데요.”

피드백 3개. 모두 타당하다.

구간은 다시 조정했다. 1-2회, 3-5회, 6-10회, 11-20회, 21회 이상.

좀 더 세분화됐다. 초기 사용자 구간을 쪼갰다.

‘원하는 결과’ 옆에 예시를 추가했다. (예: 필요한 정보 찾기, 작업 완료하기)

기능 이름은… 반복이 맞다. 각 문항이 독립적으로 이해돼야 한다. 응답자가 앞 문항을 기억한다고 가정하면 안 된다.

이건 설득했다. 근거를 댔다. 응답 오류를 줄이려면 맥락을 매번 제공해야 한다고.

오후 6시, 최종안

설문 최종안이 나왔다.

아침 10시부터 저녁 6시까지. 8시간. 문항 1개 완성하는 데 3시간, 전체 다듬는 데 5시간.

하루가 갔다. 다른 일은 못 했다.

그런데 후회는 없다. 이제 이 설문으로 1500명에게 물어볼 수 있다.

정확한 질문. 정확한 응답. 정확한 데이터. 정확한 인사이트.

이게 리서치의 가치다.

다음 주에 설문이 나간다. 응답률 목표는 30%. 450개 응답.

그 데이터로 기획 방향을 잡는다. 다음 분기 로드맵에 반영된다.

만약 문항이 잘못됐다면? 450개의 쓸모없는 응답. 잘못된 방향. 3개월 낭비.

3시간이 3개월을 살린다.

퇴근길 생각

지하철에서 생각했다.

리서치는 과학이다. 정확성이 생명이다.

문항 하나가 대충이면 전체가 대충이 된다. 설문은 체인처럼 연결돼 있다.

‘유저 리서치 비용이 너무 높다’는 말을 자주 듣는다.

맞다. 높다. 시간도 오래 걸린다.

그런데 부정확한 리서치 비용은 더 높다. 잘못된 방향으로 개발하는 비용. 다시 뒤집는 비용.

그걸 설득하는 게 내 일이다. 9년 차가 됐지만 여전히 어렵다.

데이터 기반 의사결정이라고 하면서 데이터 품질은 신경 안 쓴다. 모순이다.

질문이 틀리면 답도 틀리다. Garbage in, garbage out.

집에 왔다. 노트북을 켰다. 최종 설문안을 다시 봤다.

완벽하진 않다. 완벽한 설문은 없다. 하지만 최선은 다했다.

내일 아침 마케팅팀에 공유한다. 승인받으면 설문 도구에 세팅한다.

다음 주 월요일 발송. 2주간 데이터 수집. 그다음 주 분석.

한 달 프로젝트다. 문항 하나에서 시작하는.

3시간 회의. 아깝지 않다. 정확성이 전부다.