최근 법과 관련된 궁금증이 생겨서 GPT에게 자문을 구했더니 대법원 판례 예시까지 들어주며 퍽 자세히 설명해줬다. 그래서 GPT에게 그 판례의 사건을 자세히 설명하라고 했더니, 아니 글쎄 자기가 지어냈다고 한다.
ChatGPT, Claude, Perplexity 등과 같은 LLM 서비스들과의 상호작용 시간이 늘어나면서 (feat. 포트폴리오 제작), 사용자로서, 그리고 제품 관리자로서 이 서비스들의 강점과 한계를 생각해보지 않을 수 없게 됐다. 일단 내 주장은 이것이다 - LLM은 도구 (SaaS) 보다는 엔터테인먼트 (i.e. Social Media, Youtube) 서비스로서 더 가치가 크다 (적어도 아직까지는).
LLM은 도구 (SaaS) 보다는 엔터테인먼트 (i.e. Social Media, Youtube) 서비스로서 더 가치가 크다 (적어도 아직까지는).
제품 관리자들은 서비스가 사용자들에게 어떤 가치를 제공하거나 문제를 해결하는지, 그 문제 해결력의 수준은 어느정도인지 고민하고, 평가한다. 근거에 기반한 평가를 위해 정량화된 수치 혹은 프레임워크 사용을 많이들 시도하는데 그 종류는 대충 아래와 같다.
서비스 만족도 측정 방법
- Customer Satisfaction Score (CSAT): CSAT는 고객 만족도 점수의 줄임말로 제품 품질에 대한 핵심 성과 지표로 주로 사용되는 측정 기준을 의미한다. 고객 만족도 점수(CSAT)는 퍼센테이지로 표기되며, 100%를 받는다면 고객들이 매우 만족했다는 것을, 0%는 불만족했다는 것을 의미합니다. (출처: 퀄트릭스)
- Customer Effort Score (CES): 사용자가 원하는 과업을 하기에 얼마나 많은 노력이 필요한가?
- First Contact Resolution (FCR): 첫 사용시 과업이 달성되는 확률은 어느정도인가?
- Retention Rate: 얼마나 많은 사용자들이 다시 서비스를 사용하러 돌아오는가?
시장에 나와있는 대표적인 LLM 서비스들은 (i.e. Claude, ChatGPT, Grok, Perplexity) 범용 도구(General-purpose tool)다. 그말인 즉슨, 사용자의 의지에 따라 코드를 찍을 수도 있고, 정보를 찾을 수도 있고, 대화 상대로 삼을 수도 있다는 것이다. 사용자들의 사용 목적 (Jobs To Be Done)을 잘 해결했을 때, 사용자들의 만족도가 높고, 이로 인해 서비스 재사용 및 사용이 증가한다고 전제해보자. 그리고 아래의 그림을 봐보자.

하버드 비즈니스 리뷰 (HBR) 의 조사¹에 따르면, LLM이 상용화되기 시작한 2024년까지만 해도 '검색' (Specific Search)가 사용 목적의 3위를 차지했으나, 2025년에는 13위로 떨어졌다. 우리의 전제에 따르면, 사실을 찾아내는 도구로서 LLM은 사용자들에게 만족감을 주지 못한다. 따라서, 검색 도구로서의 LLM은 재사용으로 이어지지 않았다.
Top 10 Gen Al Use Cases
hbr.org
반면, 사람들이 일반적으로 타인 및 사회와 관계를 맺을 때 얻을 수 있는 것들 (Companionship, Life organization, Finding purpose)은 높은 사용률 및 재사용률을 보여주며 사용자들에게 만족감을 주고 있음을 볼 수 있다.
도구로서의 LLM 의 한계
LLM이 상용화되며 '프롬프트 엔지니어'라는 직무가 등장할 때부터 나는 이 도구가 B2C 서비스로서 일반 대중에게 큰 가치를 줄 수 있을지 회의감이 들었다 (그렇다고 하여 나는 "AI 부정론자"는 아니다. 다양한 한계에도 불구하고 LLM 서비스는 이미 내 삶의 큰 부분을 차지하고 있다).
LLM 서비스로 가치를 얻기 위해 엔지니어링이라는 단어를 쓸 수준으로 학습을 해야한다면, 쓰기 어렵다는 뜻이다. Customer Effort Score나 First Contact Resolution, Resolution Time 등에서의 평가가 모두 부정적일 수 밖에 없다. 글자를 넣으면 답이 술술 나오니 퍽 쉬운 서비스라 생각할 수 있지만, 사실상 LLM 서비스가 내가 원하는 행동을 정확하게 (정확도가 핵심) 하도록 유인하기 위해서는 엄청 두꺼운 설명서 정도를 완독하고 이해하고 있어야한다는 뜻이다.
예를 들어, 가장 일반적인 프롬프팅 방법인 CoT (Chain of Thought) 기법은 LLM이 단계별로 '생각'을 해 보다 정확하고 체계화된 답변을 내놓도록 하는 방식이다. CoT 기법을 쓰려면, 사용자는 자신이 LLM으로부터 원하는 답변이 무엇인지 명확하게 정의하고, 이를 얻기 위해 어떤 사고 과정을 거쳐야하는지 (검색, 정리, 점검, 등)을 파악한 이후, 이를 단계별로 하기를 지시해야한다. 다시 말해, 오래걸린다는 뜻이다 (Resolution Time이 길어진다). 뿐만 아니라, 사용자가 논리적인 사고의 흐름 체계를 알고 있어야 이를 LLM에게 지시할 수 있기 때문에 어렵다 (Customer Effort Score가 높아진다).
나는 이게 사용자의 LLM 사용 패턴에서도 명확하게 드러난다고 생각하는데, 정확한 결과가 중요한 작업 (정보 검색, 트러블 슈팅)은 모두 2024년 3위 7위에서 2025년 13위 (-10), 16위 (-9)로 크게 하락했다. 그에 반해, 전문성을 가진 사람이 서비스 아웃풋의 정확도를 개선하는 작업을 사람이 할 수 있는 작업 (Generating Code for Pros, Improving Code for Pros)는 각각 47위에서 5위 (+42), 19위에서 8위 (+11)로 급상승했다.
다시 말해서, LLM은 '정확한 답변'보다 '충분히 좋은 초안'을 제공하는 데 강점이 있다. 전문가의 검증이 가능한 영역(코드 리뷰, 문서 초안)에서는 가치가 있지만, 팩트체킹이 어려운 일반 사용자에게는 한계가 명확하다.
요약하자면, 도구로서의 LLM에게 위임할 수 있는 것은 정확성이나 완성도가 아닌 초안 정도이다. 이 도구를 써서 우리가 궁극적으로 원하는 '완성도 높고 정확한' 결과물을 만들려면 결국 숙련된 인간의 지식과 경험이 필요하다 (적어도 현재까지는).
이는 노동시장에도 그대로 반영되고 있다. 스탠포드 경제학 연구소의 조사보고서에 따르면 AI가 더 젊은 노동층에서의 직업을 대체하고 있다고 한다. 다시 말해서, 숙련도가 높지 않아도 수행할 수 있는 과업을 우선적으로 대체하고 있다는 것이다.
AI Is Eliminating Jobs for Younger Workers
New research from Stanford provides the clearest available evidence that AI is reshaping the workforce—but it’s complicated.
www.wired.com
엔터테인먼트로서의 LLM
2025년 LLM 서비스의 가장 흔한 사용 사례들은 모두 "개인적, 그리고 전문적 지원 (Personal and Professional Support)" 카테고리 하에 떨어진다. 이런 것들은 보통 가까운 지인들, 전문가들, 혹은 지인, 전문가 및 인플루언서들이 만들어낸 콘텐츠들 (i.e. Life Style Youtube 계정)에서 쉽게 얻는 것들이다.
그러니까, LLM은 현재 Youtube, Instagram, Tiktok 같은 것들과 경쟁하고 있는지도 모른다. LLM이 사용자들에게 만족감을 주는 영역은 정확도, 엄밀함, 편의성이 평가 지표가 되는 '지식'이 아니라 몰입도, 개인화, 그리고 감정이 평가 지표가 되는 '콘텐츠'이다. 그것도 사용자의 감정과 상태에 초개인화된 콘텐츠.
예를 들어, 사용자들이 LLM의 목적이 "Organizing My Life" (내 삶의 정리) 라고 하는 것은, 그들이 LLM에게 자신의 삶의 가장 내밀한 부분까지 공유하며 LLM으로부터 개인화된 콘텐츠를 받아내고 있다는 뜻이다.
ChatGPT, Claude, Grok, Perplexity 등 대중화된 LLM 서비스들은 모두 구독제를 사업 모델로 삼고 있고, 서비스와 상호작용하는 텍스트의 양에 따라 과금에 차등을 둔다. 다시 말해, 사용자들이 LLM에 더 많은 질문을 입력하고, LLM이 더 많은 결과물을 토해낼수록 OpenAI, Anthropic 같은 회사들이 돈을 더 많이 번다는 뜻이다.
Is LLM the Cure for Loneliness Epidemic?
Is LLM the Cure for Loneliness Epidemic?
This year, Dario Amodei, the CEO of Anthropic, genuinely warned the public that their job might be 'gone' in several years. Indeed, businesses, from enterprises to small businesses rushed to bring LLM into their workflow. About 2 years in: less than 50% of
muhaproductplanner.tistory.com
사용자가 (단위 시간에 같은 양의 상호작용을 한다고 전제하면) LLM과 보내는 시간, 즉 체류시간 (Duration Time) 이 길어질수록, LLM과의 '대화'에 더 몰입 (Engagement) 할수록, LLM으로부터 기대하는 결과물의 양이 많을수록 이들의 수익이 높아진다. 시간, 몰입, 그리고 콘텐츠의 양은 모두 도구에 대한 Product Metric 보다는 콘텐츠에 대한 지표이다. 더 오래, 더 적극적으로, 더 많이 기대해야한다는 것이다. 도구로서의 서비스들은 사용자의 업무 효율 (체감 시간 감소)과 난이도를 낮출수록 (몰입 감소) 사용자 만족도가 올라가고 재구독이 발생하는데, 이와는 거리가 먼 상태인 것으로 보인다.
Doomprompting (Doom + Prompting), 둠프롬팅 시대의 서막
Doomprompting 이라는 다소 공감가는 재밌는 표현을 보아서 공유해봅니다. 최근에 GPT-5 공개되고 사람들 사이에서 난리난 것 보셨나요? 갑자기 GPT가 너무 무뚝뚝해지고 네가지 (비속어) 없어졌다는
muhaproductplanner.tistory.com
어쩌면 지금 가장 떨고 있어야하는 사람들은 개발자들이 아니라 (물론 개발자들도 떨만한 이유가 충분하다만은) 인플루언서들일지도 모른다.
++ 다른 주제의 글을 작성하다가 내 생각을 더 잘 정리한 블로그가 있어서 공유한다.
출처
- Doomprompting is the new Doomscrolling (Anu, Blog link)
- AI Is Eliminating Jobs for Younger Workers (Knight, 2025, Wired)
- Top 10 Gen AI Use Cases (April 2025, HBR)
'Product Management' 카테고리의 다른 글
| 면접 답변 구조화하기 - STAR method (0) | 2025.08.24 |
|---|---|
| 제품 관리의 4가지 리스크 (The Four Big Risks) (0) | 2025.08.24 |
| Doomprompting (Doom + Prompting), 둠프롬팅 시대의 서막 (4) | 2025.08.19 |
| 논문 리뷰 - Context Engineering 이란 무엇인가 (2) | 2025.08.12 |
| ⚡️ Video as an ads Product (2) | 2025.08.12 |