Все записи
7 мин

Живой тестер сказал моему AI: ты спрашиваешь то, что у тебя уже есть

нейросетиBuilding in Publicденьги

Реальная пользовательница, не я и не очередной мой тестовый аккаунт, потестила мой AI-продукт и в двух сообщениях сформулировала главную боль вообще всех ии ассистентов: AI задаёт вопросы, ответы на которые у него уже есть. У него на руках весь профиль человека, он по нему видит куда тебя тянет, а всё равно переспрашивает «а куда ты хочешь?». Я этот фидбэк получил не из логов и не из аналитики, а как живой пересказ от человека, которому я же сам и показал свою Картару, и вот эта маленькая сцена оказалась полезнее десяти моих собственных прогонов.

Если коротко, то она пообщалась с AI-персонажем внутри приложения, вышла и сказала мне, что ответы показались абстрактными, а я сел разбирать это с Claude Code и решил добавлять в ответы недостающие блоки. Дальше расскажу, что именно она заметила, почему это классический косяк AI-персон, и почему её случайно брошенное слово развернуло меня в сторону новой фичи.

Что именно сказала тестерша

Цитирую почти дословно, потому что лучше неё я не сформулирую: «В чате пообщалась, мне ответы абстрактными показались. Клод например не спрашивал куда меня тянет работать, он ответил по асцендентам тебе подойдёт вот эта сфера, какая тебя больше привлекает? А тут три сообщения и мне все таки самой надо написать где бы я хотела работать». Вот тут вся суть и лежит. Человек пришёл за тем, чтобы AI ему что-то раскрыл, а вместо этого получил три сообщения, после которых всё равно надо сесть и самому написать, куда же его тянет. То есть работу за пользователя AI не сделал, он её обратно на пользователя и переложил.

И знаете, что обиднее всего? У AI вся информация для ответа была. Профиль построен, данные есть, по ним прямо видно куда человека тянет и зачем. Можно было копнуть, сказать прямо, привести пример, а не вежливо отфутболить вопросом «а вам что больше нравится?». Это та самая разница между ассистентом, который думает за тебя, и ассистентом, который красиво уточняет, лишь бы не брать на себя ответственность за конкретику.

Я и в требованиях к продукту это себе записывал ещё давно, что хочу чтобы он был максимально достоверным и не сглаживал углы, говорил прямо, проникался ситуацией и выступал почти как психолог, а не тупо отвечал по шаблону. А тут живой человек ткнул пальцем ровно в то место, где продукт от этого требования отъехал. Одно дело когда ты сам себе пишешь «должно быть глубоко», и совсем другое когда тебе со стороны говорят «было поверхностно» — ровно за эту поверхностность я недавно забраковал AI-текст для собственного профиля, так что чувство знакомое.

Почему AI вечно спрашивает очевидное

Это не баг конкретно моей Картары, это болезнь почти всех ии ассистентов, и причина у неё скучная и техническая. Модель внутри диалога не всегда тянет в контекст то, что лежит в профиле, а если и тянет, то по умолчанию ведёт себя осторожно и предпочитает переспросить, лишь бы не «придумать за пользователя». В обучении такое поведение поощряется, ведь переспросить безопаснее чем ошибиться. И вот результат: для разработчика это «модель аккуратная», а для живого человека это «он у меня спрашивает то, что и так знает, я что, зря профиль заполнял?».

Тут ещё была честная деталь, которую я тестерше сразу проговорил. Внутри приложения отвечает тоже Claude, как ни крути, просто модель попроще и подешевле, не та тяжёлая что я гоняю в разработке. И вот эта экономия как раз и вылезает в таких местах, потому что модель помельче чаще ленится копать профиль и скатывается в безопасные уточняющие вопросы. То есть это не философская проблема AI вообще, а вполне конкретный размен «дешевле в рантайме против глубже в ответе», и пользователь его на себе почувствовал моментально.

Я свою позицию по поводу того что код и контент у меня делает нейросеть никогда не прятал. В этом разборе про фасад сервисов я уже писал, что вы видите фасад, а как оно внутри устроено нет, и вот сейчас как раз тот случай когда фасад дал трещину и стало видно шов. Разработку я оркеструю через Claude Code на тяжёлой модели, а внутри продукта общается модель попроще ради цены, и пользователю в итоге всё равно какая там модель, ему важно чтобы ответ был не абстрактный.

Второй вопрос, который оказался про деньги

Дальше она задала вопрос, который я люблю даже больше первого, потому что он чисто продуктовый и про экономику: «Ты сделал так, что один раз покупаешь портрет, и он где-то сохраняется, или каждый раз по новой?». И сама же добавила соображение, что сохранять невыгодно, мол не сохраняй. То есть человек не просто пользуется, а уже думает за бизнес, прикидывает где у меня деньги, и пытается мне же подсказать как не терять выручку.

Я ответил честно, что мы и так сохраняем результат в истории, так что человек к нему вернётся, и вопрос на этом закрыт. Но сам факт что пользователь на ходу строит модель монетизации продукта и переживает выгодно ли это владельцу, для меня сигнал что человек залип не на пять минут. Когда тестеру не всё равно сколько ты заработаешь, это куда более ценный фидбэк чем дежурное «прикольно».

Как одно слово развернуло меня в новую фичу

И вот тут случилось то, ради чего вообще стоит сажать живого человека за продукт. Она в вопросе написала слово «портрет», и меня этим словом будто переключило. Я как раз недавно крутил в голове идею графического портрета, визуального, не текстового, и тут оно само всплыло из чужой реплики. Бывает же, что нужную мысль тебе подаёт не твой собственный план, а случайно брошенное слово человека, который твой план в глаза не видел.

Дальше у меня встал чисто рабочий вопрос, где эту новую идею обсуждать. Вариантов было два, продолжить в текущей сессии или открыть отдельную. Я выбрал отдельную сессию, потому что текущая была занята другой фичей, а мешать контексты, сваливая в один чат и фидбэк по абстрактности ответов, и проработку графического портрета, это надёжный способ получить кашу на выходе. Так что я попросил подготовить промпт под обсуждение портрета и ушёл с ним в новую сессию, а тестершу оставил докручивать проверку текущей версии.

Этот приём, кстати, я для себя давно зафиксировал как правило, что одна сессия думает про одну вещь. AI-агент отлично держит фокус, пока ты не начинаешь грузить в него три несвязанные задачи разом, и тогда он начинает путать что к чему относится. Так что разнести по сессиям это не бюрократия ради бюрократии, а гигиена контекста, без которой разработка с ии превращается в постоянное «подожди, ты сейчас про что вообще».

Цифры этой истории

Их тут немного, и это нормально, потому что ценность была не в цифрах, а в самом факте живой обратной связи. Но что есть, то есть:

  • 1 живая пользовательница, не я и не тестовый аккаунт, дала фидбэк AI-продукту через меня как через почтового голубя
  • 3 сообщения AI в одном диалоге, после которых разговор не продвинулся и пользователю всё равно пришлось писать ответ самой
  • 2 модели в связке: тяжёлая в разработке через Claude Code и модель попроще-подешевле внутри самого продукта
  • 1 новая фича (графический портрет) родилась из случайно брошенного слова и уехала в отдельную сессию

Выводы

Самое главное вот в чём. Тестирование ai агентов на живых людях ловит то, что ты сам у себя никогда не поймаешь, потому что ты знаешь как должно работать и подсознательно ведёшь себя так, чтобы оно работало. Ровно так у меня 345 зелёных тестов пропустили 6 багов, которые вылезли на первом же живом запуске. А живой человек этого договора с тобой не подписывал, он просто пишет «а куда меня тянет работать ты не спросил», и это бьёт точнее любого моего внутреннего прогона.

Дальше про саму боль. Главная беда ии ассистентов, что они переспрашивают то, что уже знают, лечится не магией, а вниманием к контексту и готовностью платить за модель которая не ленится копать профиль. Это размен, и пользователь его чувствует на первом же ответе, так что экономить на рантайм-модели надо с открытыми глазами.

И ещё одно про самого пользователя. Когда он начинает думать за твою экономику и прикидывать выгодно ли тебе сохранять его покупку, это не наглость, это вовлечённость, и такой фидбэк надо ловить обеими руками.

А самое для меня неожиданное вот что. Иногда новая фича приходит не из стратегии и не из дорожной карты, а из одного слова, которое уронил человек, вообще не подозревавший что он сейчас развернул твой продукт в новую сторону. Вот и сажайте живых людей за свои AI-штуки почаще, а то так и будете сами с собой в зеркало играть в тестера.