Три фазы AI-ассистента за 2 дня: консилиумы, дебаты и 4 косяка Claude Code

У меня есть продукт Anima, это ии ассистент, который учится отвечать как команда: сначала наблюдает, потом подсказывает черновики, а потом отвечает сам. И вот за два рабочих дня я протащил его через три крупные фазы, это Knowledge Base, Evidence-First Learning и Auto-Replies, и на каждую пришёлся полный цикл, то есть спека, консилиум из шести AI-экспертов, дебаты, реализация через Guardian STC и деплой.

Вот как это было по часам.

День первый: Knowledge Base

1 апреля, 16:04. Открываю roadmap и спрашиваю себя, а есть ли вообще спеки на фазы 7 и 8, систему-то хочется доделать. Через пять минут запускаю `/new-feature` для Phase 7 Knowledge Base.

До этого момента база знаний в Anima работала на хардкоде, и это были восемь вопросов-ответов, вшитых прямо в код. Работать-то работало, но масштабировать такое невозможно.

Вопрос, который всё определил

16:25. Ключевой вопрос, который я задал Claude, звучал так: как система вообще поймёт, что у неё нет вариантов ответа? И это не про поиск по базе, это про тот самый момент, когда pgvector возвращает результат с низким similarity score, и надо решить, отвечать самой или эскалировать на человека.

Через минуту запускаю `/consilium`, и шесть экспертов параллельно разбирают задачу, то есть архитектор, прагматик, скептик и ещё трое, и каждый выдаёт свой вердикт по подходу. Если вы ещё не работали с ai агентами вот так, толпой, то поверьте, это другой уровень разработки с ии, потому что один агент тебе поддакивает, а шестеро спорят друг с другом и вытаскивают дыры, которые в одиночку проглядишь.

Когда процесс ломается

16:57. Получаю синтез и злюсь, потому что Claude должен был внести его в спеку, а вместо этого просто выдал мне в чат. Зачем? Я формулирую задачи и принимаю решения, а записывать результаты в спеку должен AI, это его работа.

17:03. И спор начинается вообще не по тому вопросу, какая-то защита водопада, обсуждение отдельного куска. Прерываю: по всей спеке, а не по одному пункту. Вот это один из тех моментов, когда AI приходится перенаправлять руками, ведь без контроля он уходит не туда.

С 17:22 до 17:49 два раунда. Спека обновлена. Решение: pgvector retrieval с эскалацией при отсутствии совпадений.

Реализация

С 18:46 до 21:25 Claude Code реализует Phase 7 по Guardian STC, это пять шагов и пять коммитов, и каждый шаг это тесты, код, верификация, коммит. В 21:25 Knowledge Base Management закрыта. Пуш.

День второй: две фазы и три раунда дебатов

Phase 8: Evidence-First Learning

2 апреля, 09:31. Утро начинается с подготовки спеки, и тема тут такая, обучение на стиле оператора, ведь Anima должна не просто отвечать правильно, а отвечать именно так, как отвечает конкретный человек из команды.

10:32. Формулирую ключевое требование, обучение на стиле человека, на том как он пишет, и это очень важно для имитации человечности, потому что нужны не шаблонные ответы, а стиль конкретного оператора, то есть длина предложений, сленг, привычные формулировки.

Главное архитектурное решение тут гибрид per-company плюс per-operator, то есть общая база знаний на уровне компании, но стиль ответов индивидуальный для каждого оператора. Компания знает что отвечать, а оператор знает как.

12:17-12:54. Консилиум и спор по подходу. Вердикт зафиксирован.

С 13:11 до 14:03 Claude Code пишет код, четыре шага, пять тестов. В 14:03 Evidence-First Learning закрыта. Пуш.

Два часа от спеки до деплоя, и это при том, что решение прошло через полный цикл обсуждений, а не было накодено наскоком.

Phase 9: Auto-Replies

14:11. Не останавливаюсь, сразу беру Phase 9, где AI уже сам отвечает клиентам, то есть переход из помощника в полноценного ai агента.

14:36. Ключевой выбор тут вот в чём: toggle, то есть просто вкл/выкл автоответы, или порог уверенности, когда AI отвечает сам, как только уверен выше порога. В итоге решили на два режима, Shadow и Auto: в Shadow AI готовит черновики и оператор их подтверждает, а в Auto AI отвечает сам.

Три раунда споров

С 14:48 до 16:35 три раунда, Claude vs GPT по Phase 9, и задача тут сложнее всех предыдущих, ведь AI отвечает клиентам сам, а цена ошибки высокая. Надо было продумать когда AI уверен достаточно, как переключаться между режимами и что вообще делать с edge cases.

16:40. И вот посреди спора приходит инсайт: режим «бот» он же только на старте как бот, а потом ты его переучиваешь, и он уже не бот, потому что он обучился на стиле оператора, набрал базу знаний и стал отвечать по-человечески. То есть разница между ботом и ассистентом не в коде, а в количестве накопленного опыта.

18:52. Финальное решение, два явных режима плюс readiness как метрика, и она показывает, насколько система готова к автономной работе, то есть это не бинарный переключатель, а градиент. Вариант со «спектром зрелости» отклонили, потому что он ломал уже принятый вердикт.

Когда AI косячит

21:20-22:04. Реализация Phase 9, и тут Claude Code ошибается четыре раза, а значит тесты, верификации и каждый раз откатывать и переделывать.

Вот ровно для этого и нужен Guardian STC, потому что без формальных шагов (тест, код, верификация, коммит) эти четыре ошибки спокойно ушли бы в прод. А так верификация каждый раз говорит, стоп, здесь проблема. Это, если хотите, та самая ии для автоматизации, только наведённая не на бизнес, а на сам процесс разработки, чтобы я не проверял каждую строчку руками.

22:07. Деплой Phase 9. Правда, на этом история не закончилась: утром я зашёл на прод, а там пустой экран.

Цифры

Фазы: 3 (Knowledge Base, Evidence-First Learning, Auto-Replies)
Время: ~2 рабочих дня
Коммиты Phase 7: 5
Коммиты Phase 8: 4
Раунды дебатов по Phase 9: 3
Ошибок Claude Code в Phase 9: 4
Knowledge Base до: 8 хардкодных Q&A
Knowledge Base после: pgvector retrieval

Как устроен процесс на каждую фазу

Каждая из трёх фаз прошла один и тот же цикл:
Спека. Формулирую что нужно, какие требования, какие edge cases
Консилиум. Шесть AI-экспертов анализируют задачу параллельно
Claude vs GPT спорят по неоднозначным вопросам. Иногда один раунд, иногда три
Реализация через Guardian STC. Атомарные шаги: тест, код, верификация, коммит
Деплой

И заметьте, это никакой не магический вайбкодинг в стиле «написал промпт и побежал», тут вся разработка с помощью нейросети держится на процессе: я задаю направление, модерирую споры, принимаю решения и ругаюсь когда AI уходит не туда, а Claude Code в это время пишет код, Claude и GPT спорят, и шесть экспертов разбирают архитектуру. Тем же процессом со спеками и дебатами я перестраивал и MAKO — связка эта работает через `/consilium` и Guardian, который сидит на Claude Code MCP и не даёт пропустить ни один шаг.

Что изменилось в продукте

До этих двух дней Anima была просто помощником и показывала черновики оператору, а после Phase 9 она уже может отвечать клиентам сама, и это качественный переход, а не косметика.

Knowledge Base дала ей знания (pgvector вместо восьми хардкодных Q&A), Evidence-First Learning дала стиль (обучение на манере письма конкретного оператора), а Auto-Replies дала автономность (два режима с метрикой readiness).

Три фазы, на каждой полный цикл обсуждений и проверок, и четыре ошибки Claude Code в Phase 9 пойманы до прода. Без Guardian STC они прошли бы незамеченными, и вот делайте выводы, стоит ли отпускать ai агентов в прод без формального процесса вокруг них.