Карусели — 0 просмотров, рилс — 515: неделя боли с AI-генерацией видео

Если вы делаете контент для холодного аккаунта в Instagram и решили начать с каруселей, то вот вам сразу итог недели, чтобы вы не наступали на те же грабли, что и я: карусели на старте, когда у вас 0–50 подписчиков, ловят ровно ноль просмотров, инст их вообще никому не показывает, а вот короткий рилс с оживлённой через нейросеть героиней за почти сутки набрал 515 просмотров, 3 лайка и 1 репост. Цифры смешные, я понимаю, но это уже хоть что-то живое после полной тишины. И вся неделя была про то, как я через AI-генерацию видео нащупывал, что именно работает на пустом профиле, и сколько боли в этом по дороге.

Контекст для тех, кто не в курсе: я строю отдельный мульти-брендовый движок, который называю Кузница, и его задача — гнать бесплатный трафик в мой AI-проект Картару через карусели и рилсы. То есть это не ручная лепка постов по одному, а конвейер: карусели собираются программно в PNG 1080×1350, а рилсы — это порт другого моего пайплайна. Идея простая как палка: автоматизация контента с помощью ии, чтобы один человек, то есть я, мог кормить несколько брендов и при этом не сидеть в фотошопе сутками. Звучит красиво, а на практике первая же стена — это сам Instagram, которому плевать на ваш красивый конвейер, если у вас пустой аккаунт.

Карусели на холодном старте — это в стену

Я сделал карусели, залил, и тишина. Ваще 0 просмотров даже на каком-либо посте, инст вообще никому не показывает. И тут важно понять не «мой контент плохой», а саму механику: алгоритму нужно кому-то ваш пост показать, чтобы решить, хороший он или нет, а на холодном профиле без истории и без подписчиков ему просто некому его показать, и он не рискует. Получается замкнутый круг — чтобы тебя начали показывать, нужны охваты, а чтобы были охваты, тебя надо начать показывать. С каруселью этот круг особенно злой, ведь это статика, её надо листать, а человеку лень листать пост от незнакомого аккаунта без причины.

Я про эту стену уже писал раньше в заметке про 20 аккаунтов и пустой профиль, но тогда думал, что дело в количестве аккаунтов. А оказалось, дело ещё и в самом формате. Карусель на старте — это не про «докрутить дизайн», это про то, что формат не пробивает холодную раздачу в принципе. Поэтому я и развернулся на рилсы.

Пивот на короткие рилсы и где тут смысл

Логика рилса под холодный старт получилась такая: длина до 10 секунд, на экране оживлённая героиня, которую я делаю через image-to-video, минимальный хук прямо на видео, а весь смысл — в описании. То есть видео это приманка, чтобы человек остановился и не пролистал, а текст под ним уже делает работу. Это, кстати, моё общее правило для контента: сначала я пишу текст-драфт в отдельный файл и довожу его до состояния, когда сам читаю взахлёб, и только потом упаковываю его в слайды или в описание дословно. Текст первичен, картинка вторична, а не наоборот, иначе получается красивая пустышка — а ещё, как я выяснил, этот текст не должен пахнуть нейросетью, иначе человек чувствует фальшь и уходит.

И вот тут началась настоящая возня с нейросетями. Чтобы из статичной картинки сделать вертикальное видео 9:16, картинку надо сначала расширить до нужного формата, и расширение мне меняло лицо героини, а иногда она просто тонула в полу, как будто проваливалась сквозь него. Я гонял её через несколько моделей — Midjourney, Grok, ещё одну под кодовым названием Nano Banana — и каждая давала свой стиль, то есть собрать единый облик персонажа из разных генераторов это вообще отдельная головная боль. Один кадр в одном стиле, следующий в другом, и сидишь подбираешь, пока глаза не закипят.

Kling, который дует свечу как на празднике

А самое весёлое было с анимацией движения. Я пробовал Kling 2.5 turbo и Kling 3, и они анимировали криво до смешного. Классика — героиня задувает свечу, и по итогу, цитирую сам себя в момент истерики: «Пиздец она дует блять. Нет бы эстетично как-то легонько. А она сука как на праздник задувает». А свеча после всего этого так и горит, представляете? То есть модель сделала вид, что дует, движение вроде есть, а физики нет, и результат ноль. Вот тебе и Kling 3, новая дорогая модель, а простую человеческую мелочь сделать нежно — не может.

И это, если честно, главный урок про разработку с ии и про генерацию контента вообще: модели умеют делать вау-кадр для демки, но не умеют выдавать предсказуемо одинаковый результат раз за разом, а конвейеру нужна именно предсказуемость. Мне не нужен один шедевр, мне нужно, чтобы из десяти видео восемь были нормальные и я мог их публиковать не глядя. А пока что каждое видео это ручная борьба с моделью, которая то лицо поменяет, то свечу не задует, то героиню в пол утопит.

Цифры, которые отрезвляют

Давайте по цифрам, а то без них это просто нытьё. Первый рилс: почти сутки прошли, 515 просмотров, 3 лайка, 1 репост, и доля пропусков 60 процентов. То есть из тех, кому показали, больше половины пролистали, не досмотрев. Второй рилс набрал всего около 30 просмотров. Сравните это с карусельным нулём — рилс хотя бы дышит, его раздают. Но 60 процентов пропусков это прямой сигнал, что хук слабый и первые секунды не цепляют, вот тут как раз и надо докручивать. Как я сам себе записал по горячим следам: работает, но надо докручивать.

Это и есть честная картина: формат угадал, механику нащупал, а вот качество удержания пока сырое. И нет тут никакого «взлетели», есть медленное прощупывание того, что именно держит человека в кадре эти несчастные 10 секунд.

Следующий уровень — фотореалистичный аватар с озвучкой

Пока я воевал с анимацией картинок, родилась идея сделать шаг в сторону: уйти от оживлённой статики к фотореалистичному AI-аватару с настоящим липсинком и клонированным русским голосом через ElevenLabs. То есть не картинка, которая еле шевелится, а персонаж, который реально говорит вашим заготовленным текстом, и губы попадают в звук. По прикидкам это выходит где-то 150–200 рублей за видео, что для конвейера вполне подъёмно, особенно если это убирает половину ручной возни с расширением кадра и кривой анимацией.

Заработает ли это лучше — честно, пока не знаю, это гипотеза, и я её ещё не проверил. Может выстрелить, а может оказаться, что говорящая голова на холодном старте раздаётся не лучше оживлённой картинки, и я опять упрусь в те же 60 процентов пропусков. Но логика в том, чтобы убрать самое слабое звено — анимацию, которая ломается, — и заменить его на то, что модели делают стабильнее, то есть липсинк и голос.

Что я из этой недели вынес

Если коротко свести всё в выводы, для тех, кто думает, что нейросети для бизнеса и контента это волшебная кнопка. На холодном аккаунте формат решает больше, чем качество, и карусель там просто не работает, не тратьте на неё время. Image-to-video и все эти Kling с Midjourney дают красивый одиночный кадр, но конвейеру нужна повторяемость, а её пока нет, и каждое видео это ручной труд, несмотря на всю автоматизацию. И ещё: смысл всегда в тексте, видео это только повод остановиться, потому я и пишу текст до того, как вообще трогаю картинки.

У меня уже был отдельный разбор про то, как я собирал AI-пайплайн для рилсов от темы до публикации, и эта неделя — это его продолжение, только теперь с набитыми о Kling шишками. Движок Кузница живёт, трафик потихоньку капает, и я честно говорю, что это не история успеха, а история докручивания. 515 просмотров это не победа, это первый признак, что я копаю в верную сторону. А дальше — аватар, голос, и снова цифры, которые либо подтвердят гипотезу, либо отправят меня переделывать. Вот и делайте выводы.