ОптимизацияЭкономияAPIПрактика

Как я сократил расходы на AI на 70% и вы можете тоже

Практические лайфхаки по экономии на языковых моделях. Без воды - только работающие техники, которые использую в реальных проектах.

Михаил Р.
25 августа 2025
15 мин

Три месяца назад мой счет за AI-сервисы был космическим - около 15000₽ в месяц. Сейчас трачу максимум 4500₽ при том же объеме работы. Рассказываю как.


Откуда такие траты были


**Мои проекты:**

  • 3 Telegram-бота для разных клиентов
  • Генерация контента для сайтов
  • Помощь в кодинге (работаю фулстек разработчиком)
  • Анализ отзывов клиентов для интернет-магазина

  • **Что делал неправильно:**

  • Использовал GPT-4o для всего подряд (дорогая модель)
  • Не кэшировал частые запросы
  • Посылал огромные промпты без оптимизации (5000+ токенов на запрос)
  • Не группировал похожие задачи
  • Использовал streaming для всех запросов, даже когда не нужен

  • Техника 1: Выбор модели по задаче


    **Главный принцип:** не все задачи требуют GPT-4o. Большинство работает на более дешевых моделях.


    **Моя матрица выбора:**


    Код (text):

    Простая задача (FAQ, перевод, форматирование)

    → Claude 3 Haiku или GPT-4o-mini

    → Экономия: 80-90%


    Стандартная задача (генерация текста, анализ)

    → Claude 3 Sonnet или GPT-4o

    → Экономия: 40-60%


    Сложная задача (код, анализ данных)

    → GPT-4o или Claude 3.5 Sonnet

    → Полная цена, но оправдано

    Код (text):

    **Пример:** Для Telegram-бота с FAQ перешел с GPT-4o на Claude 3 Haiku. Качество ответов не изменилось, стоимость упала с 300₽ до 35₽ в месяц.


    Техника 2: Оптимизация промптов


    **До:**

    Код (text):

    Ты умный ассистент. Помоги пользователю ответить на вопрос про продукт.

    Вопрос: "Как работает ваш сервис?"

    Вот информация о продукте: [5000 символов технической документации]

    Код (text):

    **После:**

    Код (text):

    Вопрос: "Как работает ваш сервис?"

    Краткий ответ на основе документации:

  • API принимает запросы
  • Обрабатывает через LLM
  • Возвращает ответ
  • Код (text):

    **Результат:** Уменьшил промпты на 70%. Меньше токенов = меньше денег.


    Техника 3: Кэширование повторяющихся запросов


    Для ботов часто приходят одинаковые вопросы. Реализовал простой кэш:


    Код (python):

    import hashlib

    import json

    from functools import lru_cache


    cache = {}


    def get_cache_key(messages, model):

    """Создает ключ для кэша"""

    data = json.dumps(messages, sort_keys=True) + model

    return hashlib.md5(data.encode()).hexdigest()


    def cached_llm_request(client, messages, model, max_tokens=500):

    """Запрос с кэшированием"""

    cache_key = get_cache_key(messages, model)


    if cache_key in cache:

    print(f"✅ Cache hit! Экономия: ~{max_tokens * 0.01}₽")

    return cache[cache_key]


    response = client.chat.completions.create(

    model=model,

    messages=messages,

    max_tokens=max_tokens,

    temperature=0.7

    )


    result = response.choices[0].message.content

    cache[cache_key] = result


    return result

    Код (text):

    **Экономия:** 30-40% на типовых запросах (FAQ, стандартные ответы).


    Техника 4: Батчинг запросов


    Вместо отправки 10 отдельных запросов, группирую их в один:


    Код (python):

    # Плохо: 10 запросов по 100 токенов = 1000 токенов входных

    for question in questions:

    response = client.chat.completions.create(...)


    # Хорошо: 1 запрос с батчем = 1100 токенов (меньше overhead)

    batch_prompt = "Ответь на вопросы:\n\n" + "\n\n".join(questions)

    response = client.chat.completions.create(

    messages=[{"role": "user", "content": batch_prompt}]

    )

    Код (text):

    **Экономия:** 20-30% за счет снижения overhead API.


    Техника 5: Умное ограничение токенов


    Всегда ставлю разумный max_tokens:


    Код (text):

    Краткий ответ → max_tokens=150

    Обычный текст → max_tokens=500

    Длинный контент → max_tokens=2000

    Код (text):

    **Зачем:** Модели иногда генерируют больше, чем нужно. Ограничение помогает контролировать расходы.


    Техника 6: Использование более дешевых моделей через LLM_КИ


    Через LLM_КИ можно легко переключаться между моделями:


    Код (python):

    from openai import OpenAI


    client = OpenAI(

    api_key="sk-llmki-ai-...",

    base_url="https://llmki.ru/v1"

    )


    # Для простых задач - дешевая модель

    simple_response = client.chat.completions.create(

    model="anthropic/claude-3-haiku", # Дешево

    messages=[...]

    )


    # Для сложных - дорогая

    complex_response = client.chat.completions.create(

    model="openai/gpt-4o", # Дорого, но оправдано

    messages=[...]

    )

    Код (text):

    **Плюс:** Один API для всех моделей - не нужно регистрироваться везде.


    Техника 7: Отключение streaming там, где не нужен


    Streaming увеличивает latency и иногда стоимость. Использую только для пользовательских интерфейсов:


    Код (python):

    # Streaming только для UI

    if show_progress_to_user:

    stream = True

    else:

    stream = False # Быстрее и дешевле

    Код (text):

    Итоговая таблица экономии


    | Область | Было | Стало | Экономия |

    |---------|------|-------|----------|

    | Выбор модели | 100% | 30% | -70% |

    | Оптимизация промптов | 100% | 70% | -30% |

    | Кэширование | 0% | 35% | -35% |

    | Батчинг | 0% | 25% | -25% |


    **Общая экономия: 70%** (15000₽ → 4500₽)


    Практические примеры


    Пример 1: Telegram-бот FAQ


    **Было:**

  • GPT-4o для всех запросов
  • ~5000 запросов/месяц
  • 300₽/месяц

  • **Стало:**

  • Claude 3 Haiku для FAQ
  • Кэширование повторяющихся вопросов
  • 35₽/месяц

  • **Экономия: 88%**


    Пример 2: Генерация контента


    **Было:**

  • Отдельный запрос для каждой статьи
  • GPT-4o с большими промптами
  • 8000₽/месяц

  • **Стало:**

  • Claude 3 Sonnet (в 2 раза дешевле GPT-4o)
  • Оптимизированные промпты
  • Батчинг для похожих статей
  • 2400₽/месяц

  • **Экономия: 70%**


    Пример 3: Анализ данных


    **Было:**

  • GPT-4o для каждого отзыва отдельно
  • 2000₽/месяц

  • **Стало:**

  • Батчинг по 50 отзывов
  • Claude 3 Sonnet вместо GPT-4o
  • 600₽/месяц

  • **Экономия: 70%**


    Чеклист для экономии


    Перед каждым проектом задаю вопросы:


  • [ ] Можно ли использовать более дешевую модель?
  • [ ] Нужно ли кэширование для этих запросов?
  • [ ] Можно ли объединить запросы в батчи?
  • [ ] Оптимизирован ли промпт (без лишних слов)?
  • [ ] Установлен ли разумный max_tokens?
  • [ ] Нужен ли streaming для этой задачи?

  • Заключение


    Экономия на AI - это не про снижение качества, а про умное использование ресурсов. Большинство задач не требуют самых дорогих моделей. Главное - понять, где действительно нужна мощь GPT-4o, а где хватит Claude Haiku.


    Что дальше?


  • Начните с перевода простых задач на дешевые модели
  • Добавьте кэширование для повторяющихся запросов
  • Оптимизируйте промпты - убирайте "воду"
  • Группируйте похожие запросы в батчи

  • Попробуйте применить хотя бы 2-3 техники, и увидите результат уже в первый месяц!

    Другие статьи

    СтудентыУчёба
    Как LLM_КИ помогает студентам: учёба без перерасхода
    Конспекты, планы, перефраз и проверка фактов на дешёвых моделях. Готовые промпты и лайфхаки экономии.
    16 ноября 20257 мин
    Читать
    БытСемья
    Как LLM_КИ помогает мамам: быт, меню и списки дел
    Меню на неделю, списки покупок, идеи занятий и вежливые ответы в чатах. Три простых сценария с готовыми шаблонами.
    14 ноября 20256 мин
    Читать
    Статья не найдена — Блог LLM_КИ