Статья не найдена — Блог LLM

Три месяца назад мой счет за AI-сервисы был космическим - около 15000₽ в месяц. Сейчас трачу максимум 4500₽ при том же объеме работы. Рассказываю как.

Откуда такие траты были

**Мои проекты:**

3 Telegram-бота для разных клиентов

Генерация контента для сайтов

Помощь в кодинге (работаю фулстек разработчиком)

Анализ отзывов клиентов для интернет-магазина

**Что делал неправильно:**

Использовал GPT-4o для всего подряд (дорогая модель)

Не кэшировал частые запросы

Посылал огромные промпты без оптимизации (5000+ токенов на запрос)

Не группировал похожие задачи

Использовал streaming для всех запросов, даже когда не нужен

Техника 1: Выбор модели по задаче

**Главный принцип:** не все задачи требуют GPT-4o. Большинство работает на более дешевых моделях.

**Моя матрица выбора:**

Код (text):

Простая задача (FAQ, перевод, форматирование)

→ Claude 3 Haiku или GPT-4o-mini

→ Экономия: 80-90%

Стандартная задача (генерация текста, анализ)

→ Claude 3 Sonnet или GPT-4o

→ Экономия: 40-60%

Сложная задача (код, анализ данных)

→ GPT-4o или Claude 3.5 Sonnet

→ Полная цена, но оправдано

Код (text):

**Пример:** Для Telegram-бота с FAQ перешел с GPT-4o на Claude 3 Haiku. Качество ответов не изменилось, стоимость упала с 300₽ до 35₽ в месяц.

Техника 2: Оптимизация промптов

**До:**

Код (text):

Ты умный ассистент. Помоги пользователю ответить на вопрос про продукт.

Вопрос: "Как работает ваш сервис?"

Вот информация о продукте: [5000 символов технической документации]

Код (text):

**После:**

Код (text):

Вопрос: "Как работает ваш сервис?"

Краткий ответ на основе документации:

API принимает запросы

Обрабатывает через LLM

Возвращает ответ

Код (text):

**Результат:** Уменьшил промпты на 70%. Меньше токенов = меньше денег.

Техника 3: Кэширование повторяющихся запросов

Для ботов часто приходят одинаковые вопросы. Реализовал простой кэш:

Код (python):

import hashlib

import json

from functools import lru_cache

cache = {}

def get_cache_key(messages, model):

"""Создает ключ для кэша"""

data = json.dumps(messages, sort_keys=True) + model

return hashlib.md5(data.encode()).hexdigest()

def cached_llm_request(client, messages, model, max_tokens=500):

"""Запрос с кэшированием"""

cache_key = get_cache_key(messages, model)

if cache_key in cache:

print(f"✅ Cache hit! Экономия: ~{max_tokens * 0.01}₽")

return cache[cache_key]

response = client.chat.completions.create(

model=model,

messages=messages,

max_tokens=max_tokens,

temperature=0.7

)

result = response.choices[0].message.content

cache[cache_key] = result

return result

Код (text):

**Экономия:** 30-40% на типовых запросах (FAQ, стандартные ответы).

Техника 4: Батчинг запросов

Вместо отправки 10 отдельных запросов, группирую их в один:

Код (python):

# Плохо: 10 запросов по 100 токенов = 1000 токенов входных

for question in questions:

response = client.chat.completions.create(...)

# Хорошо: 1 запрос с батчем = 1100 токенов (меньше overhead)

batch_prompt = "Ответь на вопросы:\n\n" + "\n\n".join(questions)

response = client.chat.completions.create(

messages=[{"role": "user", "content": batch_prompt}]

)

Код (text):

**Экономия:** 20-30% за счет снижения overhead API.

Техника 5: Умное ограничение токенов

Всегда ставлю разумный max_tokens:

Код (text):

Краткий ответ → max_tokens=150

Обычный текст → max_tokens=500

Длинный контент → max_tokens=2000

Код (text):

**Зачем:** Модели иногда генерируют больше, чем нужно. Ограничение помогает контролировать расходы.

Техника 6: Использование более дешевых моделей через LLM_КИ

Через LLM_КИ можно легко переключаться между моделями:

Код (python):

from openai import OpenAI

client = OpenAI(

api_key="sk-llmki-ai-...",

base_url="https://llmki.ru/v1"

)

# Для простых задач - дешевая модель

simple_response = client.chat.completions.create(

model="anthropic/claude-3-haiku", # Дешево

messages=[...]

)

# Для сложных - дорогая

complex_response = client.chat.completions.create(

model="openai/gpt-4o", # Дорого, но оправдано

messages=[...]

)

Код (text):

**Плюс:** Один API для всех моделей - не нужно регистрироваться везде.

Техника 7: Отключение streaming там, где не нужен

Streaming увеличивает latency и иногда стоимость. Использую только для пользовательских интерфейсов:

Код (python):

# Streaming только для UI

if show_progress_to_user:

stream = True

else:

stream = False # Быстрее и дешевле

Код (text):

Итоговая таблица экономии

|---------|------|-------|----------|

| Выбор модели | 100% | 30% | -70% |

| Оптимизация промптов | 100% | 70% | -30% |

| Кэширование | 0% | 35% | -35% |

| Батчинг | 0% | 25% | -25% |

**Общая экономия: 70%** (15000₽ → 4500₽)

Практические примеры

Пример 1: Telegram-бот FAQ

**Было:**

GPT-4o для всех запросов

~5000 запросов/месяц

300₽/месяц

**Стало:**

Claude 3 Haiku для FAQ

Кэширование повторяющихся вопросов

35₽/месяц

**Экономия: 88%**

Пример 2: Генерация контента

**Было:**

Отдельный запрос для каждой статьи

GPT-4o с большими промптами

8000₽/месяц

**Стало:**

Claude 3 Sonnet (в 2 раза дешевле GPT-4o)

Оптимизированные промпты

Батчинг для похожих статей

2400₽/месяц

**Экономия: 70%**

Пример 3: Анализ данных

**Было:**

GPT-4o для каждого отзыва отдельно

2000₽/месяц

**Стало:**

Батчинг по 50 отзывов

Claude 3 Sonnet вместо GPT-4o

600₽/месяц

**Экономия: 70%**

Чеклист для экономии

Перед каждым проектом задаю вопросы:

[ ] Можно ли использовать более дешевую модель?

[ ] Нужно ли кэширование для этих запросов?

[ ] Можно ли объединить запросы в батчи?

[ ] Оптимизирован ли промпт (без лишних слов)?

[ ] Установлен ли разумный max_tokens?

[ ] Нужен ли streaming для этой задачи?

Заключение

Экономия на AI - это не про снижение качества, а про умное использование ресурсов. Большинство задач не требуют самых дорогих моделей. Главное - понять, где действительно нужна мощь GPT-4o, а где хватит Claude Haiku.

Что дальше?

Начните с перевода простых задач на дешевые модели

Добавьте кэширование для повторяющихся запросов

Оптимизируйте промпты - убирайте "воду"

Группируйте похожие запросы в батчи

Попробуйте применить хотя бы 2-3 техники, и увидите результат уже в первый месяц!

Как я сократил расходы на AI на 70% и вы можете тоже

Откуда такие траты были

Техника 1: Выбор модели по задаче

Техника 2: Оптимизация промптов

Техника 3: Кэширование повторяющихся запросов

Техника 4: Батчинг запросов

Техника 5: Умное ограничение токенов

Техника 6: Использование более дешевых моделей через LLM_КИ

Техника 7: Отключение streaming там, где не нужен

Итоговая таблица экономии

Практические примеры

Пример 1: Telegram-бот FAQ

Пример 2: Генерация контента

Пример 3: Анализ данных

Чеклист для экономии

Заключение

Что дальше?

Другие статьи