Три месяца назад мой счет за AI-сервисы был космическим - около 15000₽ в месяц. Сейчас трачу максимум 4500₽ при том же объеме работы. Рассказываю как.
Откуда такие траты были
**Мои проекты:**
**Что делал неправильно:**
Техника 1: Выбор модели по задаче
**Главный принцип:** не все задачи требуют GPT-4o. Большинство работает на более дешевых моделях.
**Моя матрица выбора:**
Простая задача (FAQ, перевод, форматирование)
→ Claude 3 Haiku или GPT-4o-mini
→ Экономия: 80-90%
Стандартная задача (генерация текста, анализ)
→ Claude 3 Sonnet или GPT-4o
→ Экономия: 40-60%
Сложная задача (код, анализ данных)
→ GPT-4o или Claude 3.5 Sonnet
→ Полная цена, но оправдано
**Пример:** Для Telegram-бота с FAQ перешел с GPT-4o на Claude 3 Haiku. Качество ответов не изменилось, стоимость упала с 300₽ до 35₽ в месяц.
Техника 2: Оптимизация промптов
**До:**
Ты умный ассистент. Помоги пользователю ответить на вопрос про продукт.
Вопрос: "Как работает ваш сервис?"
Вот информация о продукте: [5000 символов технической документации]
**После:**
Вопрос: "Как работает ваш сервис?"
Краткий ответ на основе документации:
**Результат:** Уменьшил промпты на 70%. Меньше токенов = меньше денег.
Техника 3: Кэширование повторяющихся запросов
Для ботов часто приходят одинаковые вопросы. Реализовал простой кэш:
import hashlib
import json
from functools import lru_cache
cache = {}
def get_cache_key(messages, model):
"""Создает ключ для кэша"""
data = json.dumps(messages, sort_keys=True) + model
return hashlib.md5(data.encode()).hexdigest()
def cached_llm_request(client, messages, model, max_tokens=500):
"""Запрос с кэшированием"""
cache_key = get_cache_key(messages, model)
if cache_key in cache:
print(f"✅ Cache hit! Экономия: ~{max_tokens * 0.01}₽")
return cache[cache_key]
response = client.chat.completions.create(
model=model,
messages=messages,
max_tokens=max_tokens,
temperature=0.7
)
result = response.choices[0].message.content
cache[cache_key] = result
return result
**Экономия:** 30-40% на типовых запросах (FAQ, стандартные ответы).
Техника 4: Батчинг запросов
Вместо отправки 10 отдельных запросов, группирую их в один:
# Плохо: 10 запросов по 100 токенов = 1000 токенов входных
for question in questions:
response = client.chat.completions.create(...)
# Хорошо: 1 запрос с батчем = 1100 токенов (меньше overhead)
batch_prompt = "Ответь на вопросы:\n\n" + "\n\n".join(questions)
response = client.chat.completions.create(
messages=[{"role": "user", "content": batch_prompt}]
)
**Экономия:** 20-30% за счет снижения overhead API.
Техника 5: Умное ограничение токенов
Всегда ставлю разумный max_tokens:
Краткий ответ → max_tokens=150
Обычный текст → max_tokens=500
Длинный контент → max_tokens=2000
**Зачем:** Модели иногда генерируют больше, чем нужно. Ограничение помогает контролировать расходы.
Техника 6: Использование более дешевых моделей через LLM_КИ
Через LLM_КИ можно легко переключаться между моделями:
from openai import OpenAI
client = OpenAI(
api_key="sk-llmki-ai-...",
base_url="https://llmki.ru/v1"
)
# Для простых задач - дешевая модель
simple_response = client.chat.completions.create(
model="anthropic/claude-3-haiku", # Дешево
messages=[...]
)
# Для сложных - дорогая
complex_response = client.chat.completions.create(
model="openai/gpt-4o", # Дорого, но оправдано
messages=[...]
)
**Плюс:** Один API для всех моделей - не нужно регистрироваться везде.
Техника 7: Отключение streaming там, где не нужен
Streaming увеличивает latency и иногда стоимость. Использую только для пользовательских интерфейсов:
# Streaming только для UI
if show_progress_to_user:
stream = True
else:
stream = False # Быстрее и дешевле
Итоговая таблица экономии
| Область | Было | Стало | Экономия |
|---------|------|-------|----------|
| Выбор модели | 100% | 30% | -70% |
| Оптимизация промптов | 100% | 70% | -30% |
| Кэширование | 0% | 35% | -35% |
| Батчинг | 0% | 25% | -25% |
**Общая экономия: 70%** (15000₽ → 4500₽)
Практические примеры
Пример 1: Telegram-бот FAQ
**Было:**
**Стало:**
**Экономия: 88%**
Пример 2: Генерация контента
**Было:**
**Стало:**
**Экономия: 70%**
Пример 3: Анализ данных
**Было:**
**Стало:**
**Экономия: 70%**
Чеклист для экономии
Перед каждым проектом задаю вопросы:
Заключение
Экономия на AI - это не про снижение качества, а про умное использование ресурсов. Большинство задач не требуют самых дорогих моделей. Главное - понять, где действительно нужна мощь GPT-4o, а где хватит Claude Haiku.
Что дальше?
Попробуйте применить хотя бы 2-3 техники, и увидите результат уже в первый месяц!