6 февраля, Opus 4.6 – обновленная модель от Anthropic.
20 января, GPT-5.2 Codex от OpenAI.
15 января, Flux 2 [klein] 4B и 9B – работа с изображением (создание по тексту, редактирование), сопоставима с обычной Nano Banana.
12 января, поддержка Claude Code. Сделали альтернативный доступ к нейросетям через Anthropic-совместимое API, и теперь можно использовать Claude Code для программирования.
17 декабря, Gemini 3.0 Flash Preview от Google – легкая модель, чуть хуже топовой Gemini 3.0 Pro Preview.
12 декабря, GPT-5.2, GPT-5.2 Pro от OpenAI.
8 декабря, Seedream 4.5 – работа с изображением (создание по тексту, редактирование), конкурент Nano Banana Pro.
2 декабря, DeepSeek 3.2 – обновленная модель от DeepSeek.
25 ноября, Opus 4.5 – обновленная модель от Anthropic.
20 ноября, Nano Banana Pro – создание и редактирование изображений от Google, в течение 3 часов после публикации.
18 ноября, Gemini 3.0 Pro Preview от Google, в течение 3 часов после публикации.
14 ноября, GPT-5.1 от OpenAI.
6 ноября, Kimi K2 Thinking – в течение 2 часов после публикации. Опенсорс модель уровня GPT-5, согласно метрикам.
4 ноября, Kling 2.5. Топовая модель генерации видео.
4 ноября, Sora 2 от OpenAI. Топовая модель генерации видео.
31 октября, Veo 3.1 Fast от Google. Топовая модель генерации видео.
31 октября, Minimax M2 от Minimax. Топовая опенсорс модель.
22 октября, Grok 4 Fast от xAI. Модель уровня GPT-5, но значительно быстрее и дешевле.
22 октября, GPT 5 Pro от OpenAI. Самая дорогая и топовая модель.
16 октября, Haiku 4.5 – обновленная модель от Anthropic. По метрикам сопоставима с более старой Sonnet 4, но дешевле её практически в 5 раз!
29 сентября, Sonnet 4.5 – обновленная модель от Anthropic
29 сентября, DeepSeek Chat 3.2 Exp – обновленная модель от DeepSeek со значительным понижением стоимости генерации
Нейросети от мирового лидера, OpenAI. Если вы только погружаетесь в тему текстовых нейросетей – оптимально выбрать ChatGPT (gpt-3.5-turbo) в качестве основного варианта. Если вам нужна бОльшая точность в рассуждениях – выберите GPT-4. GPT-4-Turbo обладает контекстом в 128 000 символов и подходит в том числе для обработки больших файлов – но она в меру дорогая.
Внимание: для новых пользователей включена автоматическая оптимизация запросов при выборе сетeй OpenAI – выбирается самая эффективная и дешевая в своем классе. Если вы хотите точного соответствия модели вашему запросу, отключите оптимизацию в Настройках
Модель и ID
Руб за 1000 символов входных данных
Руб за 1000 символов генерации модели
Размер конте кста
Дата обнов ления
Авто моде ра ция
OpenAI: GPT-5.2 Codex (Thinking) ? openai/gpt-5.2-codex Профессиональный (не Тестовый)топпрограммирование и общие задачиtoolsstructured-outputs
0.52
3.90
400000
20 янв
да
OpenAI: GPT-5.2 Pro (Thinking High) ? openai/gpt-5.2-pro-high Профессиональный (не Тестовый)топ, но ОЧЕНЬ дорогаяtoolsstructured-outputs
6.0
45.0
400000
12 дек 25
да
OpenAI: GPT-5.2 Pro (Thinking) ? openai/gpt-5.2-pro Профессиональный (не Тестовый)топ, но ОЧЕНЬ дорогаяtoolsstructured-outputs
6.0
45.0
400000
12 дек 25
да
OpenAI: GPT-5.2 (Thinking X-High) ? openai/gpt-5.2-xhigh Профессиональный (не Тестовый)топtoolsstructured-outputs
OpenAI: GPT-5.1 Codex Max (Thinking) ? openai/gpt-5.1-codex-max Профессиональный (не Тестовый)топпрограммирование и общие задачиtoolsstructured-outputs
0.37
2.80
400000
8 дек 25
да
OpenAI: GPT-5.1 Codex Mini (Thinking) ? openai/gpt-5.1-codex-mini программирование и общие задачиtoolsstructured-outputs
0.08
0.56
400000
14 ноя 25
да
OpenAI: GPT-5.1 Codex (Thinking) ? openai/gpt-5.1-codex Профессиональный (не Тестовый)топпрограммирование и общие задачиtoolsstructured-outputs
0.37
2.80
400000
14 ноя 25
да
OpenAI: GPT-5.1 (Thinking) ? openai/gpt-5.1 Профессиональный (не Тестовый)топtoolsstructured-outputs
OpenAI: o4-mini-high (пресет для глубоких размышлений от o4-mini) ? openai/o4-mini-high Профессиональный (не Тестовый)биллинг с учетом размышлений (см. ?)размышления, математикаtoolsstructured-outputs
0.28
1.12
200000
16 апр 25
да
OpenAI: o4-mini (для размышлений, не рек. для обычных задач) ? openai/o4-mini Профессиональный (не Тестовый)биллинг с учетом размышлений (см. ?)размышления, математикаtoolsstructured-outputs
0.28
1.12
200000
16 апр 25
да
OpenAI: GPT-4.1 ? openai/gpt-4.1 Профессиональныйтоп от 14 апреляtoolsstructured-outputs
0.28
1.12
1000000
14 апр 25
да
OpenAI: GPT-4.1 Mini ? openai/gpt-4.1-mini toolsstructured-outputs
0.06
0.24
1000000
14 апр 25
да
OpenAI: GPT-4.1 Nano ? openai/gpt-4.1-nano дешевая и с большим контекстомtoolsstructured-outputs
0.015
0.06
1000000
14 апр 25
да
OpenAI: GPT-4.5 (Preview) ? openai/gpt-4.5-preview Профессиональный (не Тестовый)
20.00
40.00
128000
28 фев 25
да
OpenAI: o3-mini-high (пресет для глубоких размышлений от o3-mini) ? openai/o3-mini-high Профессиональный (не Тестовый)биллинг с учетом размышлений (см. ?)размышления, математикаstructured-outputs
0.28
1.12
200000
14 фев 25
да
OpenAI: o3-mini (для размышлений, не рек. для обычных задач) ? openai/o3-mini Профессиональный (не Тестовый)биллинг с учетом размышлений (см. ?)размышления, математикаstructured-outputs
0.28
1.12
200000
1 фев 25
да
OpenAI: o1 (для размышлений, не рек. для обычных задач) ? openai/o1 Профессиональный (не Тестовый)биллинг с учетом размышлений (см. ?)размышления, математикаtoolsstructured-outputs
GPT-5.2-Codex — это улучшенная версия GPT-5.1-Codex, оптимизированная для программной инженерии и рабочих процессов кодирования. Она предназначена как для интерактивных сессий разработки, так и для длительного автономного выполнения сложных инженерных задач. Модель поддерживает создание проектов с нуля, разработку функций, отладку, крупномасштабный рефакторинг и проверку кода.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: GPT-5.2 Pro (Thinking High)
GPT-5.2 Pro — это самая продвинутая модель OpenAI, предлагающая значительные улучшения в агентном кодировании и производительности при работе с длинным контекстом по сравнению с GPT-5 Pro. Она оптимизирована для сложных задач, требующих пошагового рассуждения, следования инструкциям и точности в критически важных случаях использования.
Вариант Thinking High - с большим числом размышлений при необходимости.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Модель НЕ поддерживает стриминг, используйте настройку без стриминга.
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
Минимальный баланс для вызова модели: 1200р. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: GPT-5.2 Pro (Thinking)
GPT-5.2 Pro — это самая продвинутая модель OpenAI, предлагающая значительные улучшения в агентном кодировании и производительности при работе с длинным контекстом по сравнению с GPT-5 Pro. Она оптимизирована для сложных задач, требующих пошагового рассуждения, следования инструкциям и точности в критически важных случаях использования.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Модель НЕ поддерживает стриминг, используйте настройку без стриминга.
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
Минимальный баланс для вызова модели: 800р. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: GPT-5.2 (Thinking X-High)
GPT-5.2 — это новейшая передовая модель в серии GPT-5, обеспечивающая более высокую агентную производительность и производительность при работе с длинным контекстом по сравнению с GPT-5.1. Она использует адаптивное рассуждение для динамического распределения вычислительных ресурсов, быстро отвечая на простые запросы и затрачивая больше времени на сложные задачи.
Версия Thinking X-High с X-High пресетом на рассуждения (больше рассуждений при необходимости)
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: GPT-5.2 (Thinking High)
GPT-5.2 — это новейшая передовая модель в серии GPT-5, обеспечивающая более высокую агентную производительность и производительность при работе с длинным контекстом по сравнению с GPT-5.1. Она использует адаптивное рассуждение для динамического распределения вычислительных ресурсов, быстро отвечая на простые запросы и затрачивая больше времени на сложные задачи.
Версия Thinking High с High пресетом на рассуждения (больше рассуждений при необходимости)
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: GPT-5.2 (Thinking)
GPT-5.2 — это новейшая передовая модель в серии GPT-5, обеспечивающая более высокую агентную производительность и производительность при работе с длинным контекстом по сравнению с GPT-5.1. Она использует адаптивное рассуждение для динамического распределения вычислительных ресурсов, быстро отвечая на простые запросы и затрачивая больше времени на сложные задачи.
Созданная для широкого охвата задач, GPT-5.2 демонстрирует стабильное улучшение в математике, программировании, науке и при вызове инструментов, с более связными развёрнутыми ответами и повышенной надёжностью использования инструментов.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: GPT-5.2 Chat
GPT-5.2 Chat (также известный как Instant) — это быстрый и облегченный член семейства 5.2, оптимизированный для чата с низкой задержкой при сохранении сильного общего интеллекта. Он использует адаптивное рассуждение для выборочного «обдумывания» более сложных запросов, повышая точность в математике, программировании и многошаговых задачах без замедления обычных разговоров. Модель по умолчанию более теплая и разговорная, с лучшим следованием инструкциям и более стабильными краткосрочными рассуждениями. GPT-5.2 Chat разработан для высокопроизводительных интерактивных задач, где скорость отклика и стабильность важнее глубокого обдумывания.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: GPT-5.1 Codex Max (Thinking)
GPT-5.1-Codex-Max — это новейшая агентная модель для программирования от OpenAI, разработанная для долгосрочных задач разработки программного обеспечения с высоким контекстом. Она основана на обновлённой версии стека рассуждений 5.1 и обучена на агентных рабочих процессах, охватывающих разработку программного обеспечения, математику и исследования.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: GPT-5.1 Codex Mini (Thinking)
GPT-5.1-Codex-Mini — это уменьшенная и более быстрая версия GPT-5.1-Codex.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: GPT-5.1 Codex (Thinking)
GPT-5.1-Codex — это специализированная версия GPT-5.1, оптимизированная для программной инженерии и рабочих процессов кодирования. Она разработана как для интерактивных сессий разработки, так и для длительного, самостоятельного выполнения сложных инженерных задач.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: GPT-5.1 (Thinking)
GPT-5.1 — это новейшая передовая модель в серии GPT-5, предлагающая более сильные возможности рассуждения общего назначения, улучшенное следование инструкциям и более естественный разговорный стиль по сравнению с GPT-5. Модель использует адаптивное рассуждение для динамического распределения вычислительных ресурсов, быстро отвечая на простые запросы и уделяя больше внимания сложным задачам. Модель создаёт более чёткие и обоснованные объяснения с меньшим количеством жаргона, что облегчает понимание даже при работе с техническими или многоэтапными задачами.
Созданная для широкого охвата задач, GPT-5.1 демонстрирует стабильные улучшения в математике, программировании и структурированном анализе, с более связными развёрнутыми ответами и улучшенной надёжностью использования инструментов. Модель также обладает усовершенствованной разговорной настройкой, обеспечивая более тёплые и интуитивные ответы без ущерба для точности. GPT-5.1 служит основным полнофункциональным преемником GPT-5.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: GPT-5.1 Chat
GPT-5.1 Chat (также известный как Instant) — это быстрый и облегчённый член семейства 5.1, оптимизированный для чата с низкой задержкой при сохранении сильного общего интеллекта. Он использует адаптивное рассуждение для выборочного «обдумывания» более сложных запросов, повышая точность в математике, программировании и многошаговых задачах без замедления обычных разговоров. Модель по умолчанию более тёплая и разговорная, с лучшим следованием инструкциям и более стабильными рассуждениями в коротких форматах. GPT-5.1 Chat разработан для высокопроизводительных интерактивных нагрузок, где отзывчивость и стабильность важнее глубокого обдумывания.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: GPT-5 Pro (Thinking)
GPT-5 Pro — это самая продвинутая модель OpenAI, предлагающая значительные улучшения в рассуждениях, качестве кода и пользовательском опыте.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Модель НЕ поддерживает стриминг, используйте настройку без стриминга.
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
Минимальный баланс для вызова модели: 800р. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: GPT-5 Codex (Thinking High)
GPT-5-Codex — это специализированная версия GPT-5, оптимизированная для программной инженерии и рабочих процессов кодирования. Она разработана как для интерактивных сессий разработки, так и для длительного, самостоятельного выполнения сложных инженерных задач.
Это версия с предустановленным параметром reasoning: high, который заставляет модель по возможности углубленно поразмышлять над проблемой.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: GPT-5 Codex (Thinking)
GPT-5-Codex — это специализированная версия GPT-5, оптимизированная для программной инженерии и рабочих процессов кодирования. Она разработана как для интерактивных сессий разработки, так и для длительного, самостоятельного выполнения сложных инженерных задач.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: GPT-5 (Thinking)
GPT-5 — это самая продвинутая модель OpenAI, предлагающая значительные улучшения в рассуждениях, качестве кода и пользовательском опыте.
Данная версия размышляющая. Как описывают разработчики, можно углубить размышления модели, добавив фразу "think hard about this".
Внимание: на некоторых запросах, которая GPT-5 считает простыми, она сама отключает размышления. К сожалению, это не регулируется. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: GPT-5 Chat
GPT-5 Chat разработан для продвинутых, естественных, мультимодальных и контекстно-ориентированных диалогов для корпоративных приложений. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: GPT-5 Thinking Mini
GPT-5 Mini — это компактная версия GPT-5, разработанная для выполнения менее ресурсоемких задач рассуждения. Она обеспечивает те же преимущества в следовании инструкциям и настройке безопасности, что и GPT-5, но с уменьшенной задержкой и стоимостью. GPT-5 Mini является преемником модели o4-mini от OpenAI. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: GPT-5 Nano
GPT-5-Nano — это самый маленький и быстрый вариант в системе GPT-5, оптимизированный для инструментов разработчиков, быстрых взаимодействий и сред с ультранизкой задержкой. Хотя он ограничен в глубине рассуждений по сравнению с более крупными аналогами, он сохраняет ключевые функции следования инструкциям и безопасности. Это преемник GPT-4.1-nano и предлагает легковесный вариант для чувствительных к стоимости или работающих в реальном времени приложений. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 128000 токенов
OpenAI: gpt-oss-120b
gpt-oss-120b — это языковая модель с открытыми весами на 117 миллиардов параметров типа Mixture-of-Experts (MoE) от OpenAI, разработанная для высокоуровневых рассуждений, агентских задач и универсального промышленного применения. Она активирует 5,1 миллиарда параметров за один прямой проход и оптимизирована для работы на одном GPU H100 с нативной квантизацией MXFP4. Модель поддерживает настраиваемую глубину рассуждений, полный доступ к цепочке рассуждений и нативное использование инструментов.
OpenAI: gpt-oss-120b (fast)
gpt-oss-120b — это языковая модель с открытыми весами на 117 миллиардов параметров типа Mixture-of-Experts (MoE) от OpenAI, разработанная для высокоуровневых рассуждений, агентских задач и универсального промышленного применения. Она активирует 5,1 миллиарда параметров за один прямой проход и оптимизирована для работы на одном GPU H100 с нативной квантизацией MXFP4. Модель поддерживает настраиваемую глубину рассуждений, полный доступ к цепочке рассуждений и нативное использование инструментов. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
OpenAI: gpt-oss-20b (fast)
gpt-oss-20b — это модель с открытыми весами и 21 миллиардом параметров, выпущенная OpenAI под лицензией Apache 2.0. Она использует архитектуру Mixture-of-Experts (MoE) с 3,6 миллиардами активных параметров на один прямой проход, оптимизированную для вывода с низкой задержкой и развертывания на потребительском оборудовании или однопроцессорных GPU. Модель обучена в формате ответов OpenAI Harmony и поддерживает конфигурацию уровня рассуждений, тонкую настройку и агентные возможности, включая вызов функций, использование инструментов и структурированные выходные данные. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
OpenAI: o3
ОБЩЕЕ ОПИСАНИЕ:
Модели o3 оптимизированы для математики, науки, программирования и других задач, связанных с STEM. Они постоянно демонстрируют точность на уровне PhD в тестах по физике, химии и биологии.
ОСОБЕННОСТИ БИЛЛИНГА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация.
Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
ВРЕМЕННО:
- не работает со стримингом. Т.е. недоступна через обычный чат, но можно воспользоваться специальным в Сервисах. Минимальный баланс для вызова модели: 150р. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
OpenAI: GPT-4o (2024-11-20) Online HQ
Версия GPT-4o от 20.11.2024 предлагает улучшенные возможности креативного письма с более естественным, увлекательным и индивидуальным подходом для повышения актуальности и удобства чтения. Модель выступает несколько хуже на логических задачах, но лучше - на задачах, требующих креативности.
C расширенным поиском по интернету - при ответе берется 20 источников.
Рекомендуется задавать запрос максимально просто, одним предложением, например: Сравни Nvidia 5070 и 4090.
Берется плата за вызов интернета (стоимость вызова модели) + дополнительная плата за найденные в интернете материалы в запросе (число символов во входе) Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 16000 токенов
OpenAI: GPT-4o Online HQ
GPT-4o («o» от «omni») — это новейшая модель искусственного интеллекта OpenAI, поддерживающая как ввод текста, так и изображения, а также текстовый вывод. Он сохраняет уровень интеллекта GPT-4 Turbo, будучи в два раза быстрее и на 50 % экономичнее. GPT-4o также обеспечивает улучшенную производительность при обработке языков, отличных от английского, и расширенные визуальные возможности. Данные обучения: до октября 2023 г.
C расширенным поиском по интернету - при ответе берется 20 источников.
Рекомендуется задавать запрос максимально просто, одним предложением, например: Сравни Nvidia 5070 и 4090.
Берется плата за вызов интернета (стоимость вызова модели) + дополнительная плата за найденные в интернете материалы в запросе (число символов во входе) Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
OpenAI: o4-mini-high (пресет для глубоких размышлений от o4-mini)
ОБЩЕЕ ОПИСАНИЕ:
OpenAI o4-mini — это компактная модель рассуждения в o-серии, оптимизированная для быстрой и экономичной производительности, сохраняющая при этом сильные мультимодальные и агентные возможности. Она поддерживает использование инструментов и демонстрирует конкурентоспособные показатели в рассуждениях и программировании по таким критериям, как AIME (99,5% с Python) и SWE-bench, превосходя своего предшественника o3-mini и даже приближаясь к o3 в некоторых областях.
Несмотря на свой меньший размер, o4-mini демонстрирует высокую точность в задачах STEM, решении визуальных проблем (например, MathVista, MMMU) и редактировании кода. Она особенно хорошо подходит для сценариев с высокой пропускной способностью, где критичны задержки или стоимость. Благодаря эффективной архитектуре и усовершенствованному обучению с подкреплением, o4-mini может связывать инструменты, генерировать структурированные выходные данные и решать многоэтапные задачи с минимальной задержкой — часто менее чем за минуту.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
ВРЕМЕННО:
- не работает со стримингом. Т.е. недоступна через обычный чат, но можно воспользоваться специальным в Сервисах. Минимальный баланс для вызова модели: 20р. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
OpenAI: o4-mini (для размышлений, не рек. для обычных задач)
ОБЩЕЕ ОПИСАНИЕ:
OpenAI o4-mini — это компактная модель рассуждения в o-серии, оптимизированная для быстрой и экономичной производительности, сохраняющая при этом сильные мультимодальные и агентные возможности. Она поддерживает использование инструментов и демонстрирует конкурентоспособные показатели в рассуждениях и программировании по таким критериям, как AIME (99,5% с Python) и SWE-bench, превосходя своего предшественника o3-mini и даже приближаясь к o3 в некоторых областях.
Несмотря на свой меньший размер, o4-mini демонстрирует высокую точность в задачах STEM, решении визуальных проблем (например, MathVista, MMMU) и редактировании кода. Она особенно хорошо подходит для сценариев с высокой пропускной способностью, где критичны задержки или стоимость. Благодаря эффективной архитектуре и усовершенствованному обучению с подкреплением, o4-mini может связывать инструменты, генерировать структурированные выходные данные и решать многоэтапные задачи с минимальной задержкой — часто менее чем за минуту.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
ВРЕМЕННО:
- не работает со стримингом. Т.е. недоступна через обычный чат, но можно воспользоваться специальным в Сервисах. Минимальный баланс для вызова модели: 20р. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
OpenAI: GPT-4.1
GPT-4.1 — это флагманская большая языковая модель, оптимизированная для продвинутого следования инструкциям, реальной программной инженерии и рассуждений в длинном контексте. Она поддерживает контекстное окно в 1 миллион токенов и превосходит GPT-4o и GPT-4.5 в кодировании (54,6% SWE-bench Verified), соблюдении инструкций (87,4% IFEval) и мультимодальных тестах понимания. Она настроена на точные изменения кода, надежность агентов и высокую точность поиска в контексте больших документов, что делает ее идеальной для агентов, инструментов IDE и корпоративного поиска знаний. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 32000 токенов
OpenAI: GPT-4.1 Mini
GPT-4.1 Mini — модель среднего размера, обеспечивающая производительность, конкурирующую с GPT-4o при существенно меньшей задержке и стоимости. Она сохраняет контекстное окно в 1 миллион токенов и набирает 45,1% на сложных оценках инструкций, 35,8% на MultiChallenge и 84,1% на IFEval. Mini также демонстрирует сильные способности в программировании (например, 31,6% в полиглот-тесте на различия Aider) и понимании изображений, что делает её подходящей для интерактивных приложений с жёсткими требованиями к производительности. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 32000 токенов
OpenAI: GPT-4.1 Nano
Для задач, требующих низкой задержки, GPT-4.1 nano является самой быстрой и дешевой моделью в серии GPT-4.1. Она обеспечивает исключительную производительность при небольшом размере с контекстным окном в 1 миллион токенов и имеет показатели 80,1% в MMLU, 50,3% в GPQA и 9,8% в полиглотном кодировании Aider – даже выше, чем у GPT-4o mini. Она идеально подходит для таких задач, как классификация или автозаполнение. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 32000 токенов
OpenAI: GPT-4.5 (Preview)
GPT-4.5 (Preview) - это исследовательская версия новейшей языковой модели OpenAI, разработанная для улучшения возможностей в области рассуждений, творчества и многоступенчатого общения. Она основывается на предыдущих итерациях с улучшениями в области знаний о мире, контекстуальной согласованности и способности более эффективно следовать намерениям пользователя.
Модель демонстрирует улучшенную производительность в задачах, требующих открытого мышления, решения проблем и коммуникации. Ранние тесты показывают, что она лучше генерирует нюансированные ответы, поддерживает согласованность при работе с длинным контекстом и снижает количество галлюцинаций по сравнению с предыдущими версиями.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация, цены указаны за 1000 токенов. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
Минимальный баланс для вызова модели: 200р.
OpenAI: o3-mini-high (пресет для глубоких размышлений от o3-mini)
Это вариант модели o3-mini с предустановленным пресетом high (больше размышлений, но дольше и больший расход токенов)
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
ВРЕМЕННО:
- не работает со стримингом. Т.е. недоступна через обычный чат, но можно воспользоваться специальным в Сервисах. Минимальный баланс для вызова модели: 20р. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
OpenAI: o3-mini (для размышлений, не рек. для обычных задач)
ОБЩЕЕ ОПИСАНИЕ:
OpenAI o3-mini - это экономичная языковая модель, оптимизированная для задач логического мышления в области STEM, особенно преуспевающая в науке, математике и программировании. Модель имеет три регулируемых уровня затрат на рассуждения (low, medium, high)
При средних настройках уровня рассуждений o3-mini соответствует производительности более крупной модели o1 при сложных оценках рассуждений, таких как AIME и GPQA, сохраняя при этом меньшую задержку и стоимость.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
ВРЕМЕННО:
- не работает со стримингом. Т.е. недоступна через обычный чат, но можно воспользоваться специальным в Сервисах. Минимальный баланс для вызова модели: 20р. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
OpenAI: o1 (для размышлений, не рек. для обычных задач)
ОБЩЕЕ ОПИСАНИЕ:
Последнее и самое мощное семейство моделей от OpenAI, o1 разработано так, чтобы тратить больше времени на размышления перед ответом.
Модели o1 оптимизированы для математики, науки, программирования и других задач, связанных с STEM. Они постоянно демонстрируют точность на уровне PhD в тестах по физике, химии и биологии.
ОСОБЕННОСТИ БИЛЛИНГА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация.
Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
ВРЕМЕННО:
- не работает со стримингом. Т.е. недоступна через обычный чат, но можно воспользоваться специальным в Сервисах. Минимальный баланс для вызова модели: 100р. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
OpenAI: GPT-4o (2024-11-20)
Версия GPT-4o от 20.11.2024 предлагает улучшенные возможности креативного письма с более естественным, увлекательным и индивидуальным подходом для повышения актуальности и удобства чтения. Модель выступает несколько хуже на логических задачах, но лучше - на задачах, требующих креативности. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 16000 токенов
OpenAI: o1-mini (не рек. для обычных задач)
ОБЩЕЕ ОПИСАНИЕ:
Последнее и самое мощное семейство моделей от OpenAI, o1 разработано так, чтобы тратить больше времени на размышления перед ответом.
Модели o1 оптимизированы для математики, науки, программирования и других задач, связанных с STEM. Они постоянно демонстрируют точность на уровне PhD в тестах по физике, химии и биологии.
RATE-LIMIT:
В момент запуска (12-13 сентября) модель ОЧЕНЬ сильно ограничена в числе запросов и постоянно выдает ошибку 429 как экспериментальная модель. Позднее данные ограничения должны быть сняты.
ОСОБЕННОСТИ БИЛЛИНГА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация.
Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
ВРЕМЕННО:
- не работает со стримингом. Т.е. недоступна через обычный чат, но можно воспользоваться специальным в Сервисах. Минимальный баланс для вызова модели: 30р.
OpenAI: GPT-4o (последняя, экспериментальная)
По этому ID доступна самая последняя модель GPT-4o от OpenAI. Поведение модели постоянно меняется и улучшается; если вам нужно стабильное поведение по API, используйте другие модели.
OpenAI: GPT-4o (до 64 000 выходных токенов) (альфа-версия)
Версия GPT-4o в которой расширены возможности генерации выхода до 64 000 токенов). Представлена в июле 2024. Максимальный размер выходной генерации для модели: 64000 токенов
OpenAI: GPT-4o (2024-08-06)
Версия GPT-4o от 2024-08-06 предлагает улучшенную производительность в структурированных выводах, с возможностью предоставления JSON-схемы в формате ответа. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
OpenAI: GPT-4o mini
Самая последняя модель от OpenAI из семейства GPT-4o.
Превосходит по цене и качеству GPT-3.5-Turbo, а также Claude 3 Haiku и Gemini Flash.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
OpenAI: GPT-4o
GPT-4o («o» от «omni») — это новейшая модель искусственного интеллекта OpenAI, поддерживающая как ввод текста, так и изображения, а также текстовый вывод. Он сохраняет уровень интеллекта GPT-4 Turbo, будучи в два раза быстрее и на 50 % экономичнее. GPT-4o также обеспечивает улучшенную производительность при обработке языков, отличных от английского, и расширенные визуальные возможности. Данные обучения: до октября 2023 г. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
OpenAI: GPT-4 Turbo (gpt-4-turbo-2024-04-09)
Последняя модель GPT-4-Turbo.
OpenAI: GPT-4 Turbo (0125-preview)
Модель gpt-4-0125-preview
Новейшая модель GPT-4 с улучшенным выполнением инструкций, режимом JSON, воспроизводимыми выводами, параллельным вызовом функций и многим другим. Данные обучения: до декабря 2023 г.
Примечание. Во время предварительной версии OpenAI сильно ограничивает скорость. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
OpenAI: GPT-4 Turbo (1106-preview)
Последняя модель GPT-4 с улучшенным следованием инструкциям, режимом JSON, воспроизводимыми выходными данными, параллельным вызовом функций и многим другим. Возвращает максимум 4096 выходных токенов. Данные обучения: до апреля 2023.
OpenAI: GPT-4
Самая мощная нейросетевая модель от OpenAI.
OpenAI: GPT-3.5 Turbo
(В связи с отключением старых моделей OpenAI заменена на gpt-3.5-turbo-0613)
Модели Anthropic: Claude Sonnet, Opus, Haiku
Нейросети от Anthropic – основного конкурента OpenAI. Мы рекомендуем их пробовать, если нужна обработка больших текстов (файлов и пр.). Рекомендуем их нейросети Claude 3 – Haiku для дешевой и быстрой обработки большого контекста, Opus – для максимально качественной работы.
Модель и ID
Руб за 1000 символов входных данных
Руб за 1000 символов генерации модели
Размер конте кста
Дата обнов ления
Авто моде ра ция
Anthropic: Claude Opus 4.6 (Thinking, 1M контекста) ? anthropic/claude-opus-4.6-1m-thinking Профессиональный (не Тестовый)расширенный контекстtoolsstructured-outputs
1.5
5.1
200000
6 фев
да
Anthropic: Claude Opus 4.6 (1M контекста) ? anthropic/claude-opus-4.6-1m Профессиональный (не Тестовый)расширенный контекстtoolsstructured-outputs
1.5
5.1
1000000
6 фев
да
Anthropic: Claude Opus 4.6 (Thinking) ? anthropic/claude-opus-4.6-thinking Профессиональный (не Тестовый)ТОП!toolsstructured-outputs
0.75
3.4
200000
6 фев
да
Anthropic: Claude Opus 4.6 ? anthropic/claude-opus-4.6 Профессиональный (не Тестовый)ТОП!toolsstructured-outputs
0.75
3.4
200000
6 фев
да
Anthropic: Claude Opus 4.5 (Thinking) ? anthropic/claude-opus-4.5-thinking ПрофессиональныйТОП!toolsstructured-outputs
0.75
3.4
200000
25 ноя 25
да
Anthropic: Claude Opus 4.5 ? anthropic/claude-opus-4.5 ПрофессиональныйТОП!toolsstructured-outputs
0.75
3.4
200000
25 ноя 25
да
Anthropic: Claude Haiku 4.5 (Thinking) ? anthropic/claude-haiku-4.5-thinking Профессиональныйtools
0.14
0.70
200000
16 окт 25
да
Anthropic: Claude Haiku 4.5 ? anthropic/claude-haiku-4.5 Профессиональныйtools
0.14
0.70
200000
16 окт 25
да
Anthropic: Claude Sonnet 4.5 1M context (Thinking) ? anthropic/claude-sonnet-4.5-1m-thinking Профессиональныйтоп от 29 сентябряtoolsstructured-outputs
0.7
2.6
1000000
29 сен 25
да
Anthropic: Claude Sonnet 4.5 1M context ? anthropic/claude-sonnet-4.5-1m Профессиональныйтоп от 29 сентябряtoolsstructured-outputs
0.7
2.6
1000000
29 сен 25
да
Anthropic: Claude Sonnet 4.5 (Thinking High) ? anthropic/claude-sonnet-4.5-thinking-high Профессиональныйтоп от 29 сентябряtoolsstructured-outputs
0.4
2.0
1000000
29 сен 25
да
Anthropic: Claude Sonnet 4.5 (Thinking) ? anthropic/claude-sonnet-4.5-thinking Профессиональныйтоп от 29 сентябряtoolsstructured-outputs
0.4
2.0
1000000
29 сен 25
да
Anthropic: Claude Sonnet 4.5 ? anthropic/claude-sonnet-4.5 Профессиональныйтоп от 29 сентябряtoolsstructured-outputs
0.4
2.0
200000
29 сен 25
да
Anthropic: Claude Sonnet 4 (1M контекста) Thinking ? anthropic/claude-sonnet-4-1m-thinking Профессиональный (не Тестовый)топ от 22 маяtools
0.65
2.6
1000000
13 авг 25
да
Anthropic: Claude Sonnet 4 (1M контекста) ? anthropic/claude-sonnet-4-1m Профессиональный (не Тестовый)топ от 22 маяtools
0.65
2.6
1000000
13 авг 25
да
Anthropic: Claude Opus 4.1 Thinking ? anthropic/claude-opus-4.1-thinking ПрофессиональныйТОП!tools
2.0
10.0
200000
7 авг 25
да
Anthropic: Claude Opus 4.1 ? anthropic/claude-opus-4.1 ПрофессиональныйТОП!tools
2.0
10.0
200000
7 авг 25
да
Anthropic: Claude Opus 4 Deep Research 1.0 ? anthropic/claude-opus-4-deep-research-1.0 Профессиональный (не Тестовый)За вызов: 60.0 р.топ от 28 маяonline, researchпримерная стоимость запроса 500-600 р.
2.0
10.0
200000
28 мая 25
да
Anthropic: Claude Opus 4 Online HQ ? anthropic/claude-opus-4-online-hq Профессиональный (не Тестовый)За вызов: 4.0 р.топ от 28 маяонлайн
2.0
10.0
200000
28 мая 25
да
Anthropic: Claude Sonnet 4 Deep Research 1.0 ? anthropic/claude-sonnet-4-deep-research-1.0 Профессиональный (не Тестовый)За вызов: 30.0 р.топ от 28 маяonline, researchпримерная стоимость запроса 100-150 р.
0.4
2.0
200000
28 мая 25
да
Anthropic: Claude Sonnet 4 Deep Online ? anthropic/claude-sonnet-4-deep-online Профессиональный (не Тестовый)За вызов: 12.0 р.топ от 28 маяонлайнпримерная стоимость запроса 30-50 р.
0.4
2.0
200000
28 мая 25
да
Anthropic: Claude Sonnet 4 Research ? anthropic/claude-sonnet-4-online-research Профессиональный (не Тестовый)За вызов: 20.0 р.топ от 28 маяonline, researchпримерная стоимость запроса 80-120 р.
0.4
2.0
200000
28 мая 25
да
Anthropic: Claude Sonnet 4 Online HQ ? anthropic/claude-sonnet-4-online-hq Профессиональный (не Тестовый)За вызов: 2.0 р.топ от 28 маяонлайн
0.4
2.0
200000
28 мая 25
да
Anthropic: Claude Opus 4 (Thinking High) ? anthropic/claude-opus-4-thinking-high Профессиональный (не Тестовый)размышленияtools
2.0
10.0
200000
22 мая 25
да
Anthropic: Claude Sonnet 4 (Thinking High) ? anthropic/claude-sonnet-4-thinking-high Профессиональный (не Тестовый)топ от 22 маяразмышленияtools
0.4
2.0
200000
22 мая 25
да
Anthropic: Claude Opus 4 (Thinking) ? anthropic/claude-opus-4-thinking Профессиональный (не Тестовый)ТОП!размышленияtools
2.0
10.0
200000
22 мая 25
да
Anthropic: Claude Sonnet 4 (Thinking) ? anthropic/claude-sonnet-4-thinking Профессиональный (не Тестовый)топ от 22 маяразмышленияtools
0.4
2.0
200000
22 мая 25
да
Anthropic: Claude Opus 4 ? anthropic/claude-opus-4 ПрофессиональныйТОП!tools
2.0
10.0
200000
22 мая 25
да
Anthropic: Claude Sonnet 4 ? anthropic/claude-sonnet-4 Профессиональныйтоп от 22 маяtools
0.4
2.0
200000
22 мая 25
да
Anthropic: Claude 3.7 Sonnet Deep Research 1.0 ? anthropic/claude-3.7-sonnet-deep-research-1.0 Профессиональный (не Тестовый)За вызов: 30.0 р.топ от 10 мартаonline, researchпримерная стоимость запроса 100-150 р.
0.4
2.0
200000
10 мар 25
да
Anthropic: Claude 3.7 Sonnet Deep Online ? anthropic/claude-3.7-sonnet-deep-online Профессиональный (не Тестовый)За вызов: 12.0 р.топ от 9 мартаонлайнпримерная стоимость запроса 30-50 р.
0.4
2.0
200000
9 мар 25
да
Anthropic: Claude 3.7 Sonnet Research ? anthropic/claude-3.7-sonnet-online-research Профессиональный (не Тестовый)За вызов: 20.0 р.топ от 9 мартаonline, researchпримерная стоимость запроса 80-120 р.
0.4
2.0
200000
9 мар 25
да
Anthropic: Claude 3.7 Sonnet (online высокого качества) ? anthropic/claude-3.7-sonnet-online-hq Профессиональный (не Тестовый)За вызов: 2.0 р.топ от 9 мартаонлайн
0.4
2.0
200000
9 мар 25
да
Anthropic: Claude 3.7 Sonnet Thinking High (новая от 24 февраля) ? anthropic/claude-3.7-sonnet-thinking-high Профессиональный (не Тестовый)топ от 24 февраляразмышления
0.4
2.0
200000
26 фев 25
да
Anthropic: Claude 3.7 Sonnet Thinking Low (новая от 24 февраля) ? anthropic/claude-3.7-sonnet-thinking-low Профессиональный (не Тестовый)размышления
0.4
2.0
200000
26 фев 25
да
Anthropic: Claude 3.7 Sonnet Thinking (новая от 24 февраля) ? anthropic/claude-3.7-sonnet-thinking Профессиональный (не Тестовый)размышления
0.4
2.0
200000
26 фев 25
да
Anthropic: Claude 3.7 Sonnet (новая от 24 февраля) ? anthropic/claude-3.7-sonnet Профессиональныйтоп от 24 февраляtools
0.4
2.0
200000
24 фев 25
да
Anthropic: Claude 3.5 Haiku ? anthropic/claude-3-5-haiku топ от 5 ноябряtools
0.14
0.70
200000
5 ноя 24
да
Anthropic: Claude 3.5 Sonnet (новая от 22 октября) ? anthropic/claude-3.5-sonnet Профессиональныйтоп от 22 октябряtools
0.4
2.0
200000
22 окт 24
да
Anthropic: Claude 3 Haiku ? anthropic/claude-3-haiku дешевая и с большим контекстомtools
0.0375
0.1875
200000
14 мар 24
да
Anthropic: Claude 3 Opus ? anthropic/claude-3-opus ПрофессиональныйТОП!tools
2.0
10.0
200000
6 мар 24
да
Anthropic: Claude 3 Sonnet (выключен 7 августа, перенаправляется в Sonnet 3.5) ? anthropic/claude-3-sonnet Профессиональныйtools
0.4
2.0
200000
6 мар 24
да
Anthropic: Claude Opus 4.6 (Thinking, 1M контекста)
Opus 4.6 — это самая мощная модель Anthropic для программирования и длительных профессиональных задач. Она создана для агентов, которые работают с целыми рабочими процессами, а не с отдельными запросами, что делает её особенно эффективной для больших кодовых баз, сложных рефакторингов и многоэтапной отладки, которая разворачивается со временем. Модель демонстрирует более глубокое контекстное понимание, более сильную декомпозицию задач и большую надёжность в сложных инженерных задачах по сравнению с предыдущими поколениями.
Размышляющая версия. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Opus 4.6 (1M контекста)
Opus 4.6 — это самая мощная модель Anthropic для программирования и длительных профессиональных задач. Она создана для агентов, которые работают с целыми рабочими процессами, а не с отдельными запросами, что делает её особенно эффективной для больших кодовых баз, сложных рефакторингов и многоэтапной отладки, которая разворачивается со временем. Модель демонстрирует более глубокое контекстное понимание, более сильную декомпозицию задач и большую надёжность в сложных инженерных задачах по сравнению с предыдущими поколениями.
Помимо программирования, Opus 4.6 превосходно справляется с продолжительной интеллектуальной работой. Она создаёт документы, планы и анализы, близкие к готовым для продакшена, за один проход и сохраняет связность на протяжении очень длинных результатов и продолжительных сессий. Это делает её надёжным выбором по умолчанию для задач, требующих настойчивости, здравого суждения и доведения до конца, таких как техническое проектирование, планирование миграции и сквозное выполнение проектов. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Opus 4.6 (Thinking)
Opus 4.6 — это самая мощная модель Anthropic для программирования и длительных профессиональных задач. Она создана для агентов, которые работают с целыми рабочими процессами, а не с отдельными запросами, что делает её особенно эффективной для больших кодовых баз, сложных рефакторингов и многоэтапной отладки, которая разворачивается со временем. Модель демонстрирует более глубокое контекстное понимание, более сильную декомпозицию задач и большую надёжность в сложных инженерных задачах по сравнению с предыдущими поколениями.
Размышляющая версия. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Opus 4.6
Opus 4.6 — это самая мощная модель Anthropic для программирования и длительных профессиональных задач. Она создана для агентов, которые работают с целыми рабочими процессами, а не с отдельными запросами, что делает её особенно эффективной для больших кодовых баз, сложных рефакторингов и многоэтапной отладки, которая разворачивается со временем. Модель демонстрирует более глубокое контекстное понимание, более сильную декомпозицию задач и большую надёжность в сложных инженерных задачах по сравнению с предыдущими поколениями.
Помимо программирования, Opus 4.6 превосходно справляется с продолжительной интеллектуальной работой. Она создаёт документы, планы и анализы, близкие к готовым для продакшена, за один проход и сохраняет связность на протяжении очень длинных результатов и продолжительных сессий. Это делает её надёжным выбором по умолчанию для задач, требующих настойчивости, здравого суждения и доведения до конца, таких как техническое проектирование, планирование миграции и сквозное выполнение проектов. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Opus 4.5 (Thinking)
Claude Opus 4.5 — это передовая модель рассуждений от Anthropic, оптимизированная для сложной разработки программного обеспечения, агентных рабочих процессов и длительного использования компьютера. Она обладает мощными мультимодальными возможностями, конкурентоспособной производительностью в реальных тестах программирования и рассуждений, а также улучшенной устойчивостью к инъекциям промптов.
Размышляющая версия. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Opus 4.5
Claude Opus 4.5 — это передовая модель рассуждений от Anthropic, оптимизированная для сложной разработки программного обеспечения, агентных рабочих процессов и длительного использования компьютера. Она обладает мощными мультимодальными возможностями, конкурентоспособной производительностью в реальных тестах программирования и рассуждений, а также улучшенной устойчивостью к инъекциям промптов. Модель разработана для эффективной работы при различных уровнях усилий, что позволяет разработчикам балансировать между скоростью, глубиной и использованием токенов в зависимости от требований задачи. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Haiku 4.5 (Thinking)
Claude Haiku 4.5 — это самая быстрая и эффективная модель Anthropic, обеспечивающая интеллект, близкий к передовому уровню, при значительно меньших затратах и задержке по сравнению с более крупными моделями Claude. Соответствуя производительности Claude Sonnet 4 в задачах рассуждения, программирования и использования компьютера, Haiku 4.5 привносит возможности передового уровня в приложения реального времени и высоконагруженные приложения.
Версия с размышлениями
Модель представляет расширенное мышление в линейке Haiku; обеспечивая управляемую глубину рассуждений, сжатый или чередующийся вывод мыслей и рабочие процессы с использованием инструментов при полной поддержке инструментов программирования, bash, веб-поиска и использования компьютера. Набрав >73% в SWE-bench Verified, Haiku 4.5 входит в число лучших моделей программирования в мире, сохраняя при этом исключительную отзывчивость для подагентов, параллельного выполнения и масштабируемого развертывания. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Haiku 4.5
Claude Haiku 4.5 — это самая быстрая и эффективная модель Anthropic, обеспечивающая интеллект, близкий к передовому уровню, при значительно меньших затратах и задержке по сравнению с более крупными моделями Claude. Соответствуя производительности Claude Sonnet 4 в задачах рассуждения, программирования и использования компьютера, Haiku 4.5 привносит возможности передового уровня в приложения реального времени и высоконагруженные приложения.
Модель представляет расширенное мышление в линейке Haiku; обеспечивая управляемую глубину рассуждений, сжатый или чередующийся вывод мыслей и рабочие процессы с использованием инструментов при полной поддержке инструментов программирования, bash, веб-поиска и использования компьютера. Набрав >73% в SWE-bench Verified, Haiku 4.5 входит в число лучших моделей программирования в мире, сохраняя при этом исключительную отзывчивость для подагентов, параллельного выполнения и масштабируемого развертывания. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Sonnet 4.5 1M context (Thinking)
Claude Sonnet 4.5 — самая совершенная модель Sonnet от Anthropic на сегодняшний день, оптимизированная для работы с реальными агентами и программными процессами. Она демонстрирует передовые результаты в тестах по программированию, таких как SWE-bench Verified, с улучшениями в области системного проектирования, безопасности кода и соответствия спецификациям.
(Размышляющая версия модели) Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Sonnet 4.5 1M context
Claude Sonnet 4.5 — самая совершенная модель Sonnet от Anthropic на сегодняшний день, оптимизированная для работы с реальными агентами и программными процессами. Она демонстрирует передовые результаты в тестах по программированию, таких как SWE-bench Verified, с улучшениями в области системного проектирования, безопасности кода и соответствия спецификациям.
Версия на 1 миллион контекста Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Sonnet 4.5 (Thinking High)
Claude Sonnet 4.5 — самая совершенная модель Sonnet от Anthropic на сегодняшний день, оптимизированная для работы с реальными агентами и программными процессами. Она демонстрирует передовые результаты в тестах по программированию, таких как SWE-bench Verified, с улучшениями в области системного проектирования, безопасности кода и соответствия спецификациям.
(Размышляющая версия модели, High уровень размышлений) Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Sonnet 4.5 (Thinking)
Claude Sonnet 4.5 — самая совершенная модель Sonnet от Anthropic на сегодняшний день, оптимизированная для работы с реальными агентами и программными процессами. Она демонстрирует передовые результаты в тестах по программированию, таких как SWE-bench Verified, с улучшениями в области системного проектирования, безопасности кода и соответствия спецификациям.
(Размышляющая версия модели) Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Sonnet 4.5
Claude Sonnet 4.5 — самая совершенная модель Sonnet от Anthropic на сегодняшний день, оптимизированная для работы с реальными агентами и программными процессами. Она демонстрирует передовые результаты в тестах по программированию, таких как SWE-bench Verified, с улучшениями в области системного проектирования, безопасности кода и соответствия спецификациям.
Это версия на 200К контекста, версия на 1M контекста идет отдельно. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Sonnet 4 (1M контекста) Thinking
Claude Sonnet 4 значительно расширяет возможности своего предшественника, Sonnet 3.7, превосходя его как в задачах программирования, так и в задачах рассуждения с улучшенной точностью и управляемостью. Достигая передовых результатов на SWE-bench (72,7%), Sonnet 4 балансирует между производительностью и вычислительной эффективностью, что делает его подходящим для широкого спектра приложений: от рутинных задач кодирования до сложных проектов разработки программного обеспечения. Ключевые улучшения включают усовершенствованную автономную навигацию по кодовой базе, сниженное количество ошибок в рабочих процессах, управляемых агентами, и повышенную надежность в следовании сложным инструкциям. Sonnet 4 оптимизирован для практического повседневного использования, обеспечивая продвинутые возможности рассуждения при сохранении эффективности и отзывчивости в различных внутренних и внешних сценариях.
Версия на 1 миллион контекста, несколько дороже. Размышляющая. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Sonnet 4 (1M контекста)
Claude Sonnet 4 значительно расширяет возможности своего предшественника, Sonnet 3.7, превосходя его как в задачах программирования, так и в задачах рассуждения с улучшенной точностью и управляемостью. Достигая передовых результатов на SWE-bench (72,7%), Sonnet 4 балансирует между производительностью и вычислительной эффективностью, что делает его подходящим для широкого спектра приложений: от рутинных задач кодирования до сложных проектов разработки программного обеспечения. Ключевые улучшения включают усовершенствованную автономную навигацию по кодовой базе, сниженное количество ошибок в рабочих процессах, управляемых агентами, и повышенную надежность в следовании сложным инструкциям. Sonnet 4 оптимизирован для практического повседневного использования, обеспечивая продвинутые возможности рассуждения при сохранении эффективности и отзывчивости в различных внутренних и внешних сценариях.
Версия на 1 миллион контекста, несколько дороже. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Opus 4.1 Thinking
Claude Opus 4.1 — это обновленная версия флагманской модели Anthropic, предлагающая улучшенную производительность в программировании, рассуждениях и агентных задачах. Она достигает 74,5% на SWE-bench Verified и демонстрирует заметные улучшения в рефакторинге многофайлового кода, точности отладки и детально-ориентированных рассуждениях. Модель поддерживает расширенное мышление до 64К токенов и оптимизирована для задач, включающих исследования, анализ данных и рассуждения с использованием инструментов. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Opus 4.1
Claude Opus 4.1 — это обновленная версия флагманской модели Anthropic, предлагающая улучшенную производительность в программировании, рассуждениях и агентных задачах. Она достигает 74,5% на SWE-bench Verified и демонстрирует заметные улучшения в рефакторинге многофайлового кода, точности отладки и детально-ориентированных рассуждениях. Модель поддерживает расширенное мышление до 64К токенов и оптимизирована для задач, включающих исследования, анализ данных и рассуждения с использованием инструментов. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Opus 4 Deep Research 1.0
Модель позволяет одним запросом получить расширенный исследовательский отчет.
Версия Opus 4 Thinking с расширенным поиском по интернету и формированием полноценного отчета
Рекомендуется задавать запрос максимально просто, одним предложением, например: Сравни Nvidia 5070 и 4090.
В процессе запроса
- выбираются наиболее релевантные источники
- из их текста делается выжимка по пользовательскому запросу с помощью gpt-4o-mini, что увеличивает в 2-3 раза число фактической информации, по которой делается анализ. Вызовы gpt-4o-mini для всех источников будет показан в Активности пользователя и оплачивается дополнительно (около 0.5 р. за вызов)
- Будет рассмотрен только запрос пользователя. Предыдущий чат и инструкции будут проигнорированы.
- При работе модель подменяет ваши предыдущие запросы и настройки собственным системным промтом и настройками максимальной генерации - т.е. входной промт будет большим, это нормально.
- Research можно вызывать по API так же, как любую другую нейросетевую модель – просто передайте в последнем сообщении пользователя необходимый запрос.
Минимальный баланс для вызова модели: 1000р.
Anthropic: Claude Opus 4 Online HQ
Версия Opus 4 с расширенным поиском по интернету - при ответе берется 20 источников.
Рекомендуется задавать запрос максимально просто, одним предложением, например: Сравни Nvidia 5070 и 4090.
Средняя полная стоимость запроса (без истории чата) - 50-65 рублей за запрос. Минимальный баланс для вызова модели: 250р.
Anthropic: Claude Sonnet 4 Deep Research 1.0
Модель позволяет одним запросом получить расширенный исследовательский отчет.
Версия Sonnet 4 Thinking с расширенным поиском по интернету и формированием полноценного отчета
Рекомендуется задавать запрос максимально просто, одним предложением, например: Сравни Nvidia 5070 и 4090.
В процессе запроса
- выбираются наиболее релевантные источники
- из их текста делается выжимка по пользовательскому запросу с помощью gpt-4o-mini, что увеличивает в 2-3 раза число фактической информации, по которой делается анализ. Вызовы gpt-4o-mini для всех источников будет показан в Активности пользователя и оплачивается дополнительно (около 0.5 р. за вызов)
- Будет рассмотрен только запрос пользователя. Предыдущий чат и инструкции будут проигнорированы.
- При работе модель подменяет ваши предыдущие запросы и настройки собственным системным промтом и настройками максимальной генерации - т.е. входной промт будет большим, это нормально.
- Research можно вызывать по API так же, как любую другую нейросетевую модель – просто передайте в последнем сообщении пользователя необходимый запрос.
Минимальный баланс для вызова модели: 250р.
Anthropic: Claude Sonnet 4 Deep Online
Версия Sonnet 4 с расширенным поиском по интернету и анализом источников.
Рекомендуется задавать запрос максимально просто, одним предложением, например: Сравни Nvidia 5070 и 4090.
В процессе запроса
- выбираются наиболее релевантные источники
- из их текста делается выжимка по пользовательскому запросу с помощью gpt-4o-mini, что увеличивает в 2-3 раза число фактической информации, по которой делается анализ. Вызовы gpt-4o-mini для всех источников будет показан в Активности пользователя и оплачивается дополнительно (около 0.5 р. за вызов)
Средняя полная стоимость запроса (без истории чата) - 30-50 рублей за запрос. Минимальный баланс для вызова модели: 70р.
Anthropic: Claude Sonnet 4 Research
Модель позволяет одним запросом получить расширенный исследовательский отчет.
Версия Sonnet 4 Thinking с расширенным поиском по интернету и формированием полноценного отчета
Рекомендуется задавать запрос максимально просто, одним предложением, например: Сравни Nvidia 5070 и 4090.
Средняя полная стоимость запроса (без истории чата) - 80-120 рублей за запрос.
- Будет рассмотрен только запрос пользователя. Предыдущий чат и инструкции будут проигнорированы.
- При работе модель подменяет ваши предыдущие запросы и настройки собственным системным промтом и настройками максимальной генерации - т.е. входной промт будет большим, это нормально.
- Research можно вызывать по API так же, как любую другую нейросетевую модель – просто передайте в последнем сообщении пользователя необходимый запрос.
Минимальный баланс для вызова модели: 200р.
Anthropic: Claude Sonnet 4 Online HQ
Версия Sonnet 4 с расширенным поиском по интернету - при ответе берется 20 источников.
Рекомендуется задавать запрос максимально просто, одним предложением, например: Сравни Nvidia 5070 и 4090.
Средняя полная стоимость запроса (без истории чата) - 10-15 рублей за запрос. Минимальный баланс для вызова модели: 50р.
Anthropic: Claude Opus 4 (Thinking High)
Claude Opus 4 признан лучшей в мире моделью для программирования на момент выпуска, обеспечивая стабильную производительность при выполнении сложных, длительных задач и агентных рабочих процессов. Он устанавливает новые эталоны в программной инженерии, достигая ведущих результатов в SWE-bench (72,5%) и Terminal-bench (43,2%). Opus 4 поддерживает расширенные агентные рабочие процессы, обрабатывая тысячи шагов задач непрерывно в течение часов без ухудшения производительности. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Sonnet 4 (Thinking High)
Claude Sonnet 4 значительно расширяет возможности своего предшественника, Sonnet 3.7, превосходя его как в задачах программирования, так и в задачах рассуждения с улучшенной точностью и управляемостью. Достигая передовых результатов на SWE-bench (72,7%), Sonnet 4 балансирует между производительностью и вычислительной эффективностью, что делает его подходящим для широкого спектра приложений: от рутинных задач кодирования до сложных проектов разработки программного обеспечения. Ключевые улучшения включают усовершенствованную автономную навигацию по кодовой базе, сниженное количество ошибок в рабочих процессах, управляемых агентами, и повышенную надежность в следовании сложным инструкциям. Sonnet 4 оптимизирован для практического повседневного использования, обеспечивая продвинутые возможности рассуждения при сохранении эффективности и отзывчивости в различных внутренних и внешних сценариях. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Opus 4 (Thinking)
Claude Opus 4 признан лучшей в мире моделью для программирования на момент выпуска, обеспечивая стабильную производительность при выполнении сложных, длительных задач и агентных рабочих процессов. Он устанавливает новые эталоны в программной инженерии, достигая ведущих результатов в SWE-bench (72,5%) и Terminal-bench (43,2%). Opus 4 поддерживает расширенные агентные рабочие процессы, обрабатывая тысячи шагов задач непрерывно в течение часов без ухудшения производительности. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Sonnet 4 (Thinking)
Claude Sonnet 4 значительно расширяет возможности своего предшественника, Sonnet 3.7, превосходя его как в задачах программирования, так и в задачах рассуждения с улучшенной точностью и управляемостью. Достигая передовых результатов на SWE-bench (72,7%), Sonnet 4 балансирует между производительностью и вычислительной эффективностью, что делает его подходящим для широкого спектра приложений: от рутинных задач кодирования до сложных проектов разработки программного обеспечения. Ключевые улучшения включают усовершенствованную автономную навигацию по кодовой базе, сниженное количество ошибок в рабочих процессах, управляемых агентами, и повышенную надежность в следовании сложным инструкциям. Sonnet 4 оптимизирован для практического повседневного использования, обеспечивая продвинутые возможности рассуждения при сохранении эффективности и отзывчивости в различных внутренних и внешних сценариях. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Opus 4
Claude Opus 4 признан лучшей в мире моделью для программирования на момент выпуска, обеспечивая стабильную производительность при выполнении сложных, длительных задач и агентных рабочих процессов. Он устанавливает новые эталоны в программной инженерии, достигая ведущих результатов в SWE-bench (72,5%) и Terminal-bench (43,2%). Opus 4 поддерживает расширенные агентные рабочие процессы, обрабатывая тысячи шагов задач непрерывно в течение часов без ухудшения производительности. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude Sonnet 4
Claude Sonnet 4 значительно расширяет возможности своего предшественника, Sonnet 3.7, превосходя его как в задачах программирования, так и в задачах рассуждения с улучшенной точностью и управляемостью. Достигая передовых результатов на SWE-bench (72,7%), Sonnet 4 балансирует между производительностью и вычислительной эффективностью, что делает его подходящим для широкого спектра приложений: от рутинных задач кодирования до сложных проектов разработки программного обеспечения. Ключевые улучшения включают усовершенствованную автономную навигацию по кодовой базе, сниженное количество ошибок в рабочих процессах, управляемых агентами, и повышенную надежность в следовании сложным инструкциям. Sonnet 4 оптимизирован для практического повседневного использования, обеспечивая продвинутые возможности рассуждения при сохранении эффективности и отзывчивости в различных внутренних и внешних сценариях. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude 3.7 Sonnet Deep Research 1.0
Модель позволяет одним запросом получить расширенный исследовательский отчет.
Версия Sonnet 3.7 Thinking с расширенным поиском по интернету и формированием полноценного отчета
Рекомендуется задавать запрос максимально просто, одним предложением, например: Сравни Nvidia 5070 и 4090.
В процессе запроса
- выбираются наиболее релевантные источники
- из их текста делается выжимка по пользовательскому запросу с помощью gpt-4o-mini, что увеличивает в 2-3 раза число фактической информации, по которой делается анализ. Вызовы gpt-4o-mini для всех источников будет показан в Активности пользователя и оплачивается дополнительно (около 0.5 р. за вызов)
- Будет рассмотрен только запрос пользователя. Предыдущий чат и инструкции будут проигнорированы.
- При работе модель подменяет ваши предыдущие запросы и настройки собственным системным промтом и настройками максимальной генерации - т.е. входной промт будет большим, это нормально.
- Research можно вызывать по API так же, как любую другую нейросетевую модель – просто передайте в последнем сообщении пользователя необходимый запрос.
Минимальный баланс для вызова модели: 250р.
Anthropic: Claude 3.7 Sonnet Deep Online
Версия Sonnet 3.7 с расширенным поиском по интернету и анализом источников.
Рекомендуется задавать запрос максимально просто, одним предложением, например: Сравни Nvidia 5070 и 4090.
В процессе запроса
- выбираются наиболее релевантные источники
- из их текста делается выжимка по пользовательскому запросу с помощью gpt-4o-mini, что увеличивает в 2-3 раза число фактической информации, по которой делается анализ. Вызовы gpt-4o-mini для всех источников будет показан в Активности пользователя и оплачивается дополнительно (около 0.5 р. за вызов)
Средняя полная стоимость запроса (без истории чата) - 30-50 рублей за запрос. Минимальный баланс для вызова модели: 70р.
Anthropic: Claude 3.7 Sonnet Research
Модель позволяет одним запросом получить расширенный исследовательский отчет.
Версия Sonnet 3.7 Thinking с расширенным поиском по интернету и формированием полноценного отчета
Рекомендуется задавать запрос максимально просто, одним предложением, например: Сравни Nvidia 5070 и 4090.
Средняя полная стоимость запроса (без истории чата) - 80-120 рублей за запрос.
- Будет рассмотрен только запрос пользователя. Предыдущий чат и инструкции будут проигнорированы.
- При работе модель подменяет ваши предыдущие запросы и настройки собственным системным промтом и настройками максимальной генерации - т.е. входной промт будет большим, это нормально.
- Research можно вызывать по API так же, как любую другую нейросетевую модель – просто передайте в последнем сообщении пользователя необходимый запрос.
Минимальный баланс для вызова модели: 200р.
Anthropic: Claude 3.7 Sonnet (online высокого качества)
Версия Sonnet 3.7 с расширенным поиском по интернету - при ответе берется 20 источников.
Рекомендуется задавать запрос максимально просто, одним предложением, например: Сравни Nvidia 5070 и 4090.
Средняя полная стоимость запроса (без истории чата) - 10-15 рублей за запрос. Минимальный баланс для вызова модели: 50р.
Anthropic: Claude 3.7 Sonnet Thinking High (новая от 24 февраля)
Компания Anthropic объявила о выпуске новой версии своей языковой модели Claude 3.7 Sonnet. Ключевой особенностью обновления стала интеграция стандартного режима ответов и режима "размышления" в одной нейросети.
В стандартном режиме Claude 3.7 Sonnet представляет собой улучшенную версию Claude 3.5 Sonnet. В режиме "размышления" (аналогичному o3-mini от OpenAI или DeepSeek R1) она анализирует себя перед ответом, что улучшает её производительность в математике, физике, следовании инструкциям, программировании и многих других задачах.
ОСОБЕННОСТИ РАЗМЫШЛЕНИЯ:
Модели Anthropic позволяют задать бюджет токенов на размер размышлений, но это плохо стыкуется с уже имеющимися интерфейсами.
Поэтому для них будет доступно 3 модели с разным параметром "уровень размышлений" OpenAI: low, medium (по умолчанию) и high.
Исходя из уровня размышлений, бюджет на размышления будет определяться как
thinking_budget = max_tokens * effort_thinking_level, где
effort_thinking_level равен 0.8 для high, 0.5 для medium и 0.2 для low.
При этом thinking_budget не может быть меньше 1024 или более 32000 токенов - при выходе за эти границы он будет округляться в сторону границ.
Anthropic: Claude 3.7 Sonnet Thinking Low (новая от 24 февраля)
Компания Anthropic объявила о выпуске новой версии своей языковой модели Claude 3.7 Sonnet. Ключевой особенностью обновления стала интеграция стандартного режима ответов и режима "размышления" в одной нейросети.
В стандартном режиме Claude 3.7 Sonnet представляет собой улучшенную версию Claude 3.5 Sonnet. В режиме "размышления" (аналогичному o3-mini от OpenAI или DeepSeek R1) она анализирует себя перед ответом, что улучшает её производительность в математике, физике, следовании инструкциям, программировании и многих других задачах.
ОСОБЕННОСТИ РАЗМЫШЛЕНИЯ:
Модели Anthropic позволяют задать бюджет токенов на размер размышлений, но это плохо стыкуется с уже имеющимися интерфейсами.
Поэтому для них будет доступно 3 модели с разным параметром "уровень размышлений" OpenAI: low, medium (по умолчанию) и high.
Исходя из уровня размышлений, бюджет на размышления будет определяться как
thinking_budget = max_tokens * effort_thinking_level, где
effort_thinking_level равен 0.8 для high, 0.5 для medium и 0.2 для low.
При этом thinking_budget не может быть меньше 1024 или более 32000 токенов - при выходе за эти границы он будет округляться в сторону границ.
Anthropic: Claude 3.7 Sonnet Thinking (новая от 24 февраля)
Компания Anthropic объявила о выпуске новой версии своей языковой модели Claude 3.7 Sonnet. Ключевой особенностью обновления стала интеграция стандартного режима ответов и режима "размышления" в одной нейросети.
В стандартном режиме Claude 3.7 Sonnet представляет собой улучшенную версию Claude 3.5 Sonnet. В режиме "размышления" (аналогичному o3-mini от OpenAI или DeepSeek R1) она анализирует себя перед ответом, что улучшает её производительность в математике, физике, следовании инструкциям, программировании и многих других задачах.
ОСОБЕННОСТИ РАЗМЫШЛЕНИЯ:
Модели Anthropic позволяют задать бюджет токенов на размер размышлений, но это плохо стыкуется с уже имеющимися интерфейсами.
Поэтому для них будет доступно 3 модели с разным параметром "уровень размышлений" OpenAI: low, medium (по умолчанию) и high.
Исходя из уровня размышлений, бюджет на размышления будет определяться как
thinking_budget = max_tokens * effort_thinking_level, где
effort_thinking_level равен 0.8 для high, 0.5 для medium и 0.2 для low.
При этом thinking_budget не может быть меньше 1024 или более 32000 токенов - при выходе за эти границы он будет округляться в сторону границ.
Anthropic: Claude 3.7 Sonnet (новая от 24 февраля)
Компания Anthropic объявила о выпуске новой версии своей языковой модели Claude 3.7 Sonnet. Ключевой особенностью обновления стала интеграция стандартного режима ответов и режима "размышления" в одной нейросети.
В стандартном режиме Claude 3.7 Sonnet представляет собой улучшенную версию Claude 3.5 Sonnet. В режиме "размышления" (аналогичному o3-mini от OpenAI или DeepSeek R1) она анализирует себя перед ответом, что улучшает её производительность в математике, физике, следовании инструкциям, программировании и многих других задачах. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude 3.5 Haiku
Клод 3.5 Хайку обладает улучшенными возможностями в скорости, точности кодирования и использовании инструментов. Разработанный для достижения высоких результатов в приложениях реального времени, он обеспечивает быстрое время отклика, что крайне важно для динамических задач, таких как чат-взаимодействия и мгновенные предложения по кодированию.
Это делает его особенно подходящим для сред, требующих как скорости, так и точности, таких как разработка программного обеспечения, чат-боты для обслуживания клиентов и системы управления данными. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 8192 токенов
Anthropic: Claude 3.5 Sonnet (новая от 22 октября)
Сегодня мы запускаем Claude 3.5 Sonnet — наш первый релиз в будущей линейке моделей Claude 3.5. Claude 3.5 Sonnet поднимает планку в отрасли по уровню интеллекта, превосходя конкурентные модели и Claude 3 Opus по широкому спектру оценок, с такой же скоростью и стоимостью, как и у нашей средней модели Claude 3 Sonnet. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude 3 Haiku
Claude 3 Haiku — самая быстрая и компактная модель Anthropic, обеспечивающая практически мгновенное реагирование. Быстрая и точная целевая производительность. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 4096 токенов
Anthropic: Claude 3 Opus
Claude 3 Opus — самая мощная модель Anthropic для решения очень сложных задач. Он может похвастаться высочайшим уровнем производительности, интеллекта, беглости речи и понимания. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Anthropic: Claude 3 Sonnet (выключен 7 августа, перенаправляется в Sonnet 3.5)
Claude 3 Sonnet — это идеальный баланс интеллекта и скорости для корпоративных рабочих нагрузок. Максимальная полезность по более низкой цене, надежность, сбалансированность для масштабируемых развертываний. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Модели Perplexity: онлайн, с доступом к Интернету и фактической информации
Нейросети от Perplexity, сфокусированные на более точным следованиям фактам. Онлайн-модели (online в конце) перед запросом предположительно запрашивают свежие данные в Интернете, после чего формируют ответ – и, например, могут отвечать о погоде сегодня, о курсе доллара и пр. Также модели можно передавать ссылку на конкретную страницу в Интернете и с высокой вероятностью получить релевантный ответ. Наша новость на Хабре о моделях Perplexity
Внимание: онлайн-модель дополнительно тарифицируется по каждому запросу (т.к. идет вызов онлайн-поиска). Модель НЕ поддерживает чат – каждый запрос учитывает только последнее сообщение пользователя.
Рекомендация: поскольку Perplexity постоянно выпускает новые модели и удаляет обработку старых, рекомендуется установить в ваших приложениях ID псевдонима для малой или большой модели – тогда сервис сам перенаправит ваш запрос в самую последнюю версию (по ней и будет происходить тарификация)
Модель и ID
Руб за 1000 символов входных данных
Руб за 1000 символов генерации модели
Размер конте кста
Дата обнов ления
Авто моде ра ция
Perplexity: Sonar Reasoning Pro ? perplexity/sonar-reasoning-pro-online Профессиональный (не Тестовый)За вызов: 8.0 р.онлайн
0.30
1.20
128000
28 мая 25
нет
Perplexity: Sonar Pro ? perplexity/sonar-pro-online Профессиональный (не Тестовый)За вызов: 8.0 р.онлайн
0.45
2.20
128000
28 мая 25
нет
Perplexity: Sonar ? perplexity/sonar-online За вызов: 0.85 р.рекомендуетсяонлайн
0.15
0.15
128000
31 янв 25
нет
Perplexity: Sonar Reasoning (на базе DeepSeek R1) ? perplexity/sonar-r1-online ПрофессиональныйЗа вызов: 0.85 р.онлайнразмышления
Perplexity, последняя большая онлайн модель (перенаправляет в нужный ID) perplexity/latest-large-online рекомендуетсяонлайн
0
0
32000
8 авг 24
нет
Perplexity, последняя малая онлайн модель (перенаправляет в нужный ID) perplexity/latest-small-online онлайн
0
0
32000
8 авг 24
нет
Perplexity: Sonar Reasoning Pro
Улучшенная модель рассуждений с возможностями многоэтапного решения проблем и поиска в реальном времени.
Perplexity: Sonar Pro
Для предприятий, ищущих более продвинутые возможности, API Sonar Pro может обрабатывать углубленные многошаговые запросы с дополнительной расширяемостью, например, в среднем в два раза больше цитат на поиск, чем Sonar. Кроме того, благодаря большему контекстному окну, он может обрабатывать более длинные и нюансированные поисковые запросы и последующие вопросы.
Perplexity: Sonar
Сонар - легкий, доступный, быстрый и простой в использовании инструмент, теперь с функцией цитирования и возможностью настройки источников.
Perplexity: Sonar Reasoning (на базе DeepSeek R1)
Sonar Reasoning - это модель рассуждений, предоставляемая Perplexity на основе Deepseek R1.
Она позволяет разработчикам использовать длинные цепочки рассуждений со встроенным веб-поиском.
ОСОБЕННОСТИ БИЛЛИНГА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация.
Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
Максимальный размер выходной генерации для модели: 127000 токенов
Perplexity: Llama 3.1 Sonar 70B Online
Llama 3.1 Sonar - это новейшее семейство моделей Perplexity. Оно превосходит предыдущие модели Sonar по экономической эффективности, скорости и производительности.
(устарела, перенаправлена в Sonar)
Perplexity: Llama 3.1 Sonar 8B Online
Llama 3.1 Sonar - это новейшее семейство моделей Perplexity. Оно превосходит предыдущие модели Sonar по экономической эффективности, скорости и производительности.
(устарела, перенаправлена в Sonar)
Модели Google: Gemini Pro, Flash
Нейросети от Google. Достаточно дешевые.
Рекомендуются последние версии Gemini, однако пользователи жалуются, что даже при не очень большом контексте (5К+ символов) Google относительно часто возвращает ошибки и очень маленькие ответы (июнь 2024).
В случае, если нужна точность, рекомендуем модели Claude 3 с большим контекстом.
Модель и ID
Руб за 1000 символов входных данных
Руб за 1000 символов генерации модели
Размер конте кста
Дата обнов ления
Авто моде ра ция
Google: Gemini 3 Flash Preview (Thinking) ? google/gemini-3-flash-pre-thinking Базовый и выше (не Тестовый)toolsstructured-outputs
0.15
0.90
1000000
17 дек 25
нет
Google: Gemini 3 Flash Preview ? google/gemini-3-flash-pre Базовый и выше (не Тестовый)toolsstructured-outputs
0.15
0.90
1000000
17 дек 25
нет
Google: Gemini 3 Pro Preview (1M контекста) ? google/gemini-3-pro-preview-1m Профессиональный (не Тестовый)топtoolsstructured-outputs
1.10
4.95
1000000
18 ноя 25
нет
Google: Gemini 3 Pro Preview (Thinking High) ? google/gemini-3-pro-preview-high Профессиональный (не Тестовый)топtoolsstructured-outputs
0.55
3.30
200000
18 ноя 25
нет
Google: Gemini 3 Pro Preview ? google/gemini-3-pro-preview Профессиональный (не Тестовый)топtoolsstructured-outputs
Google: Gemini 2.5 Flash Lite Preview 09-2025 (Thinking) ? google/gemini-2.5-flash-lite-pre-0925-thinking дешевая и с большим контекстомtoolsstructured-outputs
0.03
0.12
1000000
26 сен 25
нет
Google: Gemini 2.5 Flash Lite Preview 09-2025 ? google/gemini-2.5-flash-lite-pre-0925 дешевая и с большим контекстомtoolsstructured-outputs
0.03
0.12
1000000
26 сен 25
нет
Google: Gemini 2.5 Flash Lite ? google/gemini-2.5-flash-lite дешевая и с большим контекстомtoolsstructured-outputs
Google: Gemini 2.5 Flash Preview 05 20 (c 16 июля отключена, перенаправляется в 2.5 Flash) ? google/gemini-2.5-flash-pre-05-20 дешевая и с большим контекстомtoolsstructured-outputs
0.018
0.07
1000000
20 мая 25
нет
Google: Gemini 2.5 Flash Preview (c 16 июля отключена, перенаправляется в 2.5 Flash) ? google/gemini-2.5-flash-pre дешевая и с большим контекстомstructured-outputs
0.018
0.07
1000000
18 апр 25
нет
Google: Gemini 2.5 Pro Preview (03-25) ? google/gemini-2.5-pro-preview-03-25 Профессиональныйtoolsstructured-outputs
Google: Gemini Flash 1.5 (отключена, перенаправляется в Gemini 2.5 Flash Lite) ? google/gemini-flash-1.5 дешевая и с большим контекстом
0.017
0.05
1000000
25 сен 24
нет
Google: Gemini 3 Flash Preview (Thinking)
Gemini 3 Flash Preview — это высокоскоростная модель, разработанная для агентных рабочих процессов, многоходовых чатов и помощи в программировании. Она обеспечивает рассуждения и производительность использования инструментов почти на уровне Pro при существенно более низкой задержке, чем у более крупных вариантов Gemini, что делает её хорошо подходящей для интерактивной разработки, длительных циклов работы агентов и совместных задач по программированию. По сравнению с Gemini 2.5 Flash она обеспечивает широкие улучшения качества в области рассуждений, мультимодального понимания и надёжности.
Размышляющая версия.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Google: Gemini 3 Flash Preview
Gemini 3 Flash Preview — это высокоскоростная модель, разработанная для агентных рабочих процессов, многоходовых чатов и помощи в программировании. Она обеспечивает рассуждения и производительность использования инструментов почти на уровне Pro при существенно более низкой задержке, чем у более крупных вариантов Gemini, что делает её хорошо подходящей для интерактивной разработки, длительных циклов работы агентов и совместных задач по программированию. По сравнению с Gemini 2.5 Flash она обеспечивает широкие улучшения качества в области рассуждений, мультимодального понимания и надёжности.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Google: Gemini 3 Pro Preview (1M контекста)
Gemini 3 Pro — это передовая ИИ-модель Google, разработанная для решения сложных задач в области рассуждений, программирования, математики и науки.
Версия с 1 миллионом токенов контекста.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Google: Gemini 3 Pro Preview (Thinking High)
Gemini 3 Pro — это передовая ИИ-модель Google, разработанная для решения сложных задач в области рассуждений, программирования, математики и науки.
Версия Thinking High (больше размышлений при необходимости)
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Google: Gemini 3 Pro Preview
Gemini 3 Pro — это передовая ИИ-модель Google, разработанная для решения сложных задач в области рассуждений, программирования, математики и науки.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Gemini 2.5 Flash — передовая рабочая модель Google, специально разработанная для сложных задач рассуждения, программирования, математики и научных исследований. Она включает встроенные возможности "размышления", позволяющие предоставлять ответы с большей точностью и нюансированной обработкой контекста. (Размышляющая версия)
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Google: Gemini 2.5 Flash Preview 09-2025
Gemini 2.5 Flash — передовая рабочая модель Google, специально разработанная для сложных задач рассуждения, программирования, математики и научных исследований. Она включает встроенные возможности "размышления", позволяющие предоставлять ответы с большей точностью и нюансированной обработкой контекста.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Google: Gemini 2.5 Flash Lite Preview 09-2025 (Thinking)
Gemini 2.5 Flash-Lite — это облегченная модель рассуждений из семейства Gemini 2.5, оптимизированная для сверхнизкой задержки и экономической эффективности. Она обеспечивает улучшенную пропускную способность, более быструю генерацию токенов и более высокую производительность по сравнению с ранними моделями Flash по распространенным критериям оценки.
Размышляющая версия модели
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Google: Gemini 2.5 Flash Lite Preview 09-2025
Gemini 2.5 Flash-Lite — это облегченная модель рассуждений из семейства Gemini 2.5, оптимизированная для сверхнизкой задержки и экономической эффективности. Она обеспечивает улучшенную пропускную способность, более быструю генерацию токенов и более высокую производительность по сравнению с ранними моделями Flash по распространенным критериям оценки.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Google: Gemini 2.5 Flash Lite
Gemini 2.5 Flash-Lite — это облегченная модель рассуждений в семействе Gemini 2.5, оптимизированная для сверхнизкой задержки и экономической эффективности. Она обеспечивает улучшенную пропускную способность, более быструю генерацию токенов и лучшую производительность по сравнению с более ранними моделями Flash в рамках общих тестов.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Google: Gemini 2.5 Flash (Thinking)
Gemini 2.5 Flash — передовая рабочая модель Google, специально разработанная для сложных задач рассуждения, программирования, математики и научных исследований. Она включает встроенные возможности "размышления", позволяющие предоставлять ответы с большей точностью и нюансированной обработкой контекста.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Google: Gemini 2.5 Flash
Gemini 2.5 Flash — передовая рабочая модель Google, специально разработанная для сложных задач рассуждения, программирования, математики и научных исследований. Она включает встроенные возможности "размышления", позволяющие предоставлять ответы с большей точностью и нюансированной обработкой контекста.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Google: Gemini 2.5 Flash Lite Preview 06-17
Gemini 2.5 Flash-Lite — это облегченная модель рассуждений в семействе Gemini 2.5, оптимизированная для сверхнизкой задержки и экономической эффективности. Она обеспечивает улучшенную пропускную способность, более быструю генерацию токенов и лучшую производительность по сравнению с более ранними моделями Flash в рамках общих тестов.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Google: Gemini 2.5 Pro
Gemini 2.5 Pro — это передовая ИИ-модель Google, разработанная для решения сложных задач в области рассуждений, программирования, математики и науки. Она использует возможности "мышления", что позволяет ей формулировать ответы с повышенной точностью и учетом нюансов контекста.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Google: Gemini 2.5 Pro Preview (обновлена 5 июня)
Gemini 2.5 Pro — это передовая ИИ-модель Google, разработанная для решения сложных задач в области рассуждений, программирования, математики и науки. Она использует возможности "мышления", что позволяет ей формулировать ответы с повышенной точностью и учетом нюансов контекста.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
В случае, если в процессе рассуждения достигнут лимит Макс токенов выхода, будет выдан пустой ответ - но он будет тарифицирован.
Также мы рекомендуем указывать повышенное время timeout, если вы используете API - модель может думать иногда 10 минут и более на сложных задачах.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Google: Gemini 2.5 Flash Preview 05 20 (c 16 июля отключена, перенаправляется в 2.5 Flash)
Gemini 2.5 Flash — это передовая рабочая модель Google, специально разработанная для сложных задач рассуждения, программирования, математики и научных исследований. Она включает встроенные возможности "мышления", позволяющие ей предоставлять ответы с большей точностью и учитывать нюансы контекста.
Примечание: Эта модель доступна в двух вариантах: с мышлением и без мышления. Стоимость выходных данных значительно варьируется в зависимости от того, активна ли функция мышления.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Google: Gemini 2.5 Flash Preview (c 16 июля отключена, перенаправляется в 2.5 Flash)
Gemini 2.5 Flash — это передовая рабочая модель Google, специально разработанная для сложных задач рассуждения, программирования, математики и научных исследований. Она включает встроенные возможности "мышления", позволяющие ей предоставлять ответы с большей точностью и учитывать нюансы контекста.
Примечание: Эта модель доступна в двух вариантах: с мышлением и без мышления. Стоимость выходных данных значительно варьируется в зависимости от того, активна ли функция мышления.
Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Google: Gemini 2.5 Pro Preview (03-25)
Gemini 2.5 Pro — это передовая ИИ-модель Google, разработанная для решения сложных задач в области рассуждений, программирования, математики и науки. Она использует возможности "мышления", что позволяет ей формулировать ответы с повышенной точностью и учетом нюансов контекста.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Gemma 3 27B (опенсорс)
Gemma 3 27B - это новейшая модель Google с открытым исходным кодом, преемник Gemma 2. Она обрабатывает контекстные окна до 128 тысяч токенов, понимает более 140 языков и предлагает улучшенные возможности в математике, рассуждениях и чате, включая структурированные выходные данные и вызов функций.
Модели Gemma хорошо подходят для различных задач генерации текста, включая ответы на вопросы, обобщение и рассуждение.
Нормально работает на русском языке (рекомендуется температура пониже)
Google: Gemini Flash 2.0 Lite
Gemini Flash 2.0 Lite предлагает значительно более быстрое время до первого токена (TTFT) по сравнению с Gemini Flash 1.5, сохраняя при этом качество на уровне более крупных моделей, таких как Gemini Pro 1.5.
Google: Gemini Flash 2.0
Gemini Flash 2.0 предлагает значительно более быстрое время до первого токена (TTFT) по сравнению с Gemini Flash 1.5, сохраняя при этом качество на уровне более крупных моделей, таких как Gemini Pro 1.5.
Gemini 1.5 Flash-8B (выключена, перенаправляется в Flash 2.5 Lite)
Gemini 1.5 Flash-8B оптимизирован для скорости и эффективности, обеспечивая улучшенную производительность в небольших задачах с подсказками, таких как чат, транскрипция и перевод. Благодаря сниженной задержке он очень эффективен для операций в режиме реального времени и в больших масштабах. Эта модель ориентирована на экономически эффективные решения при сохранении высокого качества результатов. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Gemma 2 27B (опенсорс)
Gemma 2 27B от Google - это открытая модель, созданная на основе тех же исследований и технологий, которые использовались для создания моделей Gemini.
Модели Gemma хорошо подходят для различных задач генерации текста, включая ответы на вопросы, обобщение и рассуждение.
Нормально работает на русском языке (рекомендуется температура пониже)
Google: Gemma 2 9B (опенсорс)
Gemma 2 9B от Google - это передовая языковая модель с открытым исходным кодом, которая устанавливает новый стандарт эффективности и производительности в своем классе размеров.
Разработанная для широкого спектра задач, она позволяет разработчикам и исследователям создавать инновационные приложения, сохраняя при этом доступность, безопасность и экономическую эффективность.
Gemini 1.5 Flash — это базовая модель, которая хорошо справляется с различными мультимодальными задачами, такими как визуальное понимание, классификация, обобщение и создание контента из изображений, аудио и видео. Он умеет обрабатывать визуальные и текстовые данные, такие как фотографии, документы, инфографика и снимки экрана.
Gemini 1.5 Flash предназначен для выполнения объемных и высокочастотных задач, где стоимость и задержка имеют значение. При выполнении большинства распространенных задач Flash обеспечивает качество, сравнимое с другими моделями Gemini Pro, при значительно меньших затратах. Flash хорошо подходит для таких приложений, как чат-помощники и создание контента по требованию, где скорость и масштаб имеют значение.
Модели DeepSeek: V3, R1
Нашумевшие нейросети от DeepSeek. Достаточно дешевые.
Они крайне дешевые в своем классе – но только при использовании самого провайдера DeepSeek, который логирует запросы (и в конце января DeepSeek не смог переварить интерес к своим моделям и лег)
Поэтому мы также поддерживаем альтернативных провайдеров для DeepSeek (постфикс alt) – они дороже, но не декларируют логирование данных и в целом часто устойчивее.
Модель и ID
Руб за 1000 символов входных данных
Руб за 1000 символов генерации модели
Размер конте кста
Дата обнов ления
Авто моде ра ция
DeepSeek V3.1 671B (альт провайдер, быстрая версия) ? deepseek/deepseek-chat-3.1-alt-fast быстраяобщие вопросы и программированиеtoolsstructured-outputs
0.08
0.25
162000
27 янв
нет
DeepSeek V3.2 671B (альт провайдер, быстрее) ? deepseek/deepseek-v3.2-alt-faster общие вопросы и программированиеtoolsstructured-outputs
DeepSeek V3.2 671B (альт провайдер, Thinking) ? deepseek/deepseek-v3.2-alt-thinking общие вопросы и программированиеtools
0.045
0.07
162000
2 дек 25
нет
DeepSeek V3.2 671B (альт провайдер) ? deepseek/deepseek-v3.2-alt общие вопросы и программированиеtools
0.045
0.07
162000
2 дек 25
нет
DeepSeek V3.2 Exp 671B Thinking (альт провайдер) ? deepseek/deepseek-v3.2-exp-alt-thinking общие вопросы и программированиеtools
0.045
0.07
162000
2 окт 25
нет
DeepSeek V3.2 Exp 671B (альт провайдер) ? deepseek/deepseek-v3.2-exp-alt общие вопросы и программированиеtools
0.045
0.07
162000
2 окт 25
нет
DeepSeek V3.1 Terminus 671B (альт провайдер, Thinking) ? deepseek/deepseek-chat-3.1-terminus-alt-thinking общие вопросы и программированиеtoolsstructured-outputs
0.07
0.22
162000
25 сен 25
нет
DeepSeek V3.1 Terminus 671B (альт провайдер) ? deepseek/deepseek-chat-3.1-terminus-alt общие вопросы и программированиеtoolsstructured-outputs
0.07
0.22
162000
25 сен 25
нет
DeepSeek V3.1 671B Thinking (альт провайдер) ? deepseek/deepseek-chat-3.1-alt-thinking общие вопросы и программированиеtoolsstructured-outputs
0.07
0.22
162000
22 авг 25
нет
DeepSeek V3.1 671B (альт провайдер) ? deepseek/deepseek-chat-3.1-alt общие вопросы и программированиеtoolsstructured-outputs
0.07
0.22
162000
22 авг 25
нет
DeepSeek R1 (05-28, конкурент o1, для размышлений, альтернативный провайдер) ? deepseek/deepseek-r1-alt-0528 Профессиональныйобщие вопросы
0.075
0.30
128000
29 мая 25
нет
DeepSeek V3 0324 600B (альт провайдер, быстрая) ? deepseek/deepseek-chat-0324-alt-fast общие вопросы и программирование
0.16
0.22
128000
31 мар 25
нет
DeepSeek V3 0324 600B (альтернативный провайдер, поддержка structured outputs) ? deepseek/deepseek-chat-0324-alt-structured общие вопросы и программированиеtoolsstructured-outputs
0.20
0.20
128000
31 мар 25
нет
DeepSeek V3 0324 600B (альтернативные провайдеры) ? deepseek/deepseek-chat-0324-alt общие вопросы и программирование
DeepSeek R1 дистиллят на базе LLama 3.3 70B (для размышлений) ? deepseek/deepseek-r1-distill-llama-70b Профессиональныйобщие вопросы
0.04
0.15
128000
28 янв 25
нет
DeepSeek R1 (конкурент o1, для размышлений, альтернативный провайдер) ? deepseek/deepseek-r1-alt Профессиональныйобщие вопросы
0.12
0.36
128000
3 фев 25
нет
DeepSeek R1 (конкурент o1, для размышлений, не рекомендуется для обычного пользования) ? deepseek/deepseek-r1 Профессиональныйпровайдер логирует данныеобщие вопросы
0.20
0.80
65536
20 янв 25
нет
DeepSeek V3 600B (альтернативные провайдеры) ? deepseek/deepseek-chat-alt устарела, переходите на deepseek/deepseek-chat-0324-altобщие вопросы и программирование
DeepSeek-V3.1 — это большая гибридная модель для рассуждений (671 млрд параметров, 37 млрд активных), которая поддерживает как режимы с размышлениями, так и без них через шаблоны промптов. Она расширяет базовую модель DeepSeek-V3 двухфазным процессом обучения для работы с длинным контекстом, достигая до 128 тыс. токенов.
Модель улучшает использование инструментов, генерацию кода и эффективность рассуждений, достигая производительности, сопоставимой с DeepSeek-R1 на сложных бенчмарках, при этом отвечая быстрее. Она поддерживает структурированный вызов инструментов, код-агентов и поисковых агентов, что делает её подходящей для исследований, программирования и агентных рабочих процессов. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
DeepSeek V3.2 671B (альт провайдер, быстрее)
DeepSeek-V3.2 — это обновление DeepSeek V3.1 на новой архитектуре с пониженной стоимостью и почти таким же качеством.
Отличия от обычной версии:
- Более быстрый провайдер.
- Дороже
- Поддержка structured outputs Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
DeepSeek-V3.2 Speciale - это специальная версия DeepSeek с углубленным качеством размышлений.
Speciale стала первой опенсорс моделью, которая завоевала золотую медаль в международных олимпиадах по математике и информатике.
DeepSeek V3.2 671B (альт провайдер, Thinking)
DeepSeek-V3.2 — это обновление DeepSeek V3.1 на новой архитектуре с пониженной стоимостью и почти таким же качеством.
Размышляющая версия. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
DeepSeek V3.2 671B (альт провайдер)
DeepSeek-V3.2 — это обновление DeepSeek V3.1 на новой архитектуре с пониженной стоимостью и почти таким же качеством. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
DeepSeek V3.2 Exp 671B Thinking (альт провайдер)
DeepSeek-V3.2 Exp — это обновление DeepSeek V3.1 на новой архитектуре с пониженной стоимостью и почти таким же качеством.
Размышляющая версия. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
DeepSeek V3.2 Exp 671B (альт провайдер)
DeepSeek-V3.2 Exp — это обновление DeepSeek V3.1 на новой архитектуре с пониженной стоимостью и почти таким же качеством. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
DeepSeek-V3.1 Terminus — это обновление DeepSeek V3.1, которое сохраняет исходные возможности модели, одновременно устраняя проблемы, о которых сообщали пользователи, включая согласованность языка и возможности агента, что дополнительно оптимизирует производительность модели в кодировании и поисковых агентах. Это большая гибридная модель рассуждений (671 млрд параметров, 37 млрд активных), поддерживающая режимы мышления и без мышления. Она расширяет базовую модель DeepSeek-V3 с помощью двухфазного процесса обучения с длинным контекстом, достигая до 128 тысяч токенов, и использует микромасштабирование FP8 для эффективного вывода. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
DeepSeek V3.1 Terminus 671B (альт провайдер)
DeepSeek-V3.1 Terminus — это обновление DeepSeek V3.1, которое сохраняет исходные возможности модели, одновременно устраняя проблемы, о которых сообщали пользователи, включая согласованность языка и возможности агента, что дополнительно оптимизирует производительность модели в кодировании и поисковых агентах. Это большая гибридная модель рассуждений (671 млрд параметров, 37 млрд активных), поддерживающая режимы мышления и без мышления. Она расширяет базовую модель DeepSeek-V3 с помощью двухфазного процесса обучения с длинным контекстом, достигая до 128 тысяч токенов, и использует микромасштабирование FP8 для эффективного вывода. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
DeepSeek V3.1 671B Thinking (альт провайдер)
DeepSeek-V3.1 — это большая гибридная модель для рассуждений (671 млрд параметров, 37 млрд активных), которая поддерживает как режимы с размышлениями, так и без них через шаблоны промптов. Она расширяет базовую модель DeepSeek-V3 двухфазным процессом обучения для работы с длинным контекстом, достигая до 128 тыс. токенов.
Модель улучшает использование инструментов, генерацию кода и эффективность рассуждений, достигая производительности, сопоставимой с DeepSeek-R1 на сложных бенчмарках, при этом отвечая быстрее. Она поддерживает структурированный вызов инструментов, код-агентов и поисковых агентов, что делает её подходящей для исследований, программирования и агентных рабочих процессов. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
DeepSeek V3.1 671B (альт провайдер)
DeepSeek-V3.1 — это большая гибридная модель для рассуждений (671 млрд параметров, 37 млрд активных), которая поддерживает как режимы с размышлениями, так и без них через шаблоны промптов. Она расширяет базовую модель DeepSeek-V3 двухфазным процессом обучения для работы с длинным контекстом, достигая до 128 тыс. токенов.
Модель улучшает использование инструментов, генерацию кода и эффективность рассуждений, достигая производительности, сопоставимой с DeepSeek-R1 на сложных бенчмарках, при этом отвечая быстрее. Она поддерживает структурированный вызов инструментов, код-агентов и поисковых агентов, что делает её подходящей для исследований, программирования и агентных рабочих процессов. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
DeepSeek R1 (05-28, конкурент o1, для размышлений, альтернативный провайдер)
DeepSeek-R1 - это новейшая модель от команды DeepSeek, нацеленная на размышления с рассуждениями. Апдейт от 28 мая - цена ниже, качество выше.
Максимальный размер выходной генерации для модели: 163000 токенов
DeepSeek V3 0324 600B (альт провайдер, быстрая)
Дотренированная версия DeepSeek V3 от 24 марта 2025 - несколько лучшие результаты по всем метрикам.
Версия от альтернативных провайдеров - но контекст небольшой.
Очень быстрый инференс, до 200 токенов в секунду при небольших запросах с контекстом до 8000 токенов.
На большем контексте быстрый инференс где-то в 50-60 токенов в секунду.
DeepSeek V3 0324 600B (альтернативный провайдер, поддержка structured outputs)
Дотренированная версия DeepSeek V3 от 24 марта 2025 - несколько лучшие результаты по всем метрикам.
Версия от альтернативных провайдеров.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
DeepSeek V3 0324 600B (альтернативные провайдеры)
Дотренированная версия DeepSeek V3 от 24 марта 2025 - несколько лучшие результаты по всем метрикам.
Версия от альтернативных провайдеров.
Максимальный размер выходной генерации для модели: 2000 токенов
DeepSeek R1 (конкурент o1, альтернативный провайдер, быстрее, но дороже)
DeepSeek-R1 - это новейшая модель от команды DeepSeek, нацеленная на размышления с рассуждениями.
ОСОБЕННОСТИ БИЛЛИНГА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но может не показываться в ответе.
Максимальный размер выходной генерации для модели: 163840 токенов
DeepSeek R1 дистиллят на базе LLama 3.3 70B (для размышлений)
DeepSeek R1 Distill Llama 70B - это дистиллированная большая языковая модель, основанная на Llama-3.3-70B-Instruct, использующая выходные данные DeepSeek R1.
При использовании рекомендуется добавлять в системный промт фразу "Think step by step" Максимальный размер выходной генерации для модели: 128000 токенов
DeepSeek R1 (конкурент o1, для размышлений, альтернативный провайдер)
DeepSeek-R1 - это новейшая модель от команды DeepSeek, нацеленная на размышления с рассуждениями.
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе. Максимальный размер выходной генерации для модели: 128000 токенов
DeepSeek R1 (конкурент o1, для размышлений, не рекомендуется для обычного пользования)
DeepSeek-R1 - это новейшая модель от команды DeepSeek, нацеленная на размышления с рассуждениями.
ОСОБЕННОСТИ БИЛЛИНГА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация.
Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
DeepSeek V3 600B (альтернативные провайдеры)
Версия от альтернативных провайдеров.
Максимальный размер выходной генерации для модели: 2000 токенов
DeepSeek V3.2 671B (обновлена 2 декабря 2025)
DeepSeek-V3.2 - это новейшая модель от команды DeepSeek, основанная на возможностях следования инструкциям и программирования предыдущих версий. Предварительно обученная на почти 15 триллионах токенов, согласно представленным оценкам, модель превосходит другие модели с открытым исходным кодом и соперничает с ведущими моделями с закрытым исходным кодом. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Мы представляем DeepSeek-Coder-V2, открытую языковую модель Mixture-of-Experts (MoE), которая достигает результатов, сопоставимых с GPT4-Turbo в задачах, связанных с кодом. Модель была дообучена на 6 триллионах токенов и улучшила свои способности в программировании и математическом рассуждении, сохраняя при этом производительность в общих языковых задачах. DeepSeek-Coder-V2 поддерживает 338 языков программирования и 32К контекст.
Всего параметров: 236B, активных: 21B
Хостинг осуществляется разработчиком DeepSeek, который отмечает, что ваши данные могут быть залогированы и использованы для тренировки.
Модели xAI: Grok 2, 3
Модели Grok от компании Элона Maска xAI.
Модель и ID
Руб за 1000 символов входных данных
Руб за 1000 символов генерации модели
Размер конте кста
Дата обнов ления
Авто моде ра ция
Grok 4.1 Fast от xAI (Thinking, 2M контекста) ? x-ai/grok-4.1-fast-thinking-2m программирование и общие вопросыtoolsstructured-outputs
0.12
0.30
2000000
23 дек 25
нет
Grok 4.1 Fast от xAI (Thinking) ? x-ai/grok-4.1-fast-thinking возможный топ по цена/качествопрограммирование и общие вопросыtoolsstructured-outputs
0.06
0.15
128000
23 дек 25
нет
Grok 4.1 Fast от xAI (2M контекст) ? x-ai/grok-4.1-fast-2m программирование и общие вопросыtoolsstructured-outputs
0.12
0.30
2000000
23 дек 25
нет
Grok 4.1 Fast от xAI ? x-ai/grok-4.1-fast возможный топ по цена/качествопрограммирование и общие вопросыtoolsstructured-outputs
0.06
0.15
128000
23 дек 25
нет
Grok 4 Fast от xAI (Thinking, 2M контекста) ? x-ai/grok-4-fast-thinking-2m программирование и общие вопросыtoolsstructured-outputs
0.12
0.30
2000000
22 окт 25
нет
Grok 4 Fast от xAI (Thinking) ? x-ai/grok-4-fast-thinking возможный топ по цена/качествопрограммирование и общие вопросыtoolsstructured-outputs
0.06
0.15
128000
22 окт 25
нет
Grok 4 Fast от xAI (2M контекст) ? x-ai/grok-4-fast-2m программирование и общие вопросыtoolsstructured-outputs
0.12
0.30
2000000
22 окт 25
нет
Grok 4 Fast от xAI ? x-ai/grok-4-fast возможный топ по цена/качествопрограммирование и общие вопросыtoolsstructured-outputs
0.06
0.15
128000
22 окт 25
нет
Grok Code Fast 1 от xAI (314B) ? x-ai/grok-code-fast-1 программирование и общие вопросыtoolsstructured-outputs
0.03
0.22
256000
28 авг 25
нет
Grok 4 (Thinking) ? x-ai/grok-4 Профессиональный (не Тестовый)топразмышленияtoolsstructured-outputs
0.90
4.5
256000
10 июл 25
да
Grok 3 Beta ? x-ai/grok-3-beta Профессиональный (не Тестовый)провайдер логирует данные
Grok 3 Mini Beta (Thinking) ? x-ai/grok-3-mini-beta-thinking провайдер логирует данныеразмышления
0.05
0.075
128000
10 апр 25
да
Grok 4.1 Fast от xAI (Thinking, 2M контекста)
Grok 4.1 Fast — последняя модель от xAI, сравнимая с GPT-5.
Размышляющий вариант, контекст в 2М токенов.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 10000 токенов
Grok 4.1 Fast от xAI (Thinking)
Grok 4.1 Fast — последняя модель от xAI, сравнимая с GPT-5.
Размышляющий вариант.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 10000 токенов
Grok 4.1 Fast от xAI (2M контекст)
Grok 4.1 Fast — последняя модель от xAI, сравнимая с GPT-5.
Вариант на 2 миллиона контекста, цена несколько выше.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 10000 токенов
Grok 4.1 Fast от xAI
Grok 4.1 Fast — последняя модель от xAI, сравнимая с GPT-5.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 10000 токенов
Grok 4 Fast от xAI (Thinking, 2M контекста)
Grok 4 Fast — последняя модель от xAI, сравнимая с GPT-5.
Размышляющий вариант, контекст в 2М токенов.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 10000 токенов
Grok 4 Fast от xAI (Thinking)
Grok 4 Fast — последняя модель от xAI, сравнимая с GPT-5.
Размышляющий вариант.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 10000 токенов
Grok 4 Fast от xAI (2M контекст)
Grok 4 Fast — последняя модель от xAI, сравнимая с GPT-5.
Вариант на 2 миллиона контекста, цена несколько выше.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 10000 токенов
Grok 4 Fast от xAI
Grok 4 Fast — последняя модель от xAI, сравнимая с GPT-5.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 10000 токенов
Grok Code Fast 1 от xAI (314B)
Grok Code Fast 1 — это быстрая и экономичная модель рассуждений, которая превосходно справляется с агентным программированием. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию. Максимальный размер выходной генерации для модели: 10000 токенов
Grok 4 (Thinking)
Grok 4 — это последняя модель рассуждений от xAI с контекстным окном в 256 тысяч токенов.
Согласно результатом бенчмарков, она опережает другие топовые сети - как OpenAI o3, Opus 4
ОСОБЕННОСТИ БИЛЛИНГА:
До выдачи результатов по API модель размышляет над ответом. Это стоит довольно много токенов, но не показывается в ответе.
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация.
Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Grok 3 Beta
Grok 3 - это новейшая модель от xAI. Это их флагманская модель, которая отлично подходит для корпоративных случаев использования, таких как извлечение данных, кодирование и обобщение текста. Обладает глубокими предметными знаниями в области финансов, здравоохранения, права и науки.
Grok 3 Mini Beta (Thinking, Low effort)
Grok 3 Mini - это легковесная, компактная мыслящая модель. В отличие от традиционных моделей, которые сразу генерируют ответы, Grok 3 Mini сначала обдумывает, прежде чем отвечать. Она идеально подходит для задач, требующих интенсивного рассуждения, но не обширных предметных знаний, и особенно хорошо проявляет себя в математических и количественных задачах, таких как решение сложных головоломок или математических проблем.
Grok 3 Mini Beta (Thinking High)
Grok 3 Mini - это легковесная, компактная мыслящая модель. В отличие от традиционных моделей, которые сразу генерируют ответы, Grok 3 Mini сначала обдумывает, прежде чем отвечать. Она идеально подходит для задач, требующих интенсивного рассуждения, но не обширных предметных знаний, и особенно хорошо проявляет себя в математических и количественных задачах, таких как решение сложных головоломок или математических проблем.
Grok 3 Mini Beta (Thinking)
Grok 3 Mini - это легковесная, компактная мыслящая модель. В отличие от традиционных моделей, которые сразу генерируют ответы, Grok 3 Mini сначала обдумывает, прежде чем отвечать. Она идеально подходит для задач, требующих интенсивного рассуждения, но не обширных предметных знаний, и особенно хорошо проявляет себя в математических и количественных задачах, таких как решение сложных головоломок или математических проблем.
Модели MistralAI: опенсорс + закрытые Tiny, Small, Medium
Закрытые, предоставляемые по API нейросети от компании Mistral, известной своими опенсорс моделями. Mistral Medium по оценкам производителя в работе сравнима с Claude 2 и GPT 4. Также здесь присутствуют ссылки на её оригинальные опенсорс модели.
Модель и ID
Руб за 1000 символов входных данных
Руб за 1000 символов генерации модели
Размер конте кста
Дата обнов ления
Авто моде ра ция
Mistral: Mistral Medium 3.1 ? mistralai/mistral-medium-3.1 toolsstructured-outputs
0.06
0.30
260000
14 авг 25
нет
Mistral: Devstral Medium ? mistralai/devstral-medium программированиеtoolsstructured-outputs
0.06
0.30
128000
11 июл 25
нет
Mistral: Mistral Small 3.2 24B ? mistralai/mistral-small-3.2-24b-instruct toolsstructured-outputs
0.015
0.045
128000
25 июн 25
нет
Mistral: Devstral Small (25-07) ? mistralai/devstral-small программированиеtoolsstructured-outputs
0.015
0.045
128000
11 июл 25
нет
Mistral Medium 3 ? mistralai/mistral-medium-3 toolsstructured-outputs
Mistral Medium 3.1 — это обновленная версия Mistral Medium 3, высокопроизводительной языковой модели корпоративного уровня, разработанной для обеспечения передовых возможностей при значительно сниженных операционных затратах. Она сочетает в себе современные возможности рассуждения и мультимодальную производительность с в 8 раз более низкой стоимостью по сравнению с традиционными крупными моделями, что делает её подходящей для масштабируемых развертываний в профессиональных и промышленных сценариях использования.
Модель превосходно работает в таких областях, как программирование, STEM-рассуждения и корпоративная адаптация. Она поддерживает гибридные развертывания, развертывания на собственных серверах и в VPC, и оптимизирована для интеграции в пользовательские рабочие процессы. Mistral Medium 3.1 предлагает конкурентоспособную точность по сравнению с более крупными моделями, такими как Claude Sonnet 3.5/3.7, Llama 4 Maverick и Command R+, при этом сохраняя широкую совместимость в облачных средах. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Mistral: Devstral Medium
Devstral Medium — это высокопроизводительная модель генерации кода и агентного рассуждения, разработанная совместно Mistral AI и All Hands AI. Позиционируемая как шаг вперёд по сравнению с Devstral Small, она достигает 61,6% на SWE-Bench Verified, опережая Gemini 2.5 Pro и GPT-4.1 в задачах, связанных с кодом, при значительно меньшей стоимости. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Mistral: Mistral Small 3.2 24B
Mistral-Small-3.2-24B-Instruct-2506 - это обновленная модель с 24 миллиардами параметров от Mistral, оптимизированная для выполнения инструкций, снижения повторений и улучшения вызова функций. По сравнению с версией 3.1, версия 3.2 значительно повышает точность на WildBench и Arena Hard, сокращает бесконечные генерации и обеспечивает прирост в задачах использования инструментов и структурированного вывода. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Mistral: Devstral Small (25-07)
Devstral-Small-2507 - это агентная модель с 24 миллиардами параметров, доработанная на основе Mistral-Small-3.1, совместно разработанная Mistral AI и All Hands AI для продвинутых задач разработки программного обеспечения. Она оптимизирована для исследования кодовых баз, редактирования нескольких файлов и интеграции в агенты для программирования, достигая передовых результатов на SWE-Bench Verified (46,8%).
(Модель обновлена 11 июля 2025) Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Mistral Medium 3
Mistral Medium 3 — это высокопроизводительная языковая модель корпоративного уровня, разработанная для обеспечения передовых возможностей при значительно сниженных операционных затратах. Она сочетает современные возможности рассуждения и мультимодальную производительность с затратами в 8 раз ниже по сравнению с традиционными большими моделями, что делает её подходящей для масштабируемого внедрения в профессиональных и промышленных сценариях использования.
Модель превосходит в таких областях, как программирование, STEM-рассуждения и адаптация для предприятий. Mistral Medium 3 предлагает конкурентоспособную точность по сравнению с более крупными моделями, такими как Claude Sonnet 3.5/3.7, Llama 4 Maverick и Command R+, сохраняя при этом широкую совместимость с различными облачными средами. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Mistral: Codestral 2501
Передовая языковая модель Mistral для программирования. Codestral специализируется на задачах с низкой задержкой и высокой частотой, таких как заполнение пропусков в коде (FIM), исправление кода и генерация тестов.
Mistral: Mistral Large 2 (версия 2411)
Mistral Large 2 2411 - это обновление Mistral Large 2.
Модель свободно владеет английским, французским, испанским, немецким и итальянским языками с высокой грамматической точностью, а её большое контекстное окно позволяет точно извлекать информацию из объёмных документов. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Ministral 8B
Ministral 8B - это модель с 8 миллиардами параметров, отличающаяся уникальным чередующимся паттерном внимания с скользящим окном для более быстрого и эффективного по памяти вывода.
Увы, не очень хороша в русском языке. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Mistral: Mistral NeMo 12B
Mistral AI представила Mistral NeMo, 12-миллиардную модель, разработанную в сотрудничестве с NVIDIA. Mistral NeMo предлагает большой контекст до 128 тысяч токенов.
Модель тренировалась на многоязычных данных, и, что довольно приятно, графики включают в себя оценки эффективности на русском языке.
Наша новость на Хабре: https://habr.com/ru/news/829822/ Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Mistral: Mixtral 8x22B Instruct
Официальный Instruct-файнтюн Mistral для версии Mixtral 8x22B. Он использует 39 миллиардов активных параметров из 141 миллиарда, обеспечивая беспрецедентную экономическую эффективность для своего размера.
Mistral: Mistral Large 2
Это флагманская модель Mistral AI, Mistral Large 2 (версия mistral-large-2407). Она основана на прототипе с закрытым исходным кодом и превосходно справляется с рассуждениями, кодом, JSON, чатом и многим другим.
Mistral Small
В настоящее время эта модель оснащена Mixtral-8X7B-v0.1, редкой смесью экспертной модели с 12B активными параметрами. Он лучше рассуждает, демонстрирует больше возможностей, может создавать код и рассуждать о нем, а также является многоязычным, поддерживая английский, французский, немецкий, итальянский и испанский языки.
Mistral Tiny
Эта модель в настоящее время работает на базе Mistral-7B-v0.2 и включает в себя «лучшую» тонкую настройку, чем Mistral 7B , вдохновленную опенсорсом. Его лучше всего использовать для больших задач пакетной обработки, где стоимость является важным фактором, но возможности рассуждения не имеют решающего значения.
Mistral: Mixtral 8x7B Instruct
Предварительно обученная генеративная разреженная смесь экспертов от Mistral AI для использования в чате и инструкциях. Включает 8 экспертов (сети прямого распространения) для 47B параметров.
Mistral: Mistral Small 3.1 24B
Mistral Small 3.1 24B Instruct - это усовершенствованная версия модели Mistral Small 3 (2501), обладающая 24 миллиардами параметров и расширенными мультимодальными возможностями.
Mistral: Mistral Small 3
Mistral Small 3 - это языковая модель с 24 миллиардами параметров, оптимизированная для выполнения типовых задач ИИ с низкой задержкой. Выпущенная под лицензией Apache 2.0, она представлена как в предварительно обученной версии, так и в версии, настроенной на выполнение инструкций, предназначенных для эффективного локального развертывания.
Модель достигает 81% точности в тестировании MMLU и демонстрирует результаты, сопоставимые с более крупными моделями, такими как Llama 3.3 70B и Qwen 32B, при этом работая в три раза быстрее на аналогичном оборудовании.
Mistral 7B Instruct v0.3
Команда Mistral AI представила Mistral 7B — открытую языковую модель из 7,3 миллиардов параметров, которая превосходит вдвое большую модель Llama 2 13B на всех бенчмарках. При этом Mistral 7B достигает сравнимых результатов с Code Llama 2 в задачах генерации и исправления кода, хотя она не дообучалась специально для этих задач. Mistral 7B удалось достичь такого результата благодаря grouped-query механизму внимания и скользящему окну внимания (sliding window attention) при обучении на длинных последовательностях.
29 мая модель обновлена до версии 0.3
Вердикт автора VseGPT: на английском справляется относительно неплохо, на русском сильно хуже. Но цена за 1000 символов очень низкая.
Модели Cohere: с фокусом на RAG, function calling, tools
Модели от Cohere с фокусом на RAG, function calling, tools.
Доступны в виде OpenSource версий, но у нас предоставляются через API с модерацией. Используя данные модели, вы соглашаетесь с ToS Cohere
Модель и ID
Руб за 1000 символов входных данных
Руб за 1000 символов генерации модели
Размер конте кста
Дата обнов ления
Авто моде ра ция
Cohere: Command R+ (август 2024) ? cohere/command-r-plus-08-2024 Профессиональныйобщие вопросы и ролеплей
0.38
1.5
128000
31 авг 24
нет
Cohere: Command R (август 2024) ? cohere/command-r-08-2024 общие вопросы и ролеплей
0.025
0.09
128000
31 авг 24
нет
Cohere: Command R7B (12-2024) ? cohere/command-r7b-12-2024 За вызов: 0.005 р.
0.01
0.025
128000
16 дек 24
нет
Cohere: Command R+ (август 2024)
command-r-plus-08-2024 - это обновление Command R+ с примерно на 50% более высокой пропускной способностью и на 25% меньшей задержкой по сравнению с предыдущей версией Command R+
Cohere: Command R (август 2024)
command-r-08-2024 - это обновление Command R с улучшенной производительностью для многоязычной генерации с дополнением извлечения (RAG) и использования инструментов. В более широком смысле, она лучше справляется с математикой, кодом и рассуждениями и конкурентоспособна с предыдущей версией более крупной модели Command R+.
Cohere: Command R7B (12-2024)
Command R7B (12-2024) - это небольшое, быстрое обновление модели Command R+, выпущенное в декабре 2024 года. Она отлично справляется с RAG, использованием инструментов, агентами и подобными задачами, требующими сложных рассуждений и множества этапов.
Модели Qwen – опенсорс модели от Tongyi Qianwen (Alibaba)
Серия языковых моделей от Tongyi Qianwen (Alibaba group, Китай).
Старшие модели показывают неплохое знание русского языка – но рекомендуется ставить температуру пониже (около 0.2) и явно прописывать «отвечать на русском языке».
Qwen3-Max — это обновленная версия серии Qwen3, предлагающая значительные улучшения в рассуждениях, следовании инструкциям, многоязычной поддержке и охвате редких знаний по сравнению с версией января 2025 года. Она обеспечивает более высокую точность в задачах по математике, программированию, логике и естественным наукам, более надежно следует сложным инструкциям на китайском и английском языках, снижает галлюцинации и создает более качественные ответы для открытых вопросов и ответов, письма и разговоров. Модель поддерживает более 100 языков с улучшенным переводом и здравым смыслом, оптимизирована для генерации с использованием извлечения информации (RAG) и вызова инструментов, хотя и не включает специальный режим "мышления". Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Qwen: Qwen3 Coder Flash
Qwen3 Coder Flash — это быстрая и экономичная версия проприетарной модели Qwen3 Coder Plus от Alibaba. Это мощная модель-агент для программирования, специализирующаяся на автономном программировании через вызов инструментов и взаимодействие с окружающей средой, сочетающая профессионализм в кодировании с универсальными возможностями общего назначения. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Qwen: Qwen3 Next 80B A3B (Thinking)
Qwen3-Next-80B-A3B-Thinking — это диалоговая модель из линейки Qwen3-Next, ориентированная на рассуждения, которая по умолчанию выдаёт структурированные цепочки "размышлений". Она разработана для решения сложных многоэтапных задач: математических доказательств, синтеза/отладки кода, логических задач и агентного планирования, и демонстрирует высокие результаты в оценках знаний, рассуждений, программирования, соответствия требованиям и многоязычных возможностей. По сравнению с предыдущими вариантами Qwen3, она делает акцент на стабильности при длинных цепочках рассуждений и эффективном масштабировании во время вывода, а также настроена на выполнение сложных инструкций при одновременном снижении повторяющегося или отклоняющегося от задачи поведения.
Модель подходит для агентных фреймворков и использования инструментов (вызов функций), рабочих процессов с интенсивным поиском информации и стандартизированного тестирования, где требуются пошаговые решения. Она поддерживает длинные, детальные ответы и использует техники, ориентированные на высокую производительность (например, предсказание нескольких токенов) для более быстрой генерации. Обратите внимание, что она работает только в режиме размышлений. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Qwen: Qwen3 Next 80B A3B
Qwen3-Next-80B-A3B-Instruct — это настроенная на работу с инструкциями чат-модель из серии Qwen3-Next, оптимизированная для быстрых, стабильных ответов без следов "размышлений". Она ориентирована на сложные задачи в области рассуждений, генерации кода, ответов на вопросы на основе знаний и многоязычного использования, сохраняя при этом надежность в согласованности и форматировании. По сравнению с предыдущими инструктивными вариантами Qwen3, она фокусируется на более высокой производительности и стабильности при работе с ультрадлинными входными данными и многоходовыми диалогами, что делает ее хорошо подходящей для RAG, использования инструментов и агентных рабочих процессов, требующих последовательных окончательных ответов, а не видимой цепочки рассуждений.
(Поддержка structured_output под вопросом)
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Qwen: Qwen3 30B A3B Instruct 2507
Qwen3-30B-A3B-Instruct-2507 — это языковая модель со смесью экспертов с 30,5 млрд параметров от Qwen, с 3,3 млрд активных параметров на инференс. Она работает в режиме без рассуждений и предназначена для высококачественного следования инструкциям, многоязычного понимания и агентного использования инструментов. Дообученная на данных инструкций, она демонстрирует конкурентоспособную производительность в тестах на рассуждение (AIME, ZebraLogic), программирование (MultiPL-E, LiveCodeBench) и выравнивание (IFEval, WritingBench). Она превосходит свой вариант без инструкций в субъективных и открытых задачах, сохраняя при этом сильную производительность в фактических и программных задачах.
Qwen: Qwen3 235B A22B Thinking 2507
Qwen3-235B-A22B-Thinking-2507 — это высокопроизводительная языковая модель с открытыми весами типа Mixture-of-Experts (MoE), оптимизированная для сложных задач рассуждения. Она активирует 22 миллиарда из своих 235 миллиардов параметров за один прямой проход и изначально поддерживает контекст до 262 144 токенов. Этот вариант "только для размышлений" улучшает структурированные логические рассуждения, математику, науку и генерацию длинных текстов, демонстрируя сильную производительность в тестах AIME, SuperGPQA, LiveCodeBench и MMLU-Redux. Модель использует специальный режим рассуждения () и предназначена для генерации выходных данных с большим количеством токенов (до 81 920 токенов) в сложных областях. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Qwen3 Coder 480B A35B (с поддержкой tools)
Qwen3-Coder-480B-A35B-Instruct — это модель генерации кода типа "Смесь экспертов" (MoE), разработанная командой Qwen. Она оптимизирована для агентных задач программирования, таких как вызов функций, использование инструментов и рассуждения в длинном контексте над репозиториями. Модель содержит 480 миллиардов общих параметров, с 35 миллиардами активных на один прямой проход (8 из 160 экспертов). Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Qwen3 Coder 480B A35B
Qwen3-Coder-480B-A35B-Instruct — это модель генерации кода типа "Смесь экспертов" (MoE), разработанная командой Qwen. Она оптимизирована для агентных задач программирования, таких как вызов функций, использование инструментов и рассуждения в длинном контексте над репозиториями. Модель содержит 480 миллиардов общих параметров, с 35 миллиардами активных на один прямой проход (8 из 160 экспертов).
Qwen: Qwen3 235B A22B 2507
Qwen3-235B-A22B-Instruct-2507 — это многоязычная языковая модель со смесью экспертов, настроенная на выполнение инструкций и основанная на архитектуре Qwen3-235B, с 22 миллиардами активных параметров на один проход вперед. Она оптимизирована для универсальной генерации текста, включая следование инструкциям, логические рассуждения, математику, код и использование инструментов. Модель поддерживает нативную длину контекста 262K и не реализует «режим мышления» (блоки ).
По сравнению с базовой версией, эта модель демонстрирует значительные улучшения в охвате знаний, рассуждениях с длинным контекстом, бенчмарках кодирования и согласованности с открытыми задачами. Она особенно сильна в многоязычном понимании, математических рассуждениях (например, AIME, HMMT) и оценках согласованности, таких как Arena-Hard и WritingBench.
Qwen: Qwen3 30B A3B
Qwen3, последнее поколение в серии больших языковых моделей Qwen, представлен как в плотной архитектуре, так и в архитектуре смеси экспертов (MoE), что позволяет ему превосходно справляться с задачами рассуждения, многоязычной поддержки и продвинутыми агентскими задачами. Его уникальная способность плавно переключаться между режимом размышления для сложных рассуждений и режимом без размышлений для эффективного диалога обеспечивает универсальную высококачественную производительность.
Значительно превосходя предыдущие модели, такие как QwQ и Qwen2.5, Qwen3 демонстрирует превосходные возможности в математике, программировании, логических рассуждениях, творческом письме и интерактивном диалоге. Вариант Qwen3-30B-A3B включает 30,5 миллиардов параметров (3,3 миллиарда активированных), 48 слоев, 128 экспертов (8 активируются для каждой задачи).
Вы можете включить режим "без размышлений", добавив к запросу фразу /no_think, или включить его обратно, добавив фразу /think
Qwen: Qwen3 14B
Qwen3-14B - это плотная причинная языковая модель с 14,8 миллиардами параметров из серии Qwen3, разработанная как для сложных рассуждений, так и для эффективного диалога. Она поддерживает плавное переключение между режимом "размышления" для таких задач, как математика, программирование и логический вывод, и режимом "без размышлений" для общения общего назначения. Модель настроена для следования инструкциям, использования инструментов агентами, креативного письма и многоязычных задач на более чем 100 языках и диалектах.
Вы можете включить режим "без размышлений", добавив к запросу фразу /no_think, или включить его обратно, добавив фразу /think
Qwen: Qwen3 32B
Qwen3-32B — это плотная причинно-следственная языковая модель с 32,8 миллиардами параметров из серии Qwen3, оптимизированная как для сложных рассуждений, так и для эффективного диалога. Она поддерживает беспрепятственное переключение между режимом "мышления" для таких задач, как математика, программирование и логический вывод, и режимом "без мышления" для более быстрого, универсального общения. Модель демонстрирует высокую производительность в выполнении инструкций, использовании агентских инструментов, творческом письме и многоязычных задачах, охватывая более 100 языков и диалектов.
Вы можете включить режим "без размышлений", добавив к запросу фразу /no_think, или включить его обратно, добавив фразу /think
Qwen: Qwen3 235B A22B
Qwen3-235B-A22B - это модель на основе смеси экспертов (MoE) с 235 миллиардами параметров, разработанная Qwen, активирующая 22 миллиарда параметров за один прямой проход. Она поддерживает плавное переключение между режимом "размышления" для сложных задач рассуждения, математики и программирования, и режимом "без размышления" для эффективного общего взаимодействия. Модель демонстрирует сильную способность к рассуждению, многоязычную поддержку (более 100 языков и диалектов), продвинутое следование инструкциям и возможности вызова инструментов агента.
Вы можете включить режим "без размышлений", добавив к запросу фразу /no_think, или включить его обратно, добавив фразу /think
Qwen: QwQ 32B
QwQ - это модель рассуждений серии Qwen. По сравнению с обычными моделями, настроенными на инструкции, QwQ, способная к мышлению и рассуждению, может достичь значительно улучшенной производительности в последующих задачах, особенно в сложных проблемах. QwQ-32B - это модель рассуждений среднего размера, способная достигать конкурентоспособной производительности по сравнению с современными моделями рассуждений, такими как DeepSeek-R1, o1-mini.
Данный вариант быстрый, до 300 токенов с секунду Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Qwen2.5 72B Instruct (с поддержкой structured outputs)
Версия с поддержкой structured outputs Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Qwen2.5 Coder 32B Instruct
Qwen2.5-Coder - это новейшая серия специализированных языковых моделей Qwen для работы с кодом (ранее известных как CodeQwen). Qwen2.5-Coder предлагает следующие улучшения по сравнению с CodeQwen1.5:
Значительные улучшения в генерации кода, логическом анализе кода и исправлении ошибок.
Более комплексная основа для практических приложений, таких как Код-агенты. Не только улучшение возможностей программирования, но и сохранение сильных сторон в математике и общих компетенциях.
Qwen2.5 7B Instruct
Qwen2.5 7B - это новейшая серия больших языковых моделей Qwen.
Многоязычная поддержка более 29 языков, включая китайский, английский, французский, испанский, португальский, немецкий, итальянский, русский, японский, корейский, вьетнамский, тайский, арабский и другие.
Использование этой модели регулируется ЛИЦЕНЗИОННЫМ СОГЛАШЕНИЕМ Tongyi Qianwen.
Для работы с русским рекомендуется: пониженная температура 0.5, а также 0 штрафы за присутствие и частоту.
Qwen2.5 72B Instruct
Qwen2.5 72B - это последняя серия больших языковых моделей Qwen. Qwen2.5 приносит следующие улучшения по сравнению с Qwen2:
Значительно больше знаний и значительно улучшенные возможности в кодировании и математике благодаря нашим специализированным экспертным моделям в этих областях.
Значительные улучшения в следовании инструкциям, генерации длинных текстов (более 8 тысяч токенов), понимании структурированных данных (например, таблиц) и генерации структурированных выходных данных, особенно JSON. Более устойчива к разнообразию системных подсказок, улучшая реализацию ролевых игр и настройку условий для чат-ботов.
Поддержка длинного контекста до 128 тысяч токенов и возможность генерировать до 8 тысяч токенов.
Многоязычная поддержка более 29 языков, включая китайский, английский, французский, испанский, португальский, немецкий, итальянский, русский, японский, корейский, вьетнамский, тайский, арабский и другие.
Использование этой модели регулируется ЛИЦЕНЗИОННЫМ СОГЛАШЕНИЕМ Tongyi Qianwen.
Qwen: Qwen-Max
Qwen-Max обеспечивает наилучшую производительность вывода среди моделей Qwen, особенно для сложных многоэтапных задач Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Qwen: Qwen-Plus
Qwen-Plus предоставляет сбалансированное сочетание производительности, скорости и стоимости. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Qwen: Qwen-Turbo
Qwen-Turbo обеспечивает высокую скорость и низкую стоимость, подходит для простых задач Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Модели Amazon
Серия языковых моделей от Amazon (начиная с декабря 2024).
Модели отличаются большим контекстом (до 300 000 токенов)
Модель и ID
Руб за 1000 символов входных данных
Руб за 1000 символов генерации модели
Размер конте кста
Дата обнов ления
Авто моде ра ция
Amazon: Nova Pro 1.0 ? amazon/nova-pro-v1 Профессиональный
Amazon: Nova Micro 1.0 ? amazon/nova-micro-v1 tools
0.012
0.03
128000
6 дек 24
да
Amazon: Nova Pro 1.0
Amazon Nova Pro 1.0 - это многофункциональная мультимодальная модель от Amazon, ориентированная на обеспечение сочетания точности, скорости и экономичности для широкого спектра задач. По состоянию на декабрь 2024 года она достигает передовых результатов в ключевых тестах, включая визуальные вопросы и ответы (TextVQA) и понимание видео (VATEX).
Amazon Nova Pro демонстрирует высокие способности в обработке как визуальной, так и текстовой информации, а также в анализе финансовых документов.
Amazon: Nova Lite 1.0
Amazon Nova Lite 1.0 - это очень бюджетная мультимодальная модель от Amazon. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Amazon: Nova Micro 1.0
Amazon Nova Micro 1.0 - это текстовая модель, обеспечивающая самую низкую задержку ответов среди семейства моделей Amazon Nova при очень низкой стоимости. С контекстной длиной в 128 тысяч токенов и оптимизацией для скорости и экономичности, Amazon Nova Micro отлично справляется с такими задачами, как суммаризация текста, перевод, классификация контента, интерактивный чат и мозговой штурм. Она обладает базовыми способностями к математическим вычислениям и программированию. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Российские модели Сайга и Вихрь – альтернатива YaGPT и GigaChat
Сайга – третья модель, сфокусированная на российском языке после моделей от Яндекса (YaGPT) и Сбера (GigaChat) – и сравнима с ними. Подробнее об истории возникновения – в нашей статье на Хабре: https://habr.com/ru/articles/767588/
Также здесь представлены модели от команды VikhrModels, которая также с 2024 года начала дотренировывать опенсорсные модели на русских данных. Они также рекомендуются к знакомству – по метрикам они не хуже gpt-3.5 и могут приближаться к gpt-4o-mini.
Серия моделей OMF включает в себя «холодный старт» – т.е. загрузку по мере запроса. Если на первый запрос вы не получили ответ по таймауту, просто подождите 1–2 минуты и попробуйте снова – весьма вероятно, что модель загрузится.
Модель и ID
Руб за 1000 символов входных данных
Руб за 1000 символов генерации модели
Размер конте кста
Дата обнов ления
Авто моде ра ция
T-pro-it-2.0 от T-Технологии (российский разработчик) ? OMF-R-t-tech/T-pro-it-2.0 Open Models FanЗа вызов: 0.20 р.Hugging Face
0.15
0.15
32000
19 ноя 25
нет
Saiga Gemma 3 12B (российский разработчик) ? OMF-R-IlyaGusev/saiga_gemma3_12b Open Models FanЗа вызов: 0.15 р.ролеплейHugging Face
0.10
0.10
16000
30 апр 25
нет
SAINEMO-reMIX (микс русскоязычных моделей) ? OMF-R-Moraliane/SAINEMO-reMIX Open Models FanЗа вызов: 0.15 р.ролеплейHugging Face
0.10
0.10
16000
16 дек 24
нет
Сайга MistralNemo 12B v1 (российский разработчик) ? OMF-R-IlyaGusev/saiga_nemo_12b Open Models FanЗа вызов: 0.15 р.ролеплейHugging Face
0.10
0.10
8192
3 ноя 24
нет
Vikhr-Nemo-12B-Instruct-R-21-09-24 (российский разработчик) ? OMF-R-Vikhr-Nemo-12B-Instruct-R-21-09-24 Open Models FanЗа вызов: 0.15 р.Hugging Face
0.10
0.10
16000
22 сен 24
нет
Vikhr-Llama3.1-8B-Instruct-R-21-09-24 (российский разработчик) ? OMF-R-Vikhr-Llama3.1-8B-Instruct-R-21-09-24 Open Models FanЗа вызов: 0.10 р.Hugging Face
0.10
0.10
16000
22 сен 24
нет
Saiga/Llama3 8B (российский разработчик) ? OMF-R-IlyaGusev/saiga_llama3_8b Open Models FanЗа вызов: 0.10 р.Hugging Face
0.10
0.10
8192
19 июл 24
нет
T-pro-it-2.0 от T-Технологии (российский разработчик)
Версия T-pro-it-2.0 на базе Qwen 3 32B. Автор: Т-Технологии
Saiga Gemma 3 12B (российский разработчик)
Версия Сайги на базе MistralNemo 12B. Автор: Илья Гусев
Уникальная фича модели — расцензурированность и ориентация на role-play.
Обучена на abliterated версии Gemma 3 12B.
SAINEMO-reMIX (микс русскоязычных моделей)
Модель представляет микс из Сайги, Вихрь, и ряда англоязычных моделей с целью получить хорошую модель для русскоязычного ролеплея.
Модель показала высокие результаты в ролеплей рейтинге.
Сайга MistralNemo 12B v1 (российский разработчик)
Версия Сайги на базе MistralNemo 12B. Автор: Илья Гусев
Уникальная фича модели — расцензурированность и ориентация на role-play. Обучена abliterated версии Немо, и из и SFT, и SimPO датасетов вычищены отказы.
К сожалению, ввиду особенностей инференса, не даем гарантий, что роль system упоминается в темплейте корректно. В случае проблем исключите роль system из чата.
Vikhr-Nemo - это наша флагманская унимодальная LLM (Large Language Model) представляющая из себя улучшенную версию mistralai/Mistral-Nemo-Instruct-2407 командой VikhrModels, адаптированную преимущественно для русского и английского языков. Для ее обучения мы использовали несколько этапов включающих в себя SFT и SMPO - нашу собственную вариацию DPO, подробнее читайте в секции "Как эта модель создавалась".
Модель оптимизированна для различных вариантов использования, включая ризонинг, суммаризацию, код, roleplay, поддержание диалога. Vikhr-Nemo обладает возможностью многоязычной генерации, и высокопроизводительными возможностями RAG. Модель иммет лучшие оценки среди прочих на наших инструктивных и RAG бенчарках и, поэтому, мы верим, что в некоторых задачах (например, RAG) может быть не хуже gpt-4o-mini от OpenAI.
Vikhr-Llama3.1 - это унимодальная LLM (Large Language Model) на 8B параметров представляющая из себя улучшенную версию meta-llama/Meta-Llama-3.1-8B-Instruct командой VikhrModels, адаптированную преимущественно для русского и английского языков. Для обучения использовались несколько этапов включающих в себя SFT и SMPO.
Модель оптимизирована для различных вариантов использования, включая ризонинг, суммаризацию, код, roleplay, поддержание диалога. Vikhr-Llama обладает возможностью многоязычной генерации, и высокопроизводительными возможностями RAG. Модель иммет лучшие оценки среди прочих на наших инструктивных и RAG бенчарках и, поэтому, мы верим, что во многих задачах может быть лучше чем gpt-3.5-turbo от OpenAI.
Saiga/Llama3 8B (российский разработчик)
Версия Сайги для LLama3 8B
Опенсорс модели
Различные опенсорс модели. Эти модели в первую очередь тренировались на английском языке (учтите это), но и на русском могут показывать неплохое качество. В отличие от коммерческих моделей они, как правило, не используют автомодерацию запросов по этическому признаку. Читайте описания к модели по знаку ?". Как правило, модели с большим числом параметров (70B против 7B) более точны и лучше рассуждают, но и более дороги в обработке.
В тегах указано, на чем специализируется модель. Если тег не указан – модель многоцелевая, т.е. чаще всего обычное следование инструкциям, но лучше прочитать описание.
Если на русский запрос они выдают не очень хороший результат, попробуйте обращаться к ним на английском, или попробуйте наши translate-версии (ниже). Особенно рекомендуется translate-версии для ролеплейных моделей (если вы не пишете на английском)
Модель и ID
Руб за 1000 символов входных данных
Руб за 1000 символов генерации модели
Размер конте кста
Дата обнов ления
Авто моде ра ция
MiniMax: MiniMax M2.5 Faster (до x2 скорости) ? minimax/minimax-m2.5-faster tools
Z.AI: GLM 4.6 (MoE 355B всего, 23B активных) ? z-ai/glm-4.6 Профессиональныйвозможный топ по цена/качествоtools
0.09
0.32
200000
2 окт 25
нет
MoonshotAI: Kimi K2 от 5 сентября (1T параметров), быстрая, до 400 ток/сек ? moonshotai/kimi-k2-0905-fast программирование и общие задачиtoolsstructured-outputs
0.14
0.45
256000
9 сен 25
нет
MoonshotAI: Kimi K2 от 5 сентября (1T параметров) ? moonshotai/kimi-k2-0905 программирование и общие задачиtoolsstructured-outputs
Z.AI: GLM 4.5 (MoE 355B всего, 23B активных) ? z-ai/glm-4.5 Профессиональныйвозможный топ по цена/качествоtools
0.09
0.32
128000
29 июл 25
нет
Z.AI: GLM 4.5 Air (MoE 106B всего, 12B активных) ? z-ai/glm-4.5-air tools
0.03
0.16
128000
29 июл 25
нет
Llama 4 Maverick (FAST + большой контекст в 1 миллионов токенов) ? meta-llama/llama-4-maverick-1m-ctx контекст в 1М токеновtoolsstructured-outputs
0.033
0.15
1000000
15 июл 25
нет
Llama 4 Scout (FAST + гигантский контекст в 10 миллионов токенов) ? meta-llama/llama-4-scout-10m-ctx топ контекст в 10М токеновtoolsstructured-outputs
0.024
0.10
10000000
15 июл 25
нет
MoonshotAI: Kimi K2 1T Fast (быстрая, до 200 ток/секунду) ? moonshotai/kimi-k2-fast возможный топ по цена/качествопрограммирование и общие задачиtoolsstructured-outputs
0.14
0.45
128000
15 июл 25
нет
MoonshotAI: Kimi K2 (1T параметров) ? moonshotai/kimi-k2 программирование и общие задачиtoolsstructured-outputs
Llama 3.3 70B Instruct (SuperFast, порядка 1000-2000 токенов в секунду) ? meta-llama/llama-3.3-70b-instruct-superfast Базовый и выше (не Тестовый)superfasttoolsstructured-outputs
0.14
0.18
32000
8 мая 25
нет
Llama 4 Scout (SuperFast, порядка 1000-2000 токенов в секунду!) ? meta-llama/llama-4-scout-superfast superfaststructured-outputs
0.10
0.14
32000
8 мая 25
нет
Llama 4 Maverick (быстрая, до 400 токенов в секунду) ? meta-llama/llama-4-maverick-fast Профессиональный
MiniMax-M2.5 — это передовая большая языковая модель, разработанная для реальной продуктивной работы.
Более быстрый провайдер по более высокой цене. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
MiniMax: MiniMax M2.5
MiniMax-M2.5 — это передовая большая языковая модель, разработанная для реальной продуктивной работы. Обученная в разнообразных сложных цифровых рабочих средах реального мира, M2.5 развивает экспертные навыки программирования M2.1, расширяясь в область общей офисной работы, достигая беглости в создании и работе с файлами Word, Excel и PowerPoint, переключении контекста между различными программными средами и работе в разных командах агентов и людей. Набрав 80,2% в SWE-Bench Verified, 51,3% в Multi-SWE-Bench и 76,3% в BrowseComp, M2.5 также более эффективна в использовании токенов, чем предыдущие поколения, будучи обученной оптимизировать свои действия и результаты посредством планирования. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
MoonshotAI: Kimi K2.5
Апдейт Kimi K2.
Kimi K2 — это крупномасштабная языковая модель типа Mixture-of-Experts (MoE), разработанная компанией Moonshot AI, содержащая 1 триллион параметров с 32 миллиардами активных параметров на один прямой проход. Она оптимизирована для агентных возможностей, включая продвинутое использование инструментов, рассуждения и синтез кода. Kimi K2 превосходно справляется с широким спектром тестов, особенно в области программирования (LiveCodeBench, SWE-bench), рассуждений (ZebraLogic, GPQA) и использования инструментов (Tau2, AceBench).
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Xiaomi: MiMo-V2-Flash
MiMo-V2-Flash — это опенсорс модель от Xiaomi. Это модель Mixture-of-Experts с 309 миллиардами общих параметров и 15 миллиардами активных параметров. MiMo-V2-Flash поддерживает контекстное окно размером 256K, а также превосходно справляется с задачами рассуждения, программирования и агентными сценариями. По результатам тестов SWE-bench Verified и SWE-bench Multilingual, MiMo-V2-Flash занимает первое место среди открытых моделей в мире, обеспечивая производительность, сопоставимую с Claude Sonnet 4.5, при значительное более низкой стоимости.
ОСОБЕННОСТИ БИЛЛИНГА И ВЫЗОВА:
Биллинг осуществляется по данным провайдера - сколько токенов было затрачено на вход и выход, в соответствии с этим идет тарификация. Мы не комментируем и не принимаем претензии, связанные с вычислением токенов у провайдера.
MiniMax: MiniMax M2.1
MiniMax-M2.1 — это легкая, современная большая языковая модель, оптимизированная для программирования, агентных рабочих процессов и разработки современных приложений. Всего с 10 миллиардами активированных параметров она обеспечивает значительный скачок в реальной производительности, сохраняя при этом исключительную задержку, масштабируемость и экономическую эффективность.
По сравнению с предшественником M2.1 выдает более чистые и лаконичные результаты, а также обеспечивает более быстрое воспринимаемое время отклика. Модель демонстрирует ведущую многоязычную производительность в программировании для основных систем и языков приложений, достигая 49,4% на Multi-SWE-Bench и 72,5% на SWE-Bench Multilingual, и служит универсальным агентным «мозгом» для IDE, инструментов программирования и помощи общего назначения. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Z.AI: GLM 4.7 (MoE 355B всего, 23B активных, обновлена до быстрой версии)
GLM-4.7 — это новейшая флагманская модель Z.AI с улучшениями в двух ключевых областях: расширенные возможности программирования и более стабильное многоэтапное рассуждение/выполнение. Модель демонстрирует значительные улучшения в выполнении сложных агентных задач, обеспечивая при этом более естественное общение и превосходную эстетику интерфейса. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Inception: Mercury Coder (диффузионная LLM, около 700 ток/сек)
Mercury — это первая большая языковая модель с диффузией (dLLM). Применяя прорывной подход дискретной диффузии, модель работает в 5-10 раз быстрее, чем даже оптимизированные по скорости модели, такие как GPT-4.1 Nano и Claude 3.5 Haiku, при этом соответствуя их производительности. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Inception: Mercury (диффузионная LLM, около 700 ток/сек)
Mercury — это первая большая языковая модель с диффузией (dLLM). Применяя прорывной подход дискретной диффузии, модель работает в 5-10 раз быстрее, чем даже оптимизированные по скорости модели, такие как GPT-4.1 Nano и Claude 3.5 Haiku, при этом соответствуя их производительности. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
MoonshotAI: Kimi K2 Thinking от 6 ноября (1T параметров)
Kimi K2 Thinking — это самая передовая открытая модель рассуждений компании Moonshot AI на сегодняшний день, расширяющая серию K2 в сторону агентного мышления с долгосрочным горизонтом рассуждений. Построенная на триллионпараметровой архитектуре Mixture-of-Experts (MoE), представленной в Kimi K2, она активирует 32 миллиарда параметров на каждый прямой проход и поддерживает контекстные окна размером 256 тысяч токенов.
Рекомендуется температура ниже 1 - около 0.7-0.9, чтобы избежать некорректных символов при генерации. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
MiniMax: MiniMax M2
MiniMax-M2 — это компактная высокоэффективная большая языковая модель, оптимизированная для сквозного кодирования и агентных рабочих процессов. С 10 миллиардами активированных параметров (230 миллиардов всего) она обеспечивает интеллект, близкий к передовому, в области общих рассуждений, использования инструментов и выполнения многошаговых задач, сохраняя при этом низкую задержку и эффективность развертывания. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Z.AI: GLM 4.6 (MoE 355B всего, 23B активных)
По сравнению с GLM-4.5, эта модель предлагает несколько ключевых улучшений:
- Увеличенное контекстное окно: Контекстное окно расширено со 128 тысяч до 200 тысяч токенов, что позволяет модели справляться с более сложными агентными задачами.
- Превосходная производительность в программировании: Модель достигает более высоких показателей в тестах по программированию и демонстрирует лучшую производительность в реальных приложениях
- Улучшенное рассуждение: GLM-4.6 показывает явное улучшение в производительности рассуждений и поддерживает использование инструментов во время вывода, что приводит к более сильным общим возможностям.
- Более способные агенты: GLM-4.6 демонстрирует более сильную производительность в использовании инструментов и агентах, основанных на поиске, и более эффективно интегрируется в агентные фреймворки.
- Усовершенствованное написание текстов: Лучше соответствует человеческим предпочтениям в стиле и читаемости, и более естественно ведет себя в сценариях ролевых игр.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
MoonshotAI: Kimi K2 от 5 сентября (1T параметров), быстрая, до 400 ток/сек
Kimi K2 0905 — это сентябрьское обновление Kimi K2 0711. Это крупномасштабная языковая модель Mixture-of-Experts (MoE), разработанная Moonshot AI, с общим количеством параметров в 1 триллион, из которых 32 миллиарда активны при каждом прямом проходе. Она поддерживает обработку длинного контекста до 256 тысяч токенов, что является увеличением по сравнению с предыдущими 128 тысячами.
Это обновление улучшает агентное программирование с повышенной точностью и лучшей обобщающей способностью для различных структур, а также совершенствует фронтенд-разработку, создавая более эстетичные и функциональные результаты для веб-приложений, 3D и связанных задач. Kimi K2 оптимизирована для агентных возможностей, включая продвинутое использование инструментов, рассуждение и синтез кода. Она превосходно справляется с тестами по программированию (LiveCodeBench, SWE-bench), логическому мышлению (ZebraLogic, GPQA) и использованию инструментов (Tau2, AceBench).
Рекомендуется температура ниже 1 - около 0.7-0.9, чтобы избежать некорректных символов при генерации. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
MoonshotAI: Kimi K2 от 5 сентября (1T параметров)
Kimi K2 0905 — это сентябрьское обновление Kimi K2 0711. Это крупномасштабная языковая модель Mixture-of-Experts (MoE), разработанная Moonshot AI, с общим количеством параметров в 1 триллион, из которых 32 миллиарда активны при каждом прямом проходе. Она поддерживает обработку длинного контекста до 256 тысяч токенов, что является увеличением по сравнению с предыдущими 128 тысячами.
Это обновление улучшает агентное программирование с повышенной точностью и лучшей обобщающей способностью для различных структур, а также совершенствует фронтенд-разработку, создавая более эстетичные и функциональные результаты для веб-приложений, 3D и связанных задач. Kimi K2 оптимизирована для агентных возможностей, включая продвинутое использование инструментов, рассуждение и синтез кода. Она превосходно справляется с тестами по программированию (LiveCodeBench, SWE-bench), логическому мышлению (ZebraLogic, GPQA) и использованию инструментов (Tau2, AceBench).
Рекомендуется температура ниже 1 - около 0.7-0.9, чтобы избежать некорректных символов при генерации. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Nous: Hermes 4 405B
Hermes 4 — это крупномасштабная модель для рассуждений, созданная на основе Meta-Llama-3.1-405B и выпущенная компанией Nous Research.
Для генерации русского текста рекомендуется использовать пониженную температуру около 0.7, и top_p=0.95
Nous: Hermes 4 70B
Hermes 4 70B — это гибридная модель рассуждений от Nous Research, созданная на основе Meta-Llama-3.1-70B.
Для генерации русского текста рекомендуется использовать пониженную температуру около 0.7, и top_p=0.95
Z.AI: GLM 4.5 (MoE 355B всего, 23B активных)
GLM-4.5 — это наша новейшая флагманская базовая модель, специально разработанная для агентных приложений. Она использует архитектуру смеси экспертов (MoE) и поддерживает длину контекста до 128 тысяч токенов. GLM-4.5 обеспечивает значительно улучшенные возможности в области рассуждений, генерации кода и согласования с агентами. Она поддерживает гибридный режим вывода с двумя опциями: «режим мышления», предназначенный для сложных рассуждений и использования инструментов, и «режим без мышления», оптимизированный для мгновенных ответов.
Для включения режима "без размышлений" добавьте в промт фразу /nothink Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Z.AI: GLM 4.5 Air (MoE 106B всего, 12B активных)
GLM-4.5-Air — это облегченная версия нашего новейшего флагманского семейства моделей, специально созданная для приложений, ориентированных на агентов. Как и GLM-4.5, она использует архитектуру смеси экспертов (MoE), но с более компактным размером параметров. GLM-4.5-Air также поддерживает гибридные режимы вывода, предлагая «режим размышления» для продвинутого рассуждения и использования инструментов, а также «режим без размышления» для взаимодействия в реальном времени.
Для включения режима "без размышлений" добавьте в промт фразу /nothink Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Llama 4 Maverick (FAST + большой контекст в 1 миллионов токенов)
Llama 4 Maverick 17B Instruct (128E) — это мультимодальная языковая модель высокой ёмкости от Meta, построенная на архитектуре смеси экспертов (MoE) со 128 экспертами и 17 миллиардами активных параметров за один прямой проход (400 миллиардов всего).
Модель последний раз обучалась на данных до августа 2024 года и была публично запущена 5 апреля 2025 года.
Этот вариант запускается на топовом провайдере, позволяющем обработать до 1М токенов контекста - т.е. около 1 книги.
Замечание: обрабатываемый размер контекста взят по данным провайдера. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Llama 4 Scout (FAST + гигантский контекст в 10 миллионов токенов)
Llama 4 Scout 17B Instruct (16E) - это языковая модель на основе смеси экспертов (MoE), разработанная компанией Meta, активирующая 17 миллиардов параметров из общего числа 109 миллиардов.
Модель последний раз обучалась на данных до августа 2024 года и была публично запущена 5 апреля 2025 года.
Этот вариант запускается на топовом провайдере, позволяющем обработать до 10М токенов контекста - т.е. несколько книг. Обработка осуществляется достаточно быстро (около нескольких секунд на 3М контекста)
Замечание: обрабатываемый размер контекста взят по данным провайдера. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
MoonshotAI: Kimi K2 1T Fast (быстрая, до 200 ток/секунду)
Kimi K2 — это крупномасштабная языковая модель типа Mixture-of-Experts (MoE), разработанная компанией Moonshot AI, содержащая 1 триллион параметров с 32 миллиардами активных параметров на один прямой проход. Она оптимизирована для агентных возможностей, включая продвинутое использование инструментов, рассуждения и синтез кода. Kimi K2 превосходно справляется с широким спектром тестов, особенно в области программирования (LiveCodeBench, SWE-bench), рассуждений (ZebraLogic, GPQA) и использования инструментов (Tau2, AceBench).
Рекомендуется температура ниже 1 - около 0.7-0.9, чтобы избежать некорректных символов при генерации. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
MoonshotAI: Kimi K2 (1T параметров)
Kimi K2 — это крупномасштабная языковая модель типа Mixture-of-Experts (MoE), разработанная компанией Moonshot AI, содержащая 1 триллион параметров с 32 миллиардами активных параметров на один прямой проход. Она оптимизирована для агентных возможностей, включая продвинутое использование инструментов, рассуждения и синтез кода. Kimi K2 превосходно справляется с широким спектром тестов, особенно в области программирования (LiveCodeBench, SWE-bench), рассуждений (ZebraLogic, GPQA) и использования инструментов (Tau2, AceBench).
Рекомендуется температура ниже 1 - около 0.7-0.9, чтобы избежать некорректных символов при генерации. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
MiniMax: MiniMax M1 (Thinking)
MiniMax-M1 — это крупномасштабная модель рассуждений с открытыми весами, разработанная для расширенного контекста и высокоэффективного вывода. Она использует гибридную архитектуру Mixture-of-Experts (MoE) в сочетании с пользовательским механизмом "молниеносного внимания", что позволяет ей обрабатывать длинные последовательности — до 1 миллиона токенов — при сохранении конкурентоспособной эффективности FLOP. С 456 миллиардами общих параметров и 45,9 миллиардами активных параметров на токен, этот вариант оптимизирован для сложных многоэтапных задач рассуждения.
Обученная с помощью специального конвейера обучения с подкреплением (CISPO), M1 превосходно справляется с пониманием длинного контекста, программной инженерией, агентным использованием инструментов и математическими рассуждениями. Тесты показывают высокую производительность в FullStackBench, SWE-bench, MATH, GPQA и TAU-Bench, часто превосходя другие открытые модели, такие как DeepSeek R1 и Qwen3-235B.
Llama 3.3 70B Instruct (SuperFast, порядка 1000-2000 токенов в секунду)
Meta Llama 3.3 - это многоязычная языковая модель большого масштаба (LLM), предварительно обученная и настроенная на выполнение инструкций, размером 70B (текст на входе/текст на выходе). Текстовая модель Llama 3.3, настроенная на выполнение инструкций, оптимизирована для многоязычных диалоговых сценариев использования и превосходит многие доступные модели с открытым и закрытым исходным кодом по общепринятым отраслевым показателям.
По бенчмаркам сопоставима с Llama 3.1 405B
Используется экстрабыстрый провайдер - до 32К контекста. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Llama 4 Scout (SuperFast, порядка 1000-2000 токенов в секунду!)
Llama 4 Scout 17B Instruct (16E) - это языковая модель на основе смеси экспертов (MoE), разработанная компанией Meta, активирующая 17 миллиардов параметров из общего числа 109 миллиардов.
Модель последний раз обучалась на данных до августа 2024 года и была публично запущена 5 апреля 2025 года.
Для запуска используется экстрабыстрый провайдер, но контекст ограничен 32К.
Поддержка tools не декларировалась официально, но присутствует. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Llama 4 Maverick (быстрая, до 400 токенов в секунду)
Llama 4 Maverick 17B Instruct (128E) — это мультимодальная языковая модель высокой ёмкости от Meta, построенная на архитектуре смеси экспертов (MoE) со 128 экспертами и 17 миллиардами активных параметров за один прямой проход (400 миллиардов всего).
Модель последний раз обучалась на данных до августа 2024 года и была публично запущена 5 апреля 2025 года.
Поддержка tools не декларировалась официально, но присутствует.
Быстрые провайдеры: отвечают быстро, но могут быть нестабильны.
Llama 4 Maverick Online HQ
Версия Llama 4 Maverick с расширенным поиском по интернету - при ответе берется 20 источников.
Рекомендуется задавать запрос максимально просто, одним предложением, например: Сравни Nvidia 5070 и 4090.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Llama 4 Maverick
Llama 4 Maverick 17B Instruct (128E) — это мультимодальная языковая модель высокой ёмкости от Meta, построенная на архитектуре смеси экспертов (MoE) со 128 экспертами и 17 миллиардами активных параметров за один прямой проход (400 миллиардов всего).
Модель последний раз обучалась на данных до августа 2024 года и была публично запущена 5 апреля 2025 года.
Поддержка tools не декларировалась официально, но присутствует. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию. Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Llama 4 Scout (быстрая)
Llama 4 Scout 17B Instruct (16E) - это языковая модель на основе смеси экспертов (MoE), разработанная компанией Meta, активирующая 17 миллиардов параметров из общего числа 109 миллиардов.
Модель последний раз обучалась на данных до августа 2024 года и была публично запущена 5 апреля 2025 года.
Для запуска используется сет провайдеров:
- Быстрый инференс (до 400 токенов в секунду) предоставляется, если вход не превышает 128К токенов, а требуемый выход - 8К токенов
- В противном случае используются дополнительные провайдеры, которые могут обрабатывать вход и выход вплоть до 328К токенов
Поддержка tools не декларировалась официально, но присутствует. Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
Llama 3.3 70B Instruct (быстрая, более 200 токенов в секунду)
Meta Llama 3.3 - это многоязычная языковая модель большого масштаба (LLM), предварительно обученная и настроенная на выполнение инструкций, размером 70B (текст на входе/текст на выходе). Текстовая модель Llama 3.3, настроенная на выполнение инструкций, оптимизирована для многоязычных диалоговых сценариев использования и превосходит многие доступные модели с открытым и закрытым исходным кодом по общепринятым отраслевым показателям.
По бенчмаркам сопоставима с Llama 3.1 405B
Модель использует квантизацию bf16
MiniMax: MiniMax-01
В серии MiniMax-01 мы совершили смелую инновацию: впервые в крупном масштабе мы внедрили новый механизм Lightning Attention, предлагая альтернативу традиционной архитектуре Transformer. Эта модель насчитывает впечатляющие 456 миллиардов параметров, из которых 45,9 миллиардов параметров активируются при каждом выводе. Её общая производительность находится на уровне ведущих мировых моделей, при этом она эффективно обрабатывает самую длинную в мире контекстную длину до 4 миллионов токенов (в рамках сервиса доступен контекст до 1 млн токенов)
Sao10K: Llama 3.3 Euryale 70B
Euryale L3.3 70B - это модель от Sao10k, ориентированная на креативную ролевую игру. Она является преемником Euryale L3 70B v2.2.
Llama 3.3 70B Instruct (с поддержкой structured outputs)
Версия Llama 3.3 70B с поддержкой structured outputs Поддерживает вызов structure outputs в стандартном OpenAI формате, см. Документацию.
Llama 3.3 70B Instruct
Meta Llama 3.3 - это многоязычная языковая модель большого масштаба (LLM), предварительно обученная и настроенная на выполнение инструкций, размером 70B (текст на входе/текст на выходе). Текстовая модель Llama 3.3, настроенная на выполнение инструкций, оптимизирована для многоязычных диалоговых сценариев использования и превосходит многие доступные модели с открытым и закрытым исходным кодом по общепринятым отраслевым показателям.
По бенчмаркам сопоставима с Llama 3.1 405B
Модель использует квантизацию bf16
NVIDIA: Llama 3.1 Nemotron 70B Instruct
Новая модель Nemotron от NVidia.
К сожалению, русский у этой модели не очень хорош.
Rocinante 12B
Rocinante 12B разработан для увлекательного повествования и богатой прозы.
Ранние тестировщики сообщали о:
Расширенном словарном запасе с уникальным и выразительным выбором слов
Улучшенной креативности для создания ярких повествований
Наполненных приключениями и захватывающих историях
Llama 3.2 90B Instruct
Новая модель LLama 3.2 90B
Llama 3.2 3B Instruct
Llama 3.2 3B - это многоязычная модель большого языка с 3 миллиардами параметров, оптимизированная для продвинутых задач обработки естественного языка, таких как генерация диалогов, рассуждения и обобщение. Разработанная с использованием новейшей архитектуры трансформеров, она поддерживает восемь языков, включая английский, испанский и хинди, и адаптируема для дополнительных языков.
Обученная на 9 триллионах токенов, модель Llama 3.2B отлично справляется с выполнением инструкций, сложными рассуждениями и использованием инструментов. Её сбалансированная производительность делает её идеальной для приложений, требующих точности и эффективности в генерации текста в многоязычных средах.
Llama 3.1 Euryale 70B v2.2
Euryale L3.1 70B v2.2 - это модель, ориентированная на креативную ролевую игру, созданная Sao10k. Она является преемником Euryale L3 70B v2.1, но уже на базе модели Llama 3.1, которая значительно лучше работает с русским языком.
Hermes 3 405B Instruct
Гермес 3 - это универсальная языковая модель со многими улучшениями по сравнению с Гермесом 2, включая продвинутые агентные возможности, гораздо лучшее ролевое взаимодействие, рассуждение, многоходовую беседу, согласованность длинного контекста и улучшения по всем направлениям.
Гермес 3 405B - это полнопараметрическая доводка базовой модели Llama-3.1 405B уровня передовых технологий, ориентированная на согласование языковых моделей с пользователем, с мощными возможностями управления и контроля, предоставляемыми конечному пользователю.
Llama 3.1 405B Instruct
Давно ожидаемая модель Llama3 405B.
По результатам бенчмарков сравнима с GPT-4o и Sonnet.
Поддерживает вызов tools в стандартном OpenAI формате, см. Документацию.
NVIDIA Nemotron 4 340B Instruct
Nemotron-4-340B-Instruct - это англоязычная модель чата, оптимизированная для генерации синтетических данных. Эта крупная языковая модель (LLM) является доработанной версией Nemotron-4-340B-Base, разработанной для одно- и многоходовых сценариев чата с контекстной длиной 4096 токенов.
Базовая модель была предварительно обучена на 9 триллионах токенов из разнообразных английских текстов, более 50 естественных языков и более 40 языков программирования. Инструктивная модель прошла дополнительные этапы настройки:
В процессе выравнивания использовалось примерно 20 тыс. образцов, аннотированных человеком, в то время как 98% данных для дообучения были синтетически сгенерированы.
Модель умеет работать с русским языком
Euryale-v2.1-70B
Модель, ориентированная на креативную ролевую игру от Sao10k.
- Лучшее соблюдение подсказок.
- Лучшая анатомия / пространственное восприятие.
- Гораздо лучше адаптируется к уникальным и нестандартным форматам / форматам ответов.
- Очень креативная, много уникальных идей.
- Без фильтров
Базируется на Llama3 70B
Phi-3 Mini Instruct 3.8B
Phi-3 Mini — это мощная модель размером 3.8B, предназначенная для углубленного понимания языка, рассуждения и выполнения инструкций. Оптимизированная за счет контролируемой тонкой настройки и настройки предпочтений, она превосходно справляется с задачами, связанными со здравым смыслом, математикой, логическим рассуждением и обработкой кода.
На момент выпуска Phi-3 Medium продемонстрировала самые современные характеристики среди легких моделей. Эта модель обучена на автономном наборе данных с конечной датой октября 2023 года.
Phi-3 Medium Instruct 14B
Phi-3 Medium — это мощная модель с 14 миллиардами параметров, предназначенная для углубленного понимания языка, рассуждения и выполнения инструкций. Оптимизированная за счет контролируемой тонкой настройки и настройки предпочтений, она превосходно справляется с задачами, связанными со здравым смыслом, математикой, логическим рассуждением и обработкой кода.
На момент выпуска Phi-3 Medium продемонстрировала самые современные характеристики среди легких моделей. В тесте MMLU-Pro модель даже приблизилась к уровню производительности Llama3 70B.
LLaMA v3 70B Instruct
Топовая опенсорс модель LLaMA v3 70B - по метрикам сравнимая с Claude 3 Sonnet.
LLaMA v3 8B Instruct
Последняя базовая опенсорс модель Llama v3 размером 8B.
По тестам превосходит предыдущего гиганта Llama2 70B.
WizardLM-2 8x22B
WizardLM-2 8x22B — самая совершенная модель Wizard от Microsoft AI. Она демонстрирует высокую конкурентоспособность по сравнению с ведущими проприетарными моделями и неизменно превосходит все существующие современные модели с открытым исходным кодом.
Gryphe: MythoMax L2 13B
Из серии Mytho моделей, сделана поверх Llama2 13b
Очень популярна на Западе для самых разных запросов, включая ролеплей.
Очень низкая цена - 13B модель по цене 7B.
Translate-версии опенсорс моделей
Translate-версии опенсорс моделей. Одна из фишек нашего сервиса. Вы можете отправить запрос на русском, он будет автоматически переведен на английский и отправлен нейросети. Результат обработки (на английском) будет автоматически переведён на русский. Крайне полезна с учетом того, что опенсорс нейросети как правило в основном тренировались на английском языке и выдают на нем значительно лучшие результаты.
Mistral 7B Instruct v0.1 with Ru-En translation (beta)
Mistral 7B Instruct v0.1 с дополнительной функциональностью.
Весь вход переводится на английский язык.
Весь выход переводится на русский язык.
Это позволяет взаимодействовать с моделью "как бы на английском языке", который модель понимает лучше.
ВАЖНО: При работе с этой моделью ваши данные будут отсылаться в Google Translate или другому провайдеру перевода. Имейте это ввиду.
Самые свежие опенсорс модели Open Models Fan (OMF) (бета-тест)
Самые свежие опенсорс модели серии Open Models Fan (могут быть недоступны на Тестовом тарифе).
Особенности:
– Модели доступны для экспериментирования, а не для реальной автоматизации (но они также доступны через API). Поэтому, пожалуйста, используйте их вручную или на малом объеме автоматических запросов (до 500). Если вам нужно интенсивно работать с ними, рекомендуем развернуть их на собственном сервере. Если мы увидим большое число автоматических запросов от вас к этим моделям, мы оставляем за собой право временно заблокировать ваш аккаунт
– Следствие – мы берем плату за вызов и небольшую плату за входные и выходные символы. Таким образом, эти модели более выгодно использовать для долгого ролеплея с большим контекстом (если они это поддерживают)
– Скорость вывода – 10–40 токенов в секунду, в зависимости от размера модели.
– Модели 70B и выше поставляются в квантизации FP8 – создавая баланс между загрузкой серверов и качеством. В целом, падение качества по сравнению с FP16 и FP32 (оригинал) довольно небольшое.
– Размер контекста не гарантирован (в процессе выяснения у провайдера)
– Обычно опенсорсные файнтюны моделей в первую очередь предназначены для ролеплея и написания историй (часто – на английском, если не указано обратное). Для общих кейсов мы рекомендуем обычные модели.
– Серия моделей OMF включает в себя «холодный старт» – т.е. загрузку по мере запроса. Если на первый запрос вы не получили ответ по таймауту, просто подождите 1–2 минуты и попробуйте снова – весьма вероятно, что модель загрузится.
SAINEMO-reMIX (микс русскоязычных моделей) ? OMF-R-Moraliane/SAINEMO-reMIX Open Models FanЗа вызов: 0.15 р.ролеплейHugging Face
0.10
0.10
16000
16 дек 24
нет
EVA Qwen2.5-72B v0.1 ? OMF-EVA-Qwen2.5-72B-v0.1 Open Models FanЗа вызов: 0.50 р.ролеплей
0.25
0.25
8192
8 ноя 24
нет
Сайга MistralNemo 12B v1 (российский разработчик) ? OMF-R-IlyaGusev/saiga_nemo_12b Open Models FanЗа вызов: 0.15 р.ролеплейHugging Face
0.10
0.10
8192
3 ноя 24
нет
EVA Qwen2.5-72B v0.0 ? OMF-EVA-Qwen2.5-72B-v0.0 Open Models FanЗа вызов: 0.50 р.ролеплей
0.25
0.25
8192
3 ноя 24
нет
Qwen2.5-72B-Instruct-abliterated ? OMF-Qwen2.5-72B-Instruct-abliterated Open Models FanЗа вызов: 0.50 р.ролеплей и общие вопросыHugging Face
0.25
0.25
16000
16 окт 24
нет
Vikhr-Nemo-12B-Instruct-R-21-09-24 (российский разработчик) ? OMF-R-Vikhr-Nemo-12B-Instruct-R-21-09-24 Open Models FanЗа вызов: 0.15 р.Hugging Face
0.10
0.10
16000
22 сен 24
нет
Vikhr-Llama3.1-8B-Instruct-R-21-09-24 (российский разработчик) ? OMF-R-Vikhr-Llama3.1-8B-Instruct-R-21-09-24 Open Models FanЗа вызов: 0.10 р.Hugging Face
0.10
0.10
16000
22 сен 24
нет
Smaug Qwen2 72B Instruct ? OMF-abacusai/Smaug-Qwen2-72B-Instruct Open Models FanЗа вызов: 0.50 р.ролеплей и общие вопросыHugging Face
0.25
0.25
16000
22 июл 24
нет
Tess v2.5.2 Qwen2 72B ? OMF-Tess-v2.5.2-Qwen2-72B Open Models FanЗа вызов: 0.50 р.Hugging Face
0.25
0.25
16000
19 июл 24
нет
MG-FinalMix-72B (Magnum-72B based) ? OMF-Undi95/MG-FinalMix-72B Open Models FanЗа вызов: 0.50 р.ролеплейHugging Face
0.25
0.25
16000
19 июл 24
нет
Saiga/Llama3 8B (российский разработчик) ? OMF-R-IlyaGusev/saiga_llama3_8b Open Models FanЗа вызов: 0.10 р.Hugging Face
0.10
0.10
8192
19 июл 24
нет
Gemma 3 27B (abliterated alt)
Версия Gemma 3 27B без этических фильтров, альтернативная.
T-pro-it-2.0 от T-Технологии (российский разработчик)
Версия T-pro-it-2.0 на базе Qwen 3 32B. Автор: Т-Технологии
Saiga Gemma 3 12B (российский разработчик)
Версия Сайги на базе MistralNemo 12B. Автор: Илья Гусев
Уникальная фича модели — расцензурированность и ориентация на role-play.
Обучена на abliterated версии Gemma 3 12B.
Gemma 3 27B (abliterated)
Модель Gemma 3 27B, дотюненая на выключение этических фильтров.
Pantheon RP 1.8 24b
Модель Mistral 3.1 24B, дотюненая на ролеплей.
Forgotten Abomination 24B V2.2
Модель Mistral 3 24B, дотюненая на ролеплей.
Hamanasu QwQ 32B V2 RP
Размышляющая модель QwQ-32B, дотюненая на ролеплей.
QwQ 32B (abliterated)
Размышляющая модель QwQ-32B, дотюненая на выключение этических фильтров
SAINEMO-reMIX (микс русскоязычных моделей)
Модель представляет микс из Сайги, Вихрь, и ряда англоязычных моделей с целью получить хорошую модель для русскоязычного ролеплея.
Модель показала высокие результаты в ролеплей рейтинге.
EVA Qwen2.5-72B v0.1
Обновленная специализированная модель для ролевых игр и написания историй, файнтюн Qwen2.5-72B на смеси синтетических и естественных данных.
Использует набор данных Celeste 70B 0.1, значительно расширенный для улучшения универсальности, креативности и "характера" результирующей модели.
Примечания к версии 0.1: Обработанный заново набор данных (через Cahvay для 32B 0.2, использован также здесь), скорректированная конфигурация обучения для 8xH100 SXM. Значительные улучшения в следовании инструкциям, понимании длинного контекста и общей согласованности по сравнению с v0.0.
Сайга MistralNemo 12B v1 (российский разработчик)
Версия Сайги на базе MistralNemo 12B. Автор: Илья Гусев
Уникальная фича модели — расцензурированность и ориентация на role-play. Обучена abliterated версии Немо, и из и SFT, и SimPO датасетов вычищены отказы.
К сожалению, ввиду особенностей инференса, не даем гарантий, что роль system упоминается в темплейте корректно. В случае проблем исключите роль system из чата.
EVA Qwen2.5-72B v0.0
Специализированная модель для ролевых игр и написания историй, файнтюн Qwen2.5-72B на смеси синтетических и естественных данных.
Использует набор данных Celeste 70B 0.1, значительно расширенный для улучшения универсальности, креативности и "характера" результирующей модели.
Qwen2.5-72B-Instruct-abliterated
Файнтюн версии Qwen2.5-72B, который значительно реже отказывается отвечать.
Vikhr-Nemo - это наша флагманская унимодальная LLM (Large Language Model) представляющая из себя улучшенную версию mistralai/Mistral-Nemo-Instruct-2407 командой VikhrModels, адаптированную преимущественно для русского и английского языков. Для ее обучения мы использовали несколько этапов включающих в себя SFT и SMPO - нашу собственную вариацию DPO, подробнее читайте в секции "Как эта модель создавалась".
Модель оптимизированна для различных вариантов использования, включая ризонинг, суммаризацию, код, roleplay, поддержание диалога. Vikhr-Nemo обладает возможностью многоязычной генерации, и высокопроизводительными возможностями RAG. Модель иммет лучшие оценки среди прочих на наших инструктивных и RAG бенчарках и, поэтому, мы верим, что в некоторых задачах (например, RAG) может быть не хуже gpt-4o-mini от OpenAI.
Vikhr-Llama3.1 - это унимодальная LLM (Large Language Model) на 8B параметров представляющая из себя улучшенную версию meta-llama/Meta-Llama-3.1-8B-Instruct командой VikhrModels, адаптированную преимущественно для русского и английского языков. Для обучения использовались несколько этапов включающих в себя SFT и SMPO.
Модель оптимизирована для различных вариантов использования, включая ризонинг, суммаризацию, код, roleplay, поддержание диалога. Vikhr-Llama обладает возможностью многоязычной генерации, и высокопроизводительными возможностями RAG. Модель иммет лучшие оценки среди прочих на наших инструктивных и RAG бенчарках и, поэтому, мы верим, что во многих задачах может быть лучше чем gpt-3.5-turbo от OpenAI.
Smaug Qwen2 72B Instruct
Довольно сильный файюнтюн Smaug теперь и на базе Qwen 72B, с расширенным контекстом 16 000 токенов.
Tess v2.5.2 Qwen2 72B
Мы создали Tess-v2.5.2, новейшую передовую модель в серии больших языковых моделей (LLM) Tess. Tess, сокращение от Tesoro (Сокровище на итальянском), - это флагманская серия LLM, созданная Мигелем Тиссерой. Tess-v2.5.2 приносит значительные улучшения в способностях рассуждения, кодирования и математики. В настоящее время это модель №1 с открытым весом при оценке по MMLU (Massive Multitask Language Understanding). Она набирает больше баллов, чем все другие модели с открытым весом, включая Qwen2-72B-Instruct, Llama3-70B-Instruct, Mixtral-8x22B-Instruct и DBRX-Instruct. Более того, при оценке по MMLU, модель Tess-v2.5.2 (Qwen2-72B) превосходит даже передовые закрытые модели Gemini-1.0-Ultra, Gemini-1.5-Pro, Mistral-Large и Claude-3-Sonnet.
MG-FinalMix-72B (Magnum-72B based)
Доработка Magnum-72B от Undi95
Saiga/Llama3 8B (российский разработчик)
Версия Сайги для LLama3 8B
Примечания
Автомодерация – означает, что, в соответствии с требованиями поставщика модели автоматически проверяется вход на несоответствие этическим нормам (Terms Of Service конкретной модели). В случае, если запрос не проходит модерацию, возвращается ошибка и деньги не списываются.