С какой скоростью будет работать LLM?

Локальные модели
помещаются на GPU / VRAM

Локальные модели
на CPU / RAM

Удаленные модели по API
тестировалось через VseGPT

Другие варианты

Скорость генерации (токенов в секунду):

10.0

В данном приложении приблизительные оценки, реальные скорости могут отличаться, но чаще всего не более чем в 2 раза.