Большая языковая модель A-Vibe опередила в независимом российском бенчмарке MERA аналоги от американских ИТ-гигантов.
Разработанную ООО "Авито Тех" A-Vibe сравнили с аналогичными моделями (от 5 до 10 млрд параметров): она понимает запросы, генерирует код и поддерживает осмысленный диалог. Технология уже работает в сервисах "Авито": помогает составлять продающие описания и быстрее договариваться о сделке в мессенджере.
– Первое место доказывает, что оптимизированная архитектура и качественные данные могут обеспечить отличные результаты даже при небольшом размере модели. A-Vibe создавалось оптимальной по соотношению между качеством, скоростью работы и затратой ресурсов. Такой баланс позволяет обеспечивать быструю обработку запросов даже в периоды пиковой нагрузки и масштабировать технологию на всю аудиторию платформы. Именно обучение небольшой модели под наши нужды позволяет нам закладывать окупаемость инвестиций: Авито планирует вложить в GenAI около 12 млрд рублей, а заработать более 21 млрд рублей к 2028 году, – пояснил старший директор по данным и аналитике Авито Андрей Рыбинцев.
Стоит отметить, что в рейтинге легких моделей от MERA первое место технически занимает HUMAN BENCHMARK – это реальные результаты людей, а не ИИ. Языковые модели приближаются к этим значениям, но окончательно превзойти человека еще не смогли. Ближе всего к нему расположилась A-Vibe. Эта модель обошла GPT-4o mini, Gemma 3 27B, Claude 3.5 Haiku, Mistral Large и другие популярные небольшие нейросети. Тестирование включало задачи различной сложности – от базового понимания текста до продвинутых лингвистических задач, требующих глубокой работы с контекстом.
Тесты MERA показали, что A-Vibe генерирует код на 25% лучше Gemini 1.5 с 8 миллиардами параметров, ведет диалог на 32% точнее Llama 3.1 с 405 миллиардами параметров, анализирует смысл текста на 23% точнее Claude 3.5 Haiku.
На начальном этапе генеративная модель A-Vibe обучалась более чем на 100 языках. Затем разработчики провели "русификацию", заменив стандартный токенизатор на собственный, поддерживающий русский язык. В результате модель стала обрабатывать русскую речь до двух раз быстрее, при этом возросло понимание текста. На данном этапе модель может одновременно обрабатывать до 32 тысяч текстовых фрагментов (токенов).
В будущем разработчики планируют выпустить модель в открытый доступ, что поможет малому бизнесу и образовательным учреждениям внедрять передовые технологии без значительных инвестиций.