Новости
Первая в России мультимодальная модель искусственного интеллекта – в открытом доступе
11 апреля 2024
Институт искусственного интеллекта AIRI представил открытую версию модели OmniFusion – OmniFusion 1.1. Первая в России мультимодальная языковая модель, способная поддерживать визуальный диалог и отвечать на вопросы пользователей по картинкам, теперь поддерживает русский язык. Open-source-код для обучения и веса доступны к использованию и могут быть применены в том числе при разработке коммерческих продуктов.
OmniFusion — это передовая мультимодальная модель искусственного интеллекта, предназначенная для расширения возможностей традиционных систем обработки языка за счет интеграции дополнительных модальностей данных, например, изображений, а в перспективе – аудио, 3D- и видеоконтента.
Всего качество модели в разных вариантах её архитектуры оценили при помощи 8 известных бенчмарков — специализированных тестов для анализа работоспособности AI-моделей в ответах на визуальные вопросы. В науке этот тип задач называется VQA, или Visual Question Answering. Эксперименты по оценке качества показали: OmniFusion достигает высоких результатов в большинстве бенчмарков, не уступая зарубежным моделям, которые в том числе построены на более крупных языковых моделях (например, LLaVA-13B). Следует отметить, что для таких известных бенчмарков как MMMU, GQA и TextVQA, модель OmniFusion показывает лучшие результаты в сравнении с LLaVA-7B и LLaVA-13B. Обучением OmniFusion занимается научная группа FusionBrain Института AIRI при участии учёных из Sber AI и SberDevices.
Открытый исходный код и веса модели можно найти по ссылке https://github.com/AIRI-Institute/OmniFusion
«Публикуя открытый исходный код OmniFusion, включая веса модели и скрипты для обучения, мы стремимся внести вклад в сообщество исследователей искусственного интеллекта и поспособствовать дальнейшему развитию мультимодальных архитектур, созданию новых приложений на их основе. Кроме того, мы уже начали эксперименты, которые помогут обучить ее понимать видео и 3D-контент. Наш коллектив также активно сотрудничает с коллегами-учеными из области медицины. Надеемся, что в будущем эти изыскания приведут к созданию принципиально новых инструментов для помощи врачам», — сообщил Иван Оселедец, доктор физико-математических наук, профессор РАН, генеральный директор Института AIRI.