Компания xAI, под руководством Илона Маска, представила новую версию своей нейросети Grok, названную Grok-1.5 Vision, которая отличается от предыдущих версий тем, что способна обрабатывать не только текстовую, но и визуальную информацию, такую как фотографии, скриншоты, и даже диаграммы.
Согласно представителям компании xAI, Grok-1.5V имеет возможность превращать изображения блок-схем в код Python или скриншоты таблиц в файлы формата CSV. Она также способна создавать сказки по мотивам детских рисунков или объяснять мемы.
Компания xAI утверждает, что их новая мультимодальная модель выделяется среди аналогов, таких как GPT-4V, Claude 3Sonnet, Claude 3 Opus и Gemini Pro 1.5, и превосходит их во многих популярных бенчмарках, благодаря использованию технологии RealWorldQA. Нейросеть была обучена на более чем 700 изображениях, каждое сопровождаемое вопросами и ответами.
В конце марта компания xAI выпустила Grok-1.5, способную обрабатывать до 128 000 токенов, что позволяет чат-боту выполнять более сложные запросы и лучше анализировать входящие данные.
Илон Маск объявил в апреле, что для обучения чат-бота Grok 2 было задействовано около 20 тысяч графических процессоров Nvidia H100 AI, а следующее поколение, Grok 3, потребует уже 100 тысяч GPU.