IT-новости

OpenAI использовала миллионы часов YouTube для совершенствования ИИ

OpenAI превзошла себя, расшифровав более миллиона часов видеоматериалов с YouTube для обучения своей последней разработки - GPT-4. Как сообщает New York Times, это достижение стало возможным благодаря инновационному инструменту распознавания речи под названием Whisper.

По данным Wall Street Journal, OpenAI уже заявила о своих планах использовать транскрипции видеороликов с YouTube для обучения будущей GPT-5. Согласно источникам газеты, разработчики ранее воспользовались расшифровками контента с видеохостинга Google в процессе создания GPT-4, выпущенной в марте прошлого года.

В 2021 году компания столкнулась с проблемой нехватки данных из авторитетных источников на английском языке в интернете. В ответ OpenAI разработала Whisper, который базируется на архитектуре нейронной сети Transformer.

Некоторые сотрудники компании опасались, что использование данных с YouTube может нарушить политику этого сервиса, учитывая, что Google запрещает использование видеороликов вне его платформы. Несмотря на это, команда OpenAI все же расшифровала более миллиона часов видео с YouTube. В процессе исследования активно участвовал соучредитель и технический директор OpenAI Грег Брокман, который лично отбирал видеоматериалы, утверждают источники NYT. Также он признан одним из создателей Whisper.

Исследование, проведенное изданием, указывает на то, что технологические гиганты, такие как OpenAI, Google и Meta, в определенных случаях игнорировали корпоративные политики и пытались обойти закон в целях получения большего объема данных.

Согласно собеседникам NYT, Google также создавала транскрипции видеороликов с YouTube для собственных моделей искусственного интеллекта. Действия компании могли потенциально нарушить авторские права создателей использованного контента. Тем не менее, в прошлом году Google расширила свои правила обслуживания, позволив использовать общедоступные данные из своих собственных сервисов, таких как "Документы" и "Карты".

В конце прошлого года New York Times подала в суд на OpenAI и Microsoft, обвинив их в незаконном использовании информации из публикаций. В ответ OpenAI заявила, что газета использовала взломанный ChatGPT для подачи иска.

Исследовательский институт Epoch предупреждает, что высококачественные данные, необходимые для обучения моделей искусственного интеллекта, могут исчерпаться к 2026 году. Компании используют данные быстрее, чем они производятся.

В OpenAI также рассматривают возможность покупки стартапов, которые собирают большие объемы данных, утверждает NYT.

Некоторые сотрудники Google были осведомлены о том, что OpenAI использовала расшифровки видеороликов с YouTube. Тем не менее, Google не предъявила обвинений OpenAI, поскольку сама использовала контент, защищенный авторским правом. Представитель Google Мэтт Брайант заявил, что компания не знала о методах, применяемых OpenAI.

RU/KZ