Искусственный интеллект почти всему научился: нехватка данных сыграет злую шутку, — ученые
Филипп Бойко
20 ноября 2023 в 17:14
4418
искусственный интеллект, нейросети
Фото: Getty Images | Уже в 2026 году ИИ уже будет нечему обучать — качественный данные закончатся
Эксперты задаются вопросом, как модели ИИ будут развиваться в будущем, когда уже неоткуда будет брать новые тексты или изображения. Несколько вариантов они уже придумали.
Искусственному интеллекту будет нечему обучаться из-за нехватки данных если к 2026 году человечество сохранит ритм и методику тренировок больших языковых моделей (LLM), что замедлит или даже изменит развитие ИИ, считают ученые. Об этом пишет портал The Conversation.
ВАЖНО
Уволен! Создатель ChatGPT больше не возглавляет OpenAI: что теперь будет с популярным чат-ботом
Уволен! Создатель ChatGPT больше не возглавляет OpenAI: что теперь будет с популярным чат-ботом
В своей опубликованной работе они указывают, что, например, ChatGPT обучался на 570 гигабайтах текстовых данных, или около 300 миллиардов слов. Аналогичным образом, алгоритм стабильной диффузии (который лежит в основе многих приложений для создания изображений искусственного интеллекта, таких как DALL-E, Lensa и Midjourney) был обучен на наборе данных LIAON-5B, состоящем из 5,8 миллиарда пар “изображение-текст”. Если алгоритм обучен на недостаточном объеме данных, то он будет выдавать неточные или некачественные результаты.
Специалисты так же особо отмечают, что для развития LLM критическое значение имеет и качество контента, на котором обучаются большие языковые модели. В этом аспекте для тренировок очень слабо подходят соцсети, поскольку качество информации в них часто является манипулятивным, что приведет к неправдивым результатам от ИИ. Текст, взятый с платформ социальных сетей, может быть предвзятым или может содержать дезинформацию или незаконный контент, который может быть воспроизведен моделью.
По данным ученых, сейчас разработчики ИИ ищут высококачественный контент, такой как текст из книг, онлайн-статей, научных работ, Википедии и определенный отфильтрованный веб-контент. Например, Google Assistant был обучен на 11 000 любовных романах, взятых с сайта самостоятельной публикации Smashwords, чтобы сделать его более разговорным.
В то же время исследователи предсказывают, что у нас закончатся высококачественные текстовые данные до 2026 года, если текущие тенденции обучения искусственному интеллекту сохранятся. По их оценкам, низкокачественные языковые данные будут исчерпаны где-то между 2030 и 2050 годами, а низкокачественные изображения — между 2030 и 2060 годами.
Впрочем, ситуация может быть не такой плохой, как кажется. Есть много неизвестного о том, как модели ИИ будут развиваться в будущем, а также о некоторых способах устранения риска нехватки данных. Одна из возможностей для разработчиков ИИ — улучшить алгоритмы, чтобы они могли более эффективно использовать уже имеющиеся данные. Вполне вероятно, что в ближайшие годы они смогут обучать высокопроизводительные системы искусственного интеллекта, используя меньше данных и, возможно, меньшую вычислительную мощность.
Другой вариант — использовать ИИ для создания синтетических данных для обучения систем. Другими словами, разработчики могут просто генерировать необходимые им данные, подобранные в соответствии с их конкретной моделью ИИ. Несколько проектов уже используют синтетический контент, часто получаемый из сервисов генерации данных, таких как Mostly AI. В будущем это станет более распространенным явлением, считают исследователи.