Маск заявил об «исчерпании» всех человеческих знаний для обучения искусственного интеллекта

от admin
4 Просмотры

«Единственный способ – перейти к синтетическим данным, созданным с помощью ИИ»

Илон Маск говорит, что все человеческие данные для обучения ИИ «исчерпаны». Миллиардер предлагает перейти к самообучающимся синтетическим данным, созданным с помощью моделей искусственного интеллекта.

Компании, занимающиеся искусственным интеллектом, исчерпали данные для обучения своих моделей и “исчерпали” сумму человеческих знаний, сказал Илон Маск.

Как пишет The Guardian, самый богатый человек в мире предположил, что технологическим фирмам придется обратиться к “синтетическим” данным – или материалам, созданным с помощью моделей искусственного интеллекта, – для создания и тонкой настройки новых систем, что уже происходит в условиях быстро развивающейся технологии.

“Совокупный объем человеческих знаний был исчерпан при обучении ИИ. В основном это произошло в прошлом году”, — сказал Маск в интервью, которое транслировалось в прямом эфире на его платформе социальных сетей X.

Модели искусственного интеллекта, такие как модель GPT-4o, управляющая чат–ботом ChatGPT, “обучаются” на огромном массиве данных, взятых из Интернета, где они, по сути, учатся распознавать закономерности в этой информации, что позволяет им предсказывать, например, следующее слово в предложении.

Маск сказал, что “единственный способ” преодолеть нехватку исходного материала для обучения новых моделей — это перейти к синтетическим данным, созданным с помощью искусственного интеллекта.

Ссылаясь на исчерпанность источников данных, он сказал: “Единственный способ дополнить их — это использовать синтетические данные, на которых … можно написать эссе или дипломную работу, а затем оценить себя и… пройти этот процесс самообучения”.

Читать также:
Российские производители начали выпускать аналоги иностранных игрушек

Признанная экстремистской и запрещенная в России компания Meta, владелец соцсетей Facebook и Instagram, использовала синтетические данные для точной настройки своей крупнейшей модели искусственного интеллекта Llama, в то время как Microsoft также использовала контент, созданный с помощью искусственного интеллекта, для своей модели Phi-4. Google и OpenAI, компания, стоящая за ChatGPT, также использовали синтетические данные в своей работе с искусственным интеллектом.

Однако Маск также предупредил, что привычка моделей искусственного интеллекта генерировать “галлюцинации” – термин, обозначающий неточные или бессмысленные выходные данные, – представляет опасность для процесса синтеза данных.

В интервью Марку Пенну, главе рекламной группы Stagwell, которое транслировалось в прямом эфире, он рассказал, что галлюцинации сделали процесс использования искусственного материала “сложным”, потому что “как вы узнаете, является ли это галлюцинацией или реальным ответом”.

Высококачественные данные и контроль над ними — одно из законных полей битвы в условиях бума искусственного интеллекта. В прошлом году OpenAI признала, что было бы невозможно создавать такие инструменты, как ChatGPT, без доступа к материалам, защищенным авторским правом, в то время как креативные индустрии и издатели требуют компенсации за использование их результатов в процессе обучения моделей.

Похожие записи