Гигант графических процессоров GeForce каждый день собирал данные за 80 лет видео для обучения ИИ, чтобы «разблокировать различные последующие приложения, критически важные для Nvidia».

Как давний энтузиаст технологий и их потенциала совершить революцию в нашем мире, я одновременно очарован и обеспокоен недавними открытиями о методах очистки данных Nvidia. Проведя годы в цифровой сфере, я пришел к пониманию тонкостей разработки ИИ и огромных объемов данных, необходимых для обучения этих мощных моделей.

Обнародованные записи, содержащие различные файлы, такие как электронные таблицы, электронные письма и журналы разговоров, указывают на то, что Nvidia использует огромное количество видеоконтента с YouTube, Netflix и других ресурсов для разработки системы искусственного интеллекта для таких приложений, как ее Omniverse, беспилотные автомобили. и платформы цифровых фигур.

Как опытный журналист-расследователь с многолетним опытом работы за плечами, я не был особо озадачен недавним открытием о том, что Nvidia проводит обширные операции по сбору данных. Технологическая индустрия известна своей неустанной погоней за данными и ресурсами, и такой тип поведения стал слишком распространенным.

В ходе обсуждений члены команды часто обсуждали и обсуждали законы об авторском праве и правах использования, разрабатывая изобретательные методы, позволяющие обойти любые прямые нарушения. Например, Nvidia решила использовать облачный сервис Google для получения набора данных YouTube-8M вместо прямой загрузки видео, поскольку такое действие нарушит условия соглашения с сервисом.

В просочившемся обсуждении канала Slack один человек заметил, что «мы заранее очистили загрузку с помощью Google/YouTube и в качестве морковки махнули рукой, что собираемся сделать это с помощью Google Cloud. В конце концов, обычно для 8 миллионов видео они получат много рекламных показов, и они потеряют доход при загрузке для обучения, поэтому им следует получить от этого немного денег».

404 Media поинтересовались позицией Nvidia относительно законности и моральности использования контента, защищенного авторским правом, для обучения искусственному интеллекту, на что Nvidia ответила, что они строго придерживаются как буквальных, так и философских принципов законодательства об авторском праве.

В некоторых наборах данных их можно использовать только для академических исследований. Хотя Nvidia действительно занимается серьезными исследованиями (как независимо, так и совместно), утечка информации указывает на то, что сбор данных был в первую очередь нацелен на коммерческие приложения, а не на академические.

Как страстный геймер, я должен сказать, что не только Nvidia находится под пристальным вниманием; OpenAI и Runway также сталкиваются с обвинениями в намеренном использовании материалов, защищенных авторским правом, при обучении своих моделей ИИ. Удивительно, но можно было бы предположить, что у Nvidia не возникнет никаких проблем с кадрами игрового процесса из ее сервиса GeForce Now, но просочившиеся документы говорят об обратном.

Ведущий исследователь из Nvidia поделился со своей командой, почему на данный момент нет доступной статистики или видеофайлов: Инфраструктура, необходимая для записи большого количества игровых видео и действий в реальном времени, еще не полностью настроена. Прежде чем мы сможем продолжить работу, необходимо преодолеть как технические, так и нормативные препятствия.

Системы искусственного интеллекта требуют тщательного обучения с использованием огромных объемов данных, что является неизбежным аспектом. Некоторые наборы данных имеют строгие правила использования, тогда как другие имеют более мягкие ограничения. Однако когда дело доходит до легального использования контента, защищенного авторским правом, границы вполне ясны, хотя применять эти правила к обучению ИИ не всегда просто.

Помимо проблем с авторскими правами, видеоконтент также часто включает личную информацию. Хотя в США нет специального федерального закона, который бы напрямую решал эту проблему, существуют различные правила, касающиеся сбора и обработки персональных данных. В Европейском Союзе Общий регламент по защите данных (GDPR) четко определяет, как такие данные могут быть использованы даже за пределами ЕС.

Можно задуматься о потенциальных последствиях, если будет обнаружено, что такая компания, как Nvidia, нарушает правила во время обучения своих моделей ИИ. Если эта система используется во всем мире, будет ли она запрещена в некоторых странах? Будет ли Nvidia рассматривать возможность разработки новой модели, подготовленной на законных основаниях, исключительно для этих регионов? Возможно ли «перемотать» систему и начать заново, используя данные, соответствующие законодательству?

Независимо от индивидуальных мнений об ИИ, очевидно, что мы должны уделять приоритетное внимание прозрачности, особенно в отношении использования материалов, защищенных авторским правом, и персональных данных в коммерческих предприятиях. Невыполнение этого требования может привести к продолжающемуся нерегулируемому анализу данных технологическими корпорациями.

Смотрите также

2024-08-06 14:02