Nvidia, Apple и другие предположительно обучали ИИ, используя 173 000 видеороликов на YouTube: отчет
Apple Inc. (МФА: [ˈæp(ə)l ɪŋk]; официальное русское написание — «Эппл») — американская корпорация, производитель персональных и планшетных компьютеров, аудиоплееров, телефонов, программного обеспечения. Один из пионеров в области персональных компьютеров и современных многозадачных операционных систем с графическим интерфейсом. Штаб-квартира — в Купертино, штат Калифорния. Википедия
Читайте также:В App Store появился эмулятор ПК для устройств AppleApple обновляет подход к играм на Mac«Презумпция невиновности» с Джейком Джилленхолом получит продолжениеApple TV анонсировал дату премьеры второго сезона фантастического сериала «Разделение»Рынок клиентских ПК вырос на 3% из-за роста продаж компьютеров Apple почти на 21%
NVIDIA Corporation (NASDAQ: NVDA) — американская компания, один из крупнейших разработчиков графических ускорителей и процессоров, а также наборов системной логики. На рынке продукция компании известна под такими торговыми марками как GeForce, nForce, Quadro, Tesla, ION и Tegra. Компания была основана в 1993 году. По состоянию на август 2006 года в корпорации насчитывалось более 8 тысяч сотрудников, работающих в 40 офисах по всему миру. Википедия
Читайте также:NVIDIA выпускает драйверы GeForce 560.70 WHQL Game ReadyДжим Келлер работает над чипами для TenstorrentПрототип Nvidia RTX 4070 10 ГБ появился на GPU-ZВыпуск видеокарты GeForce RTX 5090D для Китая ожидается в начале 2025 годаГрафика AMD сравнима с GPU Nvidia восьмилетней давности
В то время как крупные компании и производители ИИ часто держат в секрете свои данные по обучению ИИ, такие тяжеловесы, как Apple, Nvidia и Salesforce, раскрыли, что используют «The Pile», набор обучающих данных объемом 800 ГБ, созданный EleutherAI, и набор данных субтитров YouTube в нем. Данные обучения субтитрам YouTube состоят из 173 536 расшифровок открытого текста YouTube, взятых с сайта, включая более 12 000 видео, которые были удалены с момента создания набора данных в 2020 году.
Затронутые стороны, чья работа якобы была собрана для получения данных по обучению, включают образовательные каналы, такие как Crash Course (1862 видеоролика, снятые для обучения) и Philosophy Tube (146 видеороликов), такие мегазвезды YouTube, как MrBeast (два видеоролика) и Pewdiepie (337 видеороликов), а также TechTubers. например Marques Brownlee (семь видеороликов) и Linus Tech Tips (90 видеороликов). Proof News создала инструмент, который можно использовать для просмотра всех видеороликов YouTube, предположительно используемых без согласия.
EleutherAI — это приличная сила в области обучения искусственному интеллекту. Некоммерческая исследовательская лаборатория ИИ — одна из многих, стремящихся «демократизировать» ИИ для масс. На ее веб-сайте заявлена цель «обеспечить, чтобы возможность изучения базовых моделей не ограничивалась горсткой компаний». Для этой цели были созданы наборы данных Pile и YouTube Subtitles, чтобы предоставить высококачественные обучающие данные даже самым нерадивым домашним программистам с искусственным интеллектом. Однако эта идиллическая мечта о поддержке маленького человека с помощью The Pile стала для крупных корпораций еще одним источником топлива для обучения ИИ, а не домашних мастеров.
Однако субтитры YouTube нарушают Условия обслуживания YouTube, поскольку они используют контент YouTube без разрешения и используют «автоматизированные средства» для доступа к данным. В исследовательской работе о The Pile и субтитрах YouTube компания EleutherAI признает нарушение TOS, но утверждает, что инструменты, используемые для очистки данных YouTube, уже были достаточно широко распространены, чтобы не причинить никакого дополнительного вреда.
Многие из пострадавших резко выступили против использования их контента. Эбигейл Торн, продюсер YouTube-канала Philosophy Tube и актриса сериала «Дом Дракона», поделилась в X (ранее Twitter): «Когда мне сказали об этом, я легла на пол и заплакала, это настолько оскорбительно, что мне захотелось бросить курить. Я начал писать вечно, потому что я знаю, что моя аудитория приходит на мое шоу за реальными связями и идеями, а не за дешевым искусственным мусором».
Она продолжила: «Мне бы хотелось, чтобы YouTube делал больше для предотвращения подобных краж». Торн и другие пользователи YouTube подтверждают, что никто никогда не просил первоначально очистить или позже использовать какое-либо видео в качестве обучающих данных.
Кого возлагать вину затрудняет тот факт, что никто не признает вину или ответственность за использование стенограмм. Apple и другие крупные технологические компании, использовавшие обучающие данные, избегают обвинений, поскольку не они занимались сбором данных, хотя в таких компаниях необходимо вести переговоры об этических источниках обучающих данных. EleutherAI, создатели набора данных, не ответили на запросы каких-либо изданий о комментариях и отвергли любые нарушения или вред в своей первоначальной исследовательской работе по Pile.
Технологическая индустрия тратит средства на аппаратное обеспечение искусственного интеллекта нездоровыми темпами: рынку искусственного интеллекта необходимо получать прибыль в размере 600 миллиардов долларов в год, чтобы не отставать от безумных закупок оборудования. Поскольку компании стремятся тратить меньше средств на ИИ, увеличивается вероятность случаев незаконного получения данных, таких как кража на YouTube и чтение файлов Google Gemini без разрешения. Вскоре, возможно, вас не будет шокировать, когда веб-контент заканчивается словами «Вы превысили лимит скорости GPT. Не забудьте нажать кнопку «Нравится»!»
Источник: Tomshardware.com
0 комментариев