Голос и ценности: почему голоса машинного обучения глупы и неправильны.

Ладно, Сквид, зачем ты сейчас об этом пишешь?

Начнем с последнего примера: Эрика Линдбек — актриса озвучивания, которая работала в видеоиграх и анимации, как в аниме, так и в вестернах. За актерами озвучивания говорится, что она начала работать в 1997 году, но, учитывая, что Википедия утверждает, что она родилась в 1992 году, в это трудно поверить. Тоже неактуально, так что идем дальше.

Одна из ее недавних и заметных ролей - в Persona 5 в роли хакера-интроверта Футабы Сакуры. Лично для меня это одно из самых интересных и разнообразных перформансов: голос Футабы может переходить от недовольного и отстраненного к гневному и грустному по ходу разговора, с вспышками рассеянного возбуждения или даже депрессивных низов. Это определенно примечательно, и, скорее всего, именно поэтому он был использован в качестве образца для голосового клипа машинного обучения, который затем был использован в видео, где «она» поет «Добро пожаловать в Интернет» Бо Бернхэма. Я не буду прикреплять сюда видео, так как не поддерживаю его.

Для Эрики это было довольно серьезным нарушением ее работы как актрисы и довольно бессердечным использованием машинного обучения, чтобы сделать со своим голосом что-то, что она не уважала. Итак, она сказала об этом в социальных сетях, позвав создателя и попросив его убрать это. Создатель, после некоторого давления, в конечном итоге удалил оригинал. Но после этого последовала серия повторных загрузок, за которыми последовало прямое преследование Эрики, из-за чего она закрыла свое присутствие в социальных сетях. Проще говоря, группа троллей преследовала ее в Интернете за ее сопротивление машинному обучению с использованием ее голоса. В ответ большая часть сообщества озвучки ответила: «Это дерьмо глупо, вы все отстой, что так обращаетесь с одним из самых приятных людей в индустрии», и я должен с ними согласиться, это было дерьмово.

Но это только установка. Как мы вообще дошли до того, что актриса озвучивания должна защищать свой собственный голос, который используется без разрешения, до того момента, когда люди радостно издеваются и преследуют кого-то, пытающегося продемонстрировать автономию в отношении своего выступления, своего выражения, своего голоса?

Краткий ответ: это та же самая ерунда, с которой мы сталкивались раньше, и сейчас она такая же отстойная, как и тогда.

— — — — — — — — — — — — — —

Это не ИИ, идиоты.

Хорошо, кое-что, на что следует обратить внимание: раньше я использовал «машинное обучение» вместо «ИИ», когда много споров было о том, что «голоса ИИ» воруют у исполнителей. Это потому, что это дерьмо неразумно, и это неправильный термин.

О многих моментах, которые я собираюсь затронуть, уже писалось ранее (пожалуйста, прочитайте статью Дока Буфорда здесь о написании ИИ и о том, что это признак того, что вы не заслуживаете того, чтобы с вами считались). писатель, есть много совпадений), но это особенно сосредоточено на использовании голосов с помощью алгоритмов машинного обучения, что создает свои собственные проблемы. Одна вещь, на которой я хочу сосредоточиться, это то, что нынешнее обозначение ИИ является не чем иным, как маркетингом, призванным втянуть вас в мошенничество.

Термин «искусственный интеллект» использовался в течение многих лет как своего рода Святой Грааль в пространстве программирования, и обычно к нему прилагается несколько определений и стандартов, в зависимости от того, кого вы спрашиваете, но одно из основных требований заключается в том, что он должен иметь причина: возможность обрабатывать входные данные и вместо того, чтобы извлекать ответы из базы данных, анализировать эти входные данные и генерировать собственный ответ.

То, что мы имеем сегодня с точки зрения ИИ, это… ну, это не так. Особенно в последнее время с появлением таких компаний, как ChatGPT и, актуальных для сегодняшней темы, голосовых клонов вроде play.ht или repeat.ai.

Это не «искусственный интеллект» в каком-либо осмысленном смысле. Вместо этого они представляют собой механизмы машинного обучения, которые берут базу данных образцов (часто очищенных или украденных, но мы доберемся до этого), присваивают им определенные значения, а затем сопоставляют эти значения с вводом от пользователя для создания голосового соответствия с использованием перечисленные слова. Проще говоря, они представляют собой более продвинутую версию механизма преобразования текста в речь, на который, вероятно, рассердился ваш отец, когда скачал Bonzi Buddy, но вместо того, чтобы звучать как задушенный робот, это звучит как худшая пародия на Губку Боба, какую только можно было представить. представлять себе.

Машинное обучение само по себе тоже не совсем новое явление. Некоторые из первых механизмов ответов ML появились примерно в 1990-х годах и приняли форму чат-ботов, где программа могла анализировать ключевые слова в предложении и возвращать ответ, который мог имитировать предложение. Конечно, они ломались при малейшей проверке, но интернет был еще молодым, ярким и странным! И, что особенно важно, никто не заподозрит, что один из этих чат-ботов является, скажем, президентом. Или Том Круз.

Ну, некоторые люди будут, но это то, что мы называем «самостоятельно выбираемыми отметками» в мошеннических терминах.

Итак, почему сейчас? Почему сейчас все это, кажется, приобрело популярность, особенно на фоне недавних «высокотехнологичных» катастроф, таких как рынок криптовалют, NFT и другие технологические пузыри, которые глупо разбогатели, а затем потерпели крах при малейшем дуновении ветерка?

Если вы угадали «пузырь технической рекламы», то вы были правы!

— — — — — — — — — — — — — — -

Серьезно, к черту циклы шумихи вокруг технологий.

Вы все помните NFT? «Будущее» грядущего «Web3.0», которое даст беспрецедентную свободу и автономию как творческим людям, так и простым людям? Как они должны были позволить вам зарабатывать деньги на своих творческих работах, предотвращать кражи и открывать безграничный потенциал на растущем цифровом рынке?

Забавно, что ничего из этого на самом деле не произошло, и это была масштабная афера, которая потерпела крах сама по себе, и ее держали только самые отчаянные метки и самые невежественные мошенники? На это есть причина.

Или, или, как насчет «Метавселенной», обещанной цифровыми арендодателями и техническими энтузиастами? Обещание никогда больше не покидать свой дом! Возможность делать покупки и общаться в специально подобранном виртуальном пространстве, которое было таким же реальным, если не более реальным, чем наша собственная плотская реальность! Не смотрите на Second Life вон там, игнорируйте эту часть, это БУДУЩЕЕ (tm), обратите внимание и быстро!

Чувствуете закономерность? Тогда как насчет того, чтобы сломать это монотонность с помощью революционной силы криптовалюты, такой как Биткойн или Эфириум? Вы больше не будете привязаны к берегу! Вы больше не будете раболепствовать, как крестьянин, с налогами, пошлинами и сборами! Теперь вы можете управлять своей судьбой с помощью настоящей валюты, полностью не основанной на фиате и совершенно не рухнувшей, когда руководители проекта потратят каждый цент стоимости, которую они могут, прежде чем запереть двери и оставить вас держать сумку.

Да, шутка уже устарела. Это то, что такие люди, как Кори Доктороу, назвали «Циклом технического хайпа». Это выглядит так:

Появляется новая тупая блестящая штука, которая на самом деле ничего не делает. Венчурные капиталисты и «предприниматели» видят шанс получить бесплатные деньги от рубля.
Они продают эту штуку как «БУДУЩЕЕ(тм)» деревенщинам и говорят им, что все, кто не увлекается этой тупой блестящей штукой, ошибаются. Они «NGMI» (не выживут) или распространяют «FUD» (страх, неуверенность, сомнение), пытаясь унизить вас, как краба в ведре. Это действует как механизм самовыбора для мошенничества: люди, которые продолжают покупать его, по своей сути будут оставаться купленными достаточно долго, чтобы выбить ковер из-под него. Отчуждая их от людей, которые будут убеждать их в обратном, они сожгут единственные мосты, которые у них остались. Это облегчает продолжение аферы, получение большего количества денег и обналичивание большего банка в конце дня.
Тупая блестящая штука неизбежно начинает выходить из строя. Он не может выполнять обещания, критический анализ показывает его недостатки, и люди становятся все более и более скептичными, пока прибыль не начинает замедляться. Это красный флаг для мошенников, который ведет к…
Далее идет тяга, обналичивание «инвестиций» в тупую блестящую штуку.
Затем они переходят к следующей глупой блестящей штуке, цикл продолжается, и они могут привлечь новую базу людей, чтобы дать им деньги.

Сегодняшние голосовые программы машинного обучения, наряду с текстовыми программами машинного обучения, такими как ChatGPT, представляют собой новую блестящую дурацкую штуку, и мы находимся на втором этапе процесса: продавая использование технологии, которая у нас была со времен Windows 95, в качестве решения проблемы Огромная бизнес-проблема (оплата людям за их работу), цикл технической шумихи может привлечь людей с большими деньгами на борт их тупого поезда. И когда все это рушится, и у нас остаются дерьмовые голосовые каверы на песни, которые звучат хуже, чем Waxinator YouTubePoop, новостные статьи, в которых неверны основные даты и информация, и сценарии фильмов, которые настолько неработоспособны, что их нужно писать вдвое больше. команды только для того, чтобы исправить их, тогда эти компании могут сказать: «Послушайте, они сделали именно то, что мы обещали сделать по контракту», и оставить своих инвесторов в руках. Даже если они в конечном итоге проиграют в суде, они будут богаче, чем когда-либо смогут потратить за всю свою жизнь.

Мы уже видели с недавним фиаско в G/O Media, владельцы таких сайтов, как Gizmodo и The A.V. Club, выпуская дерьмовые статьи, предназначенные для получения кликов, которые пронизаны таким количеством фактических ошибок, что редакторам приходится выносить их в социальные сети, потому что их боссы выкачивают мусор без какого-либо редакционного контроля.

По крайней мере, на данный момент мы довольно быстро приближаемся к этапу 3.

Но чтобы вернуться к тому, что случилось с Эрикой Линдбек, мы должны поговорить о том, как социальные сети разлагают наши мозги и выявляют худшее из нас.

— — — — — — — — — — — — — — — — -

Социальные сети разлагают наши мозги и пробуждают в нас худшее.

Я собираюсь сослаться на Penny Arcade здесь. Пожалуйста, не ненавидь меня.

Еще в 2004 году был опубликован комикс, который иллюстрировал «теорию великого интернет-мудака», или ПОДАРОК:

Это довольно простая формула: возьмите нормально уравновешенного человека. Предоставьте им анонимность и аудиторию, и вы получите самую ядовитую херню, которую только можно себе представить. По прошествии многих лет, когда социальные исследования стали глубже изучать поведение в Интернете, эта теория также немного расширилась, принимая во внимание, как люди могут питать отвратительные взгляды в Интернете, но скрывать их в социальных ситуациях, опасаясь быть подвергнутыми остракизму. Вэй Йен Тан, пишущий для GameDeveloper.com, написал отличную статью о различных недостатках теории еще в 2015 году, в которой рассматриваются многие моменты здесь, а также модель эффектов деиндивидуализации социальной идентичности, или сокращенно SIDE. , проливает свет на психологию онлайн-пространств.

Слишком много работы проделано другими в этой области, чтобы охватить ее здесь, но чтобы сделать ее краткой и вернуться к сути статьи: социальные сети стимулируют движение к крайностям мысли, предоставляя пространство, где можно выражать все больше и больше необычного поведения. и мысли, а также поддерживать и поощрять эти выражения. Требуется много работы, чтобы не попасть в эту ловушку, и для многих людей, не знающих о процессах, это может произойти внезапно.

Здесь есть несколько субкультур, которые вступают в игру, радикализуя и отталкивая друг друга все дальше и дальше от «центра», и это довольно отвратительная смесь. В одном углу у вас есть люди, которые считают, что «западные СМИ» «пробуждены» и разрушительны для искусства, и поэтому распространяются на людей, которые делают западные дубляжи своих любимых шоу. В другом случае у вас есть люди в цикле технической шумихи, перечисленные выше, которые считают живых дышащих людей заменимыми и даже желательными, чтобы удалить их, чтобы продолжить свой цикл шумихи и стать частью поезда (даже если они являются меткой, используемой для дальше поезд или вытягивать деньги), а в другой части у вас есть люди, которые верят в «чистоту» художественной формы до такой степени, что любая посторонняя интерпретация (в этой форме локализация и озвучивание) разбавляет форму и поэтому должны быть встречены с купоросом.

Однако у всех этих людей есть общий фактор: отсутствие эмпатии и неспособность общаться с другими людьми. Их жизнь замкнута и замкнута; их пузыри были тугими и уплотненными, устраняя все, что могло попытаться прорвать завесу их собственных верований. И часто это происходит по собственному выбору, когда они решают для себя закрыться от внешнего влияния и перестать сочувствовать другим людям. Они выбирают быть мудаками и наслаждаются вниманием, которое получают, когда ведут себя как мудаки.

Вы можете наблюдать такое поведение во многих других социальных сетях: это то же самое отсутствие эмпатии, которое заставляет людей платить 5000 долларов, чтобы поссориться с секс-торговцем, который публикует сообщения о своих машинах. Это та же самая неспособность общаться с другими, которая питает движение TERF и «грумерский» астротурф, который наносит огромный вред людям, которых они никогда не увидят. И это то же самое мышление «WAGMI», которое заставляло людей снова и снова сталкиваться с трудностями во время цикла NFT.

Вот почему, даже после того, как первоначальный создатель удалил видео по просьбе Эрики, множество других людей вернули его в сеть с прямыми оскорблениями в адрес актрисы. Вот почему комментарии заполнены людьми, оскорбляющими актрису или других VA, или заявляющими об эффекте Стрейзанд (который они создали) как о своего рода «победе» над человеком, который не хотел, чтобы его голос был украден. Вот почему у вас есть люди, заставляющие кого-то удалить свое присутствие в Интернете, потому что у них хватило наглости сказать: «Эй, не воруй у меня» и осмелиться бросить вызов своему БУДУЩЕМУ (tm).

Это произошло во время пузыря NFT, когда артистам сказали, что они должны были продать свои вещи до того, как их вещи были украдены. Это постоянно происходит в криптопространстве, когда людям говорят, что они были неправы, потому что их ввели в заблуждение, и они вложили свои сбережения в мошенничество. И это будет продолжаться со следующим технологическим пузырем. Это часть процесса. И это отстой, потому что он разработан, чтобы отстой.

Они хотят, чтобы вы злились и грустили. Они хотят, чтобы вы назвали их ворами и придурками. Для них ваш гнев и отвращение — это знак чести, который они могут показать в своих пузырях, что они «спровоцировали» своих врагов в чужой группе. Потому что для них это всего лишь интернет.

— — — — — — — — — — — — — — — — — — -

Некоторые другие аргументы, которые вы можете услышать.

«Но Squid, он не был монетизирован! Действительно ли художнику было больно, если он не зарабатывал денег?»

Вред здесь не от монетизации их голоса, а от использования без разрешения. Как и в случае с кражей NFT, основная проблема заключается в том, что они использовали украденные активы для создания своей работы.

Допустим, у вас есть друг, который недавно увлекся искусством. Они практиковались со своими набросками, оттачивая свой стиль. Однако однажды они внезапно подскочили в мастерстве. Почти отказавшись от своего старого стиля в пользу гораздо более искусного мастерства. Подозрительно даже. Затем вы видите водяной знак художника, на которого подписаны, и вам не потребуется много времени, чтобы найти то же самое произведение искусства на их сайте.

Ваш друг, однако, полностью отрицает это и говорит, что неважно, что старый художник сделал или сказал, это их. Теперь это их искусство. Конечно, это неправда, но они все равно будут клясться вверх и вниз, что успешному художнику не больно из-за кражи его работ, так какое это имеет значение?

Что переходит в другую тему:

«Ну, это всего лишь фанатская интерпретация! Значит ли это, что вы ненавидите фан-арт?»

Есть разница между искусством и художником.

Скажи, что ненавидишь Цзижэня из Dragonball Super. Начнем с этого, персонаж примерно так же интересен, как необжаренный хлеб, так что это легкая цель. Скажите, что затем вы рисуете фан-арт о том, как его убивают особенно ужасным образом, например, когда его сбивает грузовик, что затем исекай переносит его в мир, где он бессилен и должен работать над своей силой и получить интересного персонажа. Или, наоборот, вам действительно нравится Цзижэнь, потому что у него телосложение, которое вам нравится, и вы пишете о нем в вещах и позах, которые я не могу здесь повторить, потому что мысли об этом причиняют мне боль.

Вы лично не причинили вреда Цзижэню, его миру, его франшизе, его знаниям, предыстории или вообще чему-либо в отношении персонажа. Однако то, что вы раскрыли, во многом касается вас самих. Как вы относитесь к этому персонажу или архетипу; как эти чувства трансформируются в желания этого архетипа; как вы выражаете эту мысль миру. Это ВАШИ высказывания об устоявшейся работе.

Цзижэнь — это Искусство. Вы Художник.

Однако, когда дело доходит до использования чужого творчества, даже в фанатских работах, начинаешь ущемлять автора, от которого они произошли. А вокальное исполнение — это искусство в определенном смысле, и многие вокальные исполнители вкладывают часы размышлений и годы практики и изучения в исполнение, которое им дают. Когда вы слышите, как Футаба говорит о смерти своей матери, слышите, как ее голос ломается при мысли о том, что ее самоубийство не было самоубийством, о боли ее изоляции, это игра Эрики. Это ее Искусство, и она художница. Забирая это у нее без ее разрешения, вы воруете у нее многое так же, как в примере выше.

Я видел, как кто-то упомянул фан-дабы и YouTubePoops (псевдослучайные шутливые переинтерпретации медиа с использованием тяжелого редактирования установленных клипов), и я хотел затронуть это конкретно. Фан-дабы часто переделывают голосовых персонажей для их индивидуального подхода к работе, позволяя им выражать новые эмоции и индивидуальность за пределами их устоявшейся работы, а не воровать у нынешних актеров. Ник Лэндис, голос Вегеты из Dragonball Z Abriged, не ворует работу у Кристофера Сабата, обычного актера озвучивания Вегеты.

YTP также в своем собственном смысле являются реконструкцией произведений, из которых они взяты. Используя устоявшиеся клипы и нарезая их по-новому, они воссоздают и заново изобретают персонажей, используя устоявшиеся части истории. Они не воссоздают голоса, чтобы заставить их читать строки, они вырезают и переделывают их, чтобы исказить свои истории для комедийного эффекта.

Голосовое копирование машинного обучения работает так же, как программы для создания художественных коллажей или роботы-писатели, которые также появились в космосе: оно не берет существующее искусство и не создает его заново, чтобы заявить о себе, потому что оно не может мыслить оператора. Он делает это по команде людей, которые вводят список ключевых слов, берут эти очищенные входные данные и смешивают их вместе, чтобы сделать что-то похожее на то, что хотел человек. Он может делать только то, что позволяют ему входные данные: он не может думать о том, каким должен быть результат. Это причина, по которой все арты ML выглядят одинаково и не могут хорошо рисовать руки; это причина, по которой ChatGPT превратится в бессмыслицу после достаточного количества входных данных; и это причина, по которой голоса ML звучат как Терминатор, пытающийся сыграть комедию.

И именно по этой причине я ненавижу использовать «ИИ» для этих терминов, потому что он не разумен, он даже не пытается копировать интеллект. Это автозамена в новом пальто, и люди используют термин «ИИ», чтобы попытаться заставить его звучать лучше, чем он есть на самом деле, чтобы они могли продать его компаниям, которые больше заботятся об увольнении работников, чем о качестве своего продукта. Это точно так же, как и любая другая разрекламированная игрушка, которую Кремниевая долина приготовила для придурков, финансирующих венчурный капитал.

— — — — — — — — — — — — — —

В заключение;

Эти программы клонирования голоса ML в вакууме являются просто расширением технологии, которую мы видели раньше. Простой переход от одного к другому, достойный небольшого размышления.

Но мы не существуем в вакууме. И если рассматривать их в контексте того, как они используются для нацеливания на людей, либо путем злонамеренной кражи их голоса для проектов, на которые они никогда не согласятся, либо для разжигания дезинформации в интересах другой повестки дня, к ним следует относиться с той же степенью осторожности, что и мы. будет любой другой вид кражи.

Это не значит, что все машинное обучение плохо: в цифровом искусстве и анимации были достигнуты успехи благодаря машинному обучению, которое не использует украденные или извлеченные данные, чтобы облегчить жизнь художникам, работающим над разного рода постановками. Машинное обучение влияет даже на то, что вы используете сегодня, от автозамены до поисковых рекомендаций. Но когда это подпитывается украденным искусством и используется для подрыва реальных людей, необходимо обсудить, как мы будем двигаться вперед.

И по мере совершенствования этих технологий будет улучшаться и их способность воровать и дезинформировать. Глубокие фейки уже заполняют цифровое пространство всем: от видеороликов «Джо Байден говорит, что он нанесет ядерный удар по России» до известных актеров, делающих расистские и ненавистнические заявления. Не так давно появились статьи о том, что актеров озвучивания используют для чтения «Майн кампф» в качестве метода преследования, и по мере совершенствования технологии похоже, что ее и дальше будут использовать ужасными способами. И я даже не буду касаться абсолютного отвращения к порноиндустрии дипфейков.

Вот почему в Гильдии писателей Америки продолжается забастовка. Вот почему люди сопротивляются дрянным статьям, написанным без редакторов или надзора. И именно поэтому, когда актриса озвучивания подверглась нападкам за желание контролировать свой голос, ее современники вмешались и согласились, что она была права, а ее критики ошибались. И учитывая то, как компании показали себя безмозглыми дураками, когда им представили звенящие ключи засранцы венчурного капитала, мы должны продолжать сопротивляться недобросовестному использованию технологии.

Мы должны быть нашим собственным голосом, в конце концов.

— — — — — — -

Спасибо всем за то, что были со мной так долго, и я надеюсь, что вам понравилось или, по крайней мере, вы что-то извлекли из моего разглагольствования. Если вам нравится то, что я делаю, или вам есть что сказать, напишите мне в Twitter на SquidRadio или [email protected]. Будьте в безопасности и будьте счастливы.

Голос и ценности: почему голоса машинного обучения глупы и неправильны.

Вопросы по теме