Платить или не платить за творческое «заимствование» для машинного обучения искусственного интеллекта (ИИ)? – вот в чём вопрос. Недавно, в парламенте Великобритании, представители нескольких технологических гигантов, разрабатывающих такие системы, уклонились от ответа на вопрос о том, следует ли платить создателям литературных/научных произведений, когда этот, защищённый авторским правом, материал используется для обучения больших языковых моделей.
В сентябре 2023 года Гильдия авторов США, Торговая ассоциация публикующихся авторов, и 17 частных писателей подали коллективный иск по поводу использования их материалов для создания OpenAI своих сервисов на базе Больших языковых моделей (LLM). Генеральный директор фирмы-разработчика ИИ потом заявил, что компания покроет судебные издержки по искам о нарушении авторских прав, но не удалит материал из своих обучающих наборов.
Именно по этому прецеденту, технические титаны, с совокупными доходами, значительно превышающими 200 миллиардов долларов, подверглись допросу со стороны Комитета Палаты лордов по коммуникациям и цифровым технологиям, когда в центре внимания оказался вопрос об авторском праве.
Важно понимать, что необходимо обучать эти большие языковые модели на больших наборах данных, чтобы они работали эффективно. Есть также некоторые проблемы с конкуренцией, в обеспечении того, чтобы обучение крупных языковых моделей было доступно каждому.
Но уже ведутся судебные процессы по вопросу о том, как наборы обучающих данных Books1, Books2 и Books3, фактически использовали пиратские материалы для создания популярных LLM. Поддержка правообладателей при распространении широкого доступа к информации в Интернете (в том числе для использования в подобных инновациях), весьма важно. Тем не менее, правообладателям не предоставили возможности управлять тем, как используется их творчество. Дэн Конвей, генеральный директор Ассоциации издателей Великобритании, заявил комитету, что крупные языковые модели нарушают защищённый авторским правом контент в «абсолютно массовом масштабе». Об этом стало известно издательской индустрии, благодаря анализу базы данных Books3, в которой по-пиратски использовались 120 000 книг.
Принцип того, когда для использования нужна лицензия или разрешение автора, ясен. Но это не то, что ИИ делает на разных этапах процесса: при заведении данных, их обработке и, возможно, даже на выходе. Хотя некоторые разработчики искусственного интеллекта и технологий отстаивают иную интерпретацию закона.
Ассоциация писателей-фантастов предложила всем представить будущее, в котором разработчики моделей искусственного интеллекта предлагают цену, которую они готовы заплатить за использование в машинном обучении защищённый авторским правом материал. А создатели/правообладатели уже решают, соглашаться ли на это или нет. Писатели тоже хотят получить выгоду от продажи своих произведений издателям, а издатели от реализации книг. Поэтому, может оказаться нерациональным давать согласие разработчикам ИИ до тех пор, пока не будет заключено достаточное количество сделок, дабы все заинтересованные стороны были удовлетворены.
Регулирующие органы должны учесть важность преимуществ цифровых технологий для создателей авторского контента и поддержали защиту авторского права при обеспечении широкой доступности информации. А пока весь мир наблюдает, как бигтехи безнаказанно эксплуатируют щедрость, как самих писателей, так и несовершенство законодательства.
Это печальное положение дел возникло после того, OpenAI по созданной модели, практически ворует материал для анализа в Интернете. А в последующем, эти модели могут генерировать текст в стиле авторов, чьи работы они использовали, не признавая этих авторов и не выплачивая им компенсацию.
Сама Ассоциация писателей-фантастов находится в уникальном положении, представляя многих авторов, которые сами боролись за то, чтобы их работы были доступны бесплатно для читателей–людей. Но не для ботов искусственного интеллекта. За последние двадцать лет многие авторы научной фантастики и фэнтези воспользовались открытым Интернетом, выкладывая туда, целиком или частично, свои произведения, справедливо полагая, что для общества и процветающей культуры полезна доступность их творчества, независимо от платёжеспособности. Но есть разница между тем, чтобы сделать ознакомление бесплатным, и тем, чтобы раздавать её бесплатно для коммерческого использования другими. Наличие свободного доступа никогда не означало отказа от моральных и юридических прав авторов, равно как и от обязательства заключать юридические контракты, чтобы компенсировать авторам их работу и прописать, как она может быть использована.
Другой аспект связан с тем фактом, что некоторые авторы отказались от технологии управления цифровыми правами собственности (DRM). Ведущий издатель научной-фантастики, например, прекратил использовать DRM в 2012 году, так как это мешало людям использовать законно приобретённые электронные книги совершенно законными способами, например, переносить их с одного вида электронных ридеров на другой. Тем не менее, статистика показала, что авторы, которые сделали свои работы доступными в формах, свободных от ограничительных технологий, таких как DRM, в интересах своих читателей, возможно, получили особое преимущество.
Ассоциация призывает к разработке режима добровольного участия, в соответствии с которым авторы могут разрешить включение их работ в БД, используемые для подпитки искусственного интеллекта, в обмен на разумную компенсацию. Если стоимость будет неразумной, то авторы в этом просто не будут участвовать. Тогда вопрос о достижении масштаба оплаты за контент, необходимый для обучения ИИ, может стать предметом переговоров: они могут выдвигать свои аргументы и предложения, а авторы будут выдвигать свои. Скорее всего будет достигнут баланс, при котором компании-разработчики различных моделей искусственного интеллекта заплатят достаточно создателям, чтобы заполучить то, что им требуется. Для компаний это тоже станет более выгодным, чем каждый раз платить по многочисленным искам правообладателей.