Существует множество тестов для оценки искусственного интеллекта, но получение точного представления о том, насколько хорошо он выполняет определённые задачи, по-прежнему остаётся сложностью даже для специалистов. Миллионы людей ежедневно используют инструменты искусственного интеллекта (ИИ) для самых разных задач: от генерации кода до рисования изображений и создания бизнес-идей. Многие компании начали разрабатывать всё более эффективные модели, которые, похоже, превосходят лучшие результаты предыдущих лет по ряду тестов и оценок. Это делает траекторию улучшения этого направления совершенно ясной — алгоритмы нейросетей становятся значительно лучше, поскольку законы масштабирования означают, что их интеллект значительно растёт по мере того, как им предоставляется больше данных и времени вычислений. Но масштабирование и накачивание серверов в дата-центре данными не беспредельно, и уже перестаёт оказывать эффект значительного улучшения. То есть, данный принцип имеет ограничения, которые можно обойти только новыми идеями и алгоритмами. Но искусственный интеллект при этом, ещё далёк от идеального представления о нём.
Сегодня все топовые модели кажутся сравнительно мощными, они явно намного лучше своих предшественников, существовавших всего пару лет назад. Однако прямое сравнение относительных преимуществ каждой модели всё ещё затруднительно. Одна лучше справляется с кодированием, другая с анализом документов, а третья может эффективно функционировать только, как большая языковая модель. Какая модель более эффективна или действенна для конкретной задачи или варианта использования?
На эти вопросы нелегко ответить, поскольку у пока нет эффективных стандартизированных методов оценки, которые бы могли рассказать, насколько хороша конкретная модель в определённой области. Существует множество тестов и бенчмарков для измерения различных результатов, но они всё ещё недостаточны, если вы хотите окончательно понять, какую модель использовать для конкретной специализированной задачи. Это, как если бы вы смотрели на группу олимпийских чемпионов, но не знали, каким видом спорта они занимаются.
Генеративный ИИ — — это универсальная технология, которая хороша во многих разных вещах, а не узкоспециализированная и созданная специально для одной конкретной дисциплины или исследования. Это по своей сути усложняет попытки измерить его последовательно. Он разработан путём масштабного предварительного обучения для поддержки открытых приложений, а традиционные методы оценки, которые полагаются на статические тесты для предопределённых способностей, не в состоянии охватить эту универсальность.
Например, вы можете использовать одну и ту же модель для выполнения двух совершенно разных задач, например, для создания арт-объектов в стиле голландских мастеров и написания кода на Python. Вы знаете, что модель, которую вы используете для этого, обычно является передовой, но вы не всегда знаете, является ли она передовой для конкретной задачи, которую вы хотите выполнить, выбранной из меню тысяч задач, которые модель способна выполнить.
Другими словами, эта невероятная нейросеть может быть «отстойной» применительно к дизайну или программному коду (или и в том, и другом), но быть первоклассной в чём-то другом. Такое положение вещей создаёт очевидные проблемы при попытке выбрать, какие инструменты использовать для выполнения необходимой задачи. Эта очевидная проблема не имеет очевидного решения прямо сейчас. Лучшее, что компании-разработчики могут сделать на данный момент времени, — это измерить свою технологию с помощью ряда различных методов.
Компании в основном измеряют качество систем генеративного ИИ, проводя оценку по набору контрольных показателей, ориентированных на конкретный прикладной функционал. Обычные контрольные показатели, используемые для измерения моделей, включают их тестирование на таких вещах, как ответы на вопросы общего назначения (GPQA), производительность в широком диапазоне предметных знаний (Massive Multitask Language Understanding, или MMLU) и то, насколько хорошо модель справляется с мультимодальными входными данными (MultiModal Understanding, или MMU). Эти контрольные показатели обычно цитируются в технических отчётах, когда выпускается новая итерация (версия) продукта. Разработчики также часто ссылаются на то, насколько хорошо модели выполняют стандартизированные тесты, разработанные для оценки компетентности человека.
В техническом отчёте GPT-4, например, такие бенчмарки, как вопрос-ответ, завершение истории (просьба к модели придумать конец истории, вывести результат на естественном языке и создать общее резюме), использовались для оценки того, насколько хорошо модель выполняет общие задачи. Но можно только догадываться о полном спектре бенчмарков, которые могут использовать компании, поскольку они не раскрывают всего.
Хотя контрольные показатели полезны, у них есть и недостатки. Например, MMLU, один из наиболее распространённых бенчмарков, состоит из десятков тысяч академических вопросов с множественным выбором по целому ряду предметов. Идея заключается в том, что чат-бот, способный ответить на многие из этих вопросов правильно, умнее того, который отвечает так же верно на меньшее количество вопросов. Это не исключает того, что на достаточно тривиальные несложные вопросы (ряд вопросов) система может галлюционировать или просто дать неверные ответы. Если данные обучения модели ИИ содержат вопросы и ответы из теста MMLU, то она может смошенничать на тесте, поскольку она уже с большей вероятностью знает ответ, чем модель, не обученная на этой информации. В качестве «спойлера» можно привести такой факт, что пока не существует независимой внешней организации, оценивающей работу ИИ, предлагая ей свои разноплановые тесты. Разработчики сами составляют пул вопросов-ответов. И зачастую, они рассчитаны именно на тот набор данных, которыми обучалась модель. Кроме того, для самих разработчиков встаёт некая этическая дилемма, так как ряд данных для обучения заимствованы без разрешения из условно закрытых источников — то есть, с нарушением авторского права.
Например, некоторые бенчмарки используют общую метрику под названием ROUGE для оценки того, насколько хорошо модель справляется с задачами подведения итога (выдачи ответа), используя общий набор данных под названием XSum. Но с ним есть множество проблем — потому, что в нём есть справочные сводки, которые не соответствуют входным данным. Также существует множество языков, которые недостаточно хорошо представлены в обучающих данных, что ещё больше снижает эффективность некоторых тестов, в зависимости от того, что именно вы пытаетесь оценить. Другими словами, даже количественные показатели ИИ настолько хороши, насколько хороши данные, лежащие в их основе.
Не стоит заблуждаться если тесты покажут высокую эффективность для широкой категории задач. Однако они на самом деле не смогут достоверно оценить (даже, с высокой долей вероятности, оценят неверно), будет ли конкретная нейросеть лучше всего использоваться для какой-либо узкопрофильной специализации. Чтобы провести качественную оценку реального применения, всем приходится полагаться на гораздо менее научные методы измерения. На данный момент — большая часть именно таких измерений качественная. Суть метода заключается в том, чтобы опробовать модель для определённого варианта использования и проанализировать, выдаёт ли она результат, превосходящий результат другой модели. Вот так – просто и неэффективно.
Это приближает нас к более гранулированной полезной системе измерения. Для ранжирования лучших моделей должно быть достаточное количество пользователей в достаточном количестве вариантов использования, которые высоко оценили модель. Но тут ещё надо учитывать фактор специализации: например, вам требуется решить конструкторскую задачу, а нейросеть хороша в медицинской плоскости, но в общем списке занимает высокое место. Поэтому придётся сначала сузить список, отобрав только применимые для этого варианта использования.
Вроде бы, одной из областей, где дела, похоже, идут хорошо, является оценка возможностей ИИ для генерации программного кода. Там результаты сравнительно легко оценить: можно запустить код и проверить, правильно ли он отработал. Но это только на первый взгляд. Для нахождения нестандартного пути решения эти системы ИИ слабо подходят, так как, в основном, ориентируются на самые тривиальные (распространённые) пути решения. То есть, они могут облегчить жизнь программисту только в части выполнения общей задачи. То же самое касается относительно простых вопросов и ответов по общим дисциплинам. Для одного вопроса с относительно небольшим контекстом довольно просто оценить, является ли ответ на вопрос правильным и не содержит ли он галлюцинаций (склонность ИИ уверенно придумывать всякую всячину). Также относительно легко определить, нравится ли вам ясность вывода и подробное раскрытие темы.
Таким образом, текущие методы оценки систем глубокого обучения требуют существенного обновления, чтобы охватить весь спектр возможностей, которые предлагают нейросети. Необходим динамичный подход, который использует постоянно развивающийся, открытый пул данных, полученных как из существующих, так и из новых наборов по самым различным дисциплинам. Только это позволит проводить более гибкие и комплексные оценки. Это обходит проблему статических бенчмарков, по сути, непрерывно отслеживая и измеряя производительность модели в отношении постоянно расширяющихся тестов и требований в каждой сфере деятельности. Но пока таких организаций нет даже в профильных системах образования — придётся тестировать эти системы искусственного интеллекта вручную.