Исследователи расширяют GPT-4 с помощью нового метода подсказок

7 декабря 2023

Microsoft опубликовала исследование, которое демонстрирует, как передовые методы подсказок могут заставить универсальный ИИ, такой как GPT-4, работать так же или даже лучше, чем специализированный ИИ, обученный конкретной теме. Исследователи обнаружили, что они могут заставить GPT-4 превзойти специально обученную модель Google Med- PaLM 2 , которая была специально обучена по этой теме.

Продвинутые методы подсказок

Результаты этого исследования подтверждают выводы, которые продвинутые пользователи генеративного искусственного интеллекта обнаружили и используют для создания потрясающих изображений или текстового вывода.

Подсказка цепочка мыслей — это метод, описанный Google примерно в мае 2022 года, который позволяет ИИ разделить задачу на этапы на основе рассуждений, и дает ему возможность решать любые текстовые задачи (включая математические) и достигать здравого смысла.

Эти принципы в конечном итоге проложили путь к тому, как пользователи генеративного ИИ добиваются высококачественного вывода, будь то создание изображений или текстовый вывод.

Питер Хазерли, основатель пакета веб-приложений Authored Intelligence, высоко оценил полезность подсказок цепочки мыслей:

«Цепочка мыслей берет ваши исходные идеи и превращает их в нечто экстраординарное».

Питер также отметил, что он включает CoT в свои собственные GPT, чтобы усилить их.

Подсказки цепочки мыслей (CoT) возникли после открытия того, что просить о чем-то генеративный ИИ недостаточно, потому что результат всегда будет далеким от идеального.

Подсказки ЦМ — это описание шагов, которые генеративный ИИ должен предпринять, чтобы достичь желаемого результата.

Прорыв исследования заключается в том, что использование рассуждений ЦМ и двух других методов позволило им достичь ошеломляющего уровня качества, превосходящего то, что считалось возможным.

Эта методика называется Медпромпт.

Medprompt доказывает ценность передовых методов подсказки

Исследователи протестировали свою технику на четырех различных моделях фундамента:

Флан-ПаЛМ 540Б
Мед-ПаЛМ 2
ГПТ-4
GPT-4 МедПромпт

Они использовали эталонные наборы данных, созданные для проверки медицинских знаний. Некоторые из этих тестов были для рассуждения, некоторые были вопросами экзаменов медицинской комиссии.

Четыре набора данных медицинского сравнительного анализа

MedQA. Набор данных для ответов на вопросы с несколькими вариантами ответов
PubMedQA. Да/Нет/Может быть, набор данных для контроля качества
MedMCQA. Многопредметный набор данных с множеством вариантов выбора
MMLU (Массовое многозадачное понимание языка) ( PDF )
Этот набор данных состоит из 57 задач в различных областях, содержащихся в темах гуманитарных, социальных наук и STEM (наука, технологии, инженерия и математика). Исследователи использовали только задачи, связанные с медициной, такие как клинические знания, медицинская генетика, анатомия, профессиональная медицина, биология и медицина.

GPT-4 с использованием Medprompt абсолютно превзошел всех конкурентов, с которыми он тестировался, во всех четырех наборах медицинских данных.

Почему Медпромпт важен

Исследователи обнаружили, что использование рассуждений CoT вместе с другими стратегиями подсказок может сделать общую базовую модель, такую как GPT-4, превзойти специализированные модели, обученные только в одной области (области знаний).

Это делает исследование особенно актуальным для всех, кто использует генеративный искусственный интеллект, так это то, что метод MedPrompt можно использовать для получения высококачественных результатов в любой области знаний, а не только в медицинской области.

Последствия этого прорыва заключаются в том, что, возможно, не потребуется тратить огромные объемы ресурсов на обучение модели, которая станет экспертом в конкретной области. Достаточно лишь применить принципы Medprompt, чтобы получить выдающиеся результаты генеративного ИИ.

Три стратегии подсказки

Исследователи описали три стратегии подсказок:

Динамический выбор нескольких кадров
Самогенерируемая цепочка мыслей
Выбор тасовочного ансамбля

Динамический выбор нескольких кадров

Динамический выбор из нескольких кадров позволяет модели ИИ выбирать соответствующие примеры во время обучения.

Обучение за несколько шагов — это способ обучения базовой модели и адаптации к конкретным задачам с помощью всего лишь нескольких примеров.

В этом методе модели обучаются на относительно небольшом наборе примеров (в отличие от миллиардов примеров), при этом особое внимание уделяется широкому кругу вопросов, относящихся к области знаний.

В методе Medprompt исследователи выбрали обучающие примеры, которые семантически схожи с заданным тестовым примером. Этот динамический подход более эффективен, чем традиционные методы, поскольку он использует существующие данные обучения, не требуя обширных обновлений модели.

Самогенерируемая цепочка мыслей

Техника «Самогенерируемая цепочка мыслей» использует утверждения на естественном языке, чтобы направлять модель ИИ с помощью ряда шагов рассуждения, автоматизируя создание примеров цепочки мыслей, что освобождает ее от необходимости полагаться на экспертов-людей.

В исследовательской работе объясняется:

«Цепочка мыслей (CoT) использует высказывания на естественном языке, такие как «Давайте подумаем шаг за шагом», чтобы явно побудить модель генерировать серию промежуточных шагов рассуждения.

Было обнаружено, что этот подход значительно улучшает способность базовых моделей выполнять сложные рассуждения.

Большинство подходов к цепочке мыслей основаны на использовании экспертов для ручного составления нескольких примеров с цепочками мыслей для подсказок. Вместо того, чтобы полагаться на экспертов-людей, мы использовали механизм автоматизации создания примеров цепочки мыслей.

Исследователи поняли, что этот метод может дать неправильные результаты (известные как галлюцинации). Они решили эту проблему, попросив GPT-4 выполнить дополнительный этап проверки.

Вот как это сделали исследователи:

«Ключевая проблема этого подхода заключается в том, что самогенерируемые обоснования ЦТ несут в себе неявный риск включения галлюцинаторных или неправильных цепочек рассуждений.

Мы смягчаем эту проблему, позволяя GPT-4 генерировать как обоснование, так и оценку наиболее вероятного ответа, который следует из этой цепочки рассуждений.

Если этот ответ не соответствует основной истинности, мы полностью отбрасываем выборку, полагая, что не можем доверять рассуждениям.

Хотя галлюцинации или неправильные рассуждения все же могут дать правильный окончательный ответ (т. е. ложноположительный результат), мы обнаружили, что этот простой этап проверки метки действует как эффективный фильтр для ложноотрицательных результатов».

Лучший ансамбль перетасовки

Проблема с ответами на вопросы с несколькими вариантами ответов заключается в том, что базовые модели (GPT-4 — базовая модель) могут демонстрировать предвзятость позиции.

Традиционно предвзятость позиции — это склонность людей выбирать лучший вариант в списке вариантов.

Например, исследование показало, что если пользователям предоставляется список результатов поиска, большинство людей склонны выбирать из лучших результатов, даже если результаты неверны. Удивительно, но модели фундамента демонстрируют такое же поведение.

Исследователи создали технику борьбы с предвзятостью позиции, когда базовая модель сталкивается с необходимостью ответить на вопрос с несколькими вариантами ответов.

Этот подход увеличивает разнообразие ответов, преодолевая так называемое «жадное декодирование», которое представляет собой поведение базовых моделей, таких как GPT-4, при выборе наиболее вероятного слова или фразы в серии слов или фраз.

При жадном декодировании на каждом этапе генерации последовательности слов (или в контексте изображения пикселей) модель выбирает наиболее вероятное слово/фразу/пиксель (он же токен) на основе текущего контекста.

Модель делает выбор на каждом этапе без учета влияния на общую последовательность.

Выбор перетасовки ансамбля решает две проблемы:

Смещение позиции
Жадное декодирование

Вот как это объясняется:

«Чтобы уменьшить эту предвзятость, мы предлагаем перетасовать варианты, а затем проверить согласованность ответов для разных порядков сортировки множественного выбора.

В результате мы выполняем перетасовку выбора и подсказку самосогласованности. Самосогласованность заменяет наивное однопутное или жадное декодирование разнообразным набором путей рассуждения при многократном вызове при некоторой температуре > 0, настройке, которая вносит определенную степень случайности в поколениях.

При перетасовке выбора мы перемешиваем относительный порядок вариантов ответа перед созданием каждого пути рассуждения. Затем мы выбираем наиболее последовательный ответ, т. е. тот, который наименее чувствителен к перетасовке вариантов.

Перетасовка выбора имеет дополнительное преимущество, заключающееся в увеличении разнообразия каждого пути рассуждения, помимо выборки температуры, тем самым также улучшая качество окончательного ансамбля.

Мы также применяем этот метод при создании промежуточных шагов CoT для обучающих примеров. Для каждого примера мы перемешиваем варианты несколько раз и генерируем ЦТ для каждого варианта. Мы сохраняем только примеры с правильным ответом».

Таким образом, перетасовывая варианты выбора и оценивая согласованность ответов, этот метод не только уменьшает предвзятость, но и способствует высочайшей производительности в контрольных наборах данных, превосходя по эффективности сложные, специально обученные модели, такие как Med-PaLM 2.

Междоменный успех благодаря быстрому проектированию

Наконец, что делает эту исследовательскую работу невероятной, так это то, что ее результаты применимы не только к медицинской сфере: эту методику можно использовать в любом контексте знаний.

Исследователи пишут:

«Мы отмечаем, что, хотя Medprompt достигает рекордной производительности на наборах медицинских эталонных данных, алгоритм является универсальным и не ограничивается медицинской сферой или ответами на вопросы с несколькими вариантами ответов.

Мы считаем, что общая парадигма сочетания интеллектуального выбора из нескольких образцов, самогенерируемой цепочки мыслительных рассуждений и ансамбля большинства голосов может широко применяться к другим проблемным областям, включая менее ограниченные задачи по решению проблем».

Это важное достижение, поскольку оно означает, что выдающиеся результаты можно использовать практически по любой теме без необходимости тратить деньги и время на интенсивное обучение модели в конкретных областях знаний.

Что Medprompt означает для генеративного искусственного интеллекта

Medprompt представила новый способ раскрыть расширенные возможности моделей, сделав генеративный ИИ более адаптируемым и универсальным в различных областях знаний, требуя гораздо меньше обучения и усилий, чем предполагалось ранее. Последствия для будущего генеративного ИИ весьма значительны, не говоря уже о том, как это может повлиять на навыки оперативного проектирования.

Источник: searchenginejournal.com
Изображение от <a href="https://ru.freepik.com/free-photo/3d-rendering-of-biorobots-concept_29316994.htm#query=%D0%98%D1%81%...;

Наш сайт вошел в ТОП-10 лучших сайтов интернет-маркетинговых компаний

Закрытие Google+, Creative Compass от Facebook, видеообъявления в Яндекс Директе – читайте эти и другие новости в нашей подборке