12 сентября OpenAI выпустили новую LLM o1, которая может масштабировать объем «мыслей», который модель будет тратить в процессе работы.В конце прошлой недели OpenAI анонсировали и сразу же выпустили новую модель. Вопреки ожиданиям, её назвали не GPT-5, а o1.Релиз оказался непростым: догадки, скандалы, кодовые названия…
12 сентября 2024 прошел первый публичный показ «супер-прорывной технологии» от OpenAI под кодовым названием Strawberry (клубника). Вокруг неё в последний год ходило множество слухов — как адекватных, так и не очень. На форумах и в Твиттере была куча обсуждений, предвосхищений и хайпа, на фоне которых планка ожиданий некоторых людей взлетела до небес.
В мире технологий происходило множество связанных событий:
- 22 ноября 2023 года. The Information (издание, публиковавшее инсайдерскую информацию про OpenAI несколько раз) выпускает материал под названием «OpenAI совершила прорыв в области ИИ перед увольнением Сэма Альтмана, что вызвало волнение и беспокойство».
- 23 ноября 2023 года. Reuters пишут, что накануне четырехдневного «путча» с увольнениями несколько штатных исследователей написали совету директоров письмо, предупреждающее о значительном открытии в области ИИ, которое, по их словам, может угрожать человечеству.
- 11 июля 2024 года. Издание Bloomberg рассказало, что в ходе внутренней демонстрации OpenAI показали концепцию из пяти уровней, помогающую отслеживать прогресс в создании ИИ. Диапазон варьируется от знакомого ChatGPT (уровень 1 — чатбот, поддерживающий беседу), до ИИ, который может выполнять работу целой организации (уровень 5 — кооперация, долгосрочное планирование, исполнение).
- 12 июля 2024 года. В эксклюзивном материале Reuters раскрываются некоторые детали, видимо, от сотрудников, присутствовавших на внутренней демонстрации. Проект называется Strawberry. Система якобы решает 90% задач из датасета MATH, в который входят олимпиадные задачи по математике для средней-старшей школы. Их собирали с разных туров (например, AIME), проводимых в США в рамках выявления членов команды для финалов международной олимпиады.
- 7 августа 2024 года. Сэм Альтман, СЕО OpenAI, подогревает интерес начитавшейся новостей публики фотографией клубнички.
- 27 августа 2024 года. The Information, с которых и началась вся эта история, пишет, что OpenAI провели демонстрацию технологии американским чиновникам по национальной безопасности.
- 12 сентября 2024 года. OpenAI анонсируют o1, констатируя смену парадигмы, рекорды качества по множеству замеров на разных типах задач. Физика, математика, программирование — везде прогресс.
Официальное позиционирование
Для начала давайте посмотрим, на что делается упор в презентуемых результатах: чем именно OpenAI хотят нас удивить? Вот график с метриками (замерами качества) на трёх разных доменах:На всех трёх частях бирюзовый цвет означает результаты предыдущей лучшей модели OpenAI, gpt4o, оранжевый — раннюю, а малиновый — полноценную законченную версию модели o1.
Такие существенные приросты качества по отношению к gpt4o действительно приятно удивляют — не каждый день видишь улучшение в 6–8 раз!
Но почему именно эти типы задач интересны OpenAI? Всё дело в их цели — помимо чатботов они заинтересованы в создании системы, выполняющей функции исследователей и инженеров, работающих в компании.
Задачи подбирались так, что даже с доступом в интернет (ведь нейронки прочитали почти все веб-страницы и набрались знаний) справится не каждый доктор наук! И вот через 11 месяцев o1 уже показывает результат лучше людей — выводы о сложности честной оценки моделей делайте сами.
Важно оговориться, что эти результаты не означают, что o1 в принципе более способна, чем кандидат наук — только то, что модель более ловко решает конкретно некоторый тип задач, которые, как ожидается, должны быть по силам людям со степенью PhD.
К сожалению, пока не придумали способов замерить прогресс по решению реальных проблем, с которыми исследователи сталкиваются каждый день — и потому приходится использовать (и переиспользовать) задания и тесты, заготовленные для людей в рамках образовательной системы.
Кстати, если уже есть инструмент, решающий стандартные задачи за человека, значит, уже пора придумывать задачи, которые машина еще не умеет решать… Как вам такой инсайт?А как модели решают такие задачи?Начнём с примера: если я спрошу вас «дважды два?» или «столица России?», то ответ последует незамедлительно. Она есть в картотеке. А вот если задачка со звёздочкой, то стоит начать мыслительный процесс — как нас учили решать в школе на уроках математики или физики. Можно вспомнить какие-то формулы или факты, релевантные задаче, попытаться зайти с одного конца, понять, что попытка безуспешна, попробовать что-то другое, заметить ошибку, вернуться обратно…Описание модели о1Большие языковые модели практически всегда «бегут» только вперёд, генерируя по одному слову (или вернее части слова, токену) за раз.
Модели нужны слова для того, чтобы выражать размышления. Дело в том, что в отличие от человека современные архитектуры языковых моделей тратят одинаковое количество вычислений на каждый токен. То есть, ответ и на вопрос «сколько будет дважды два», и на сложную математическую задачку (если ответ на неё — одно число, и его нужно выдать сразу после запроса ответа, без промежуточного текста) будет генерироваться одинаково быстро и с одинаковой затратой «усилий». Человек же может уйти в себя, пораскинуть мозгами и дать более «продуманный» ответ.
Поэтому написание текста рассуждений — это естественный для LLM способ увеличить количество операций: чем больше слов, тем дольше работает модель и тем больше времени есть на подумать. Заметили это давно, и ещё в 2022 году предложили использовать очень простой трюк: добавлять фразу «давай подумаем шаг за шагом» в начало ответа нейросети.
Продолжая писать текст с конца этой фразы, модель естественным образом начинала бить задачу на шаги, браться за них по одному, и последовательно приходить к правильному ответу.
Текст, выделенный жирным на картинке выше, — это ответ модели. Видно, что он стал длиннее, решение задачи получилось прямо как у школьника — в три действия.
Четко, последовательно — ровно так, как мы и попросили. И финальное число 375 является корректным ответом на исходный вопрос — в отличие от изначально предложенного 255.
Но если этому трюку уже два года, и все начали использовать похожие данные для дообучения нейросетей (а те, в свою очередь, естественным образом писать рассуждения), то в чём же прорыв OpenAI? Неужели они просто дописывают «думай шаг за шагом» перед каждым ответом?Как OpenAI учили нейросеть думать, прежде чем давать конечный ответТе из вас, кто сам пользуется ChatGPT или другими LLM, наверняка сталкивались с такой ситуацией.
В целом ответ корректный, но вот есть какой-то один смущающий момент. Вы пишете в диалоговое окно сообщение: «Эй! Ты вообще-то не учла вот это! Переделай» — и со второй попытки выходит желаемый результат. Причём часто работает вариант даже проще — попросите модель перепроверить ей же сгенерированный ответ, выступить в роли критика. «Ой, я заметила ошибку, вот исправленная версия: …» — даже без подсказки, где именно случилась оплошность.Так вот, исследователи заставили LLM… играть в игру. Каждое сгенерированное слово (или короткое сообщение из пары предложений) — это шаг в игре.
Дописать слово — это как сделать ход в шахматах (только тут один игрок). Конечная цель игры — прийти к правильному ответу, где правильность может определяться:
- простым сравнением (если ответ известен заранее — в математике или тестах);
- запуском отдельной программы (уместно в программировании: заранее пишем тестовый код для проверки);
- отдельной LLM с промптом («Посмотри на решение и найди недостатки; дай обратную связь»);
- отдельной нейросетью, принимающей на вход текст и выдающей абстрактную оценку; чем выше оценка — тем больше шанс, что ошибок нет;
- и даже человеком (как в сценарии 3 — посмотреть, указать ошибки, внести корректировку).
Во время такой «игры» модель может сама прийти к выгодным стратегиям. Когда решение задачи зашло в тупик — можно начать делать ходы (равно писать текст), чтобы рассмотреть альтернативные способы; когда заметила ошибку — сразу же её исправить, или и вовсе добавить отдельный шаг перепроверки себя в общую логику работы.
Описание работы о1
В коротком интервью исследователи говорят о моменте удивления в ходе разработки. Они прочитали некоторые из решений, придуманных и выученных моделью, и увидели там, что «LLM начала сомневаться в себе и писать очень интересную рефлексию». И всё это выражается натуральным языком, который мы можем прочитать и попытаться понять.Еще раз: модель сама решает, сама себя перепроверяет, и еще раз перепроверяет — несколько раз. Это как писатель «работает над книгой» — пишет, переписывает, и еще раз переписывает до идеала.
Возникновение сложных типов поведения в играх
Удивительно для многих, но обучение вышеописанной «игре» происходит с использованием методов Reinforcement Learning — тех самых, что помогают обучать нейросети играть в реальные видеоигры. И эти методы как раз известны тем, что они обнаруживают и позволяют выучить неочевидные стратегии, эксплуатировать неэффективности игры.
Сами OpenAI — одни из пионеров Reinforcement Learning. Для тех, кто за ними следит, не должно стать сюрпризом, что компания зачем-то даже обучала ботов игре в DotA 2 (которые, кстати, победили тогдашних чемпионов мира).Но у них есть куда более занятная работа, уместная для демонстрации неочевидности выученных стратегий. В 2019 году они обучали ботов играть в прятки.
Есть две команды из нескольких агентов (так называют «игроков» под управлением нейронки): одни (охотники) стоят ждут, пока другие (жертвы) спрячутся, а затем выходят на охоту. На уровне также есть стены с дверьми, передвижные кубики и лестницы.
Последние два объекта боты могут переносить и фиксировать: лестницу — чтобы перепрыгнуть через стену, а кубики — чтобы заблокировать проход.
Никакое поведение не было заранее запрограммированно, всё с нуля. Каждая нейронка училась делать так, чтобы чаще выигрывать — и это привело к тому, что последовательно были выработаны следующие стратегии:
- Охотники начали гоняться за жертвами.
- Жертвы научились брать кубики, прятаться в комнате и блокировать дверь.
- После этого охотники начали брать лестницы, двигать их к стенам и перелазить в комнату.
- Чем ответили жертвы? Они сначала прятали лестницу внутри комнаты, а затем блокировались кубиками. Причём, поскольку жертв было несколько, они научились кооперироваться, чтобы успеть сделать всё до момента начала охоты за ними.
Итак, еще раз про принцип работы о1
«Полировка» — это дообучение на высококачественных данных, в частности, специально заготовленных специалистами по разметке. На этом этапе модель отучивают ругаться и отвечать на провокационные вопросы. Только после этого финальная модель попадает в руки пользователей.
Где o1 показала себя?
Сами OpenAI делают акцент на том, что улучшений везде и во всех задачах ждать не стоит. Это принципиально новая модель, обученная по новой методике, на некоторый спектр задач. Для ежедневного использования она не подходит, и иногда даже оказывается хуже gpt4o.
50% — это паритет между старой и новой моделью. Всё что по левую сторону — проигрыш (то есть качество хуже), по правую — выигрыш в качестве по сравнению с gpt4o.
Получается, что модель О1 – действительно не для повседневной жизни, это как «микроскопом забивать гвозди» или просить профессора поменять смеситель.Но для высоко интеллектуальны задач, обучения, менеджмента – вполне себе полезно и пригодно.
Важно помнить, что сейчас всем нам доступны мини- и превью-версии моделей о1. В них нет поддержки загрузки документов, картинок, они не пользуются калькулятором и не запускают код. Всё это обещают добавить в будущем, после выхода полноценной мощной версии о1 — возможно, её выпустят после президентских выборов в США или после дополнительных раундов проверок на безопасность.
С 1 ноября похожая программа ожидается от Сбер – ждем с нетерпением! И еще приятная новость: линейка ChatGPT никуда не пропадёт, и, по слухам, мы должны получить GPT-5 (фигурирующую в утечках под кодовым названием «Орион») до второго квартала 2025-го.