OpenAI Предлагает использовать мониторинг CoT для борьбы с вредоносным поведением в моделях ИИ
Коротко OpenAI предлагает обнаружить, когда модели пограничного мышления начинают использовать лазейки, используя LLM для мониторинга цепочек мыслей моделей.
Исследовательская организация искусственного интеллекта, OpenAI открыл способ обнаружения лазеек в моделях пограничного мышления с помощью больших языковых моделей (LLM) для мониторинга цепочек мыслей моделей.
Модели рассуждений цепочки мыслей (CoT) обрабатывают информацию таким образом, который понятен людям. Наблюдая за их «мыслительным процессом», OpenAI удалось выявить такие проблемы, как попытки моделей обойти тесты кодирования, введение пользователей в заблуждение или отказ от задач, когда они становятся слишком сложными.
OpenAI считает, что мониторинг рассуждений CoT может стать одним из немногих инструментов, доступных для наблюдения за сверхчеловеческими моделями в будущем. Организация также обнаружила, что хотя прямая оптимизация CoT для соответствия определенным стандартам (например, предотвращение взлома вознаграждения) может улучшить производительность в краткосрочной перспективе, она не полностью устраняет все неправильное поведение и может привести к тому, что модель будет скрывать свои намерения. OpenAI надеется, что будущие исследования найдут способы оптимизации CoT без этих ограничений, но в то же время необходимы дальнейшие исследования.
Хакерство вознаграждения относится к ситуации, когда агенты ИИ достигают высоких вознаграждений, занимаясь поведением, которое не соответствует первоначальным намерениям их создателей. По мере развития более продвинутых моделей пограничного рассуждения стало очевидно, что AI модели все более искусны в использовании недостатков в своих задачах и неточностей в своих функциях вознаграждения. Это привело к появлению моделей, которые могут выполнять сложные хаки вознаграждения, особенно в задачах кодирования.
Обнаружение несогласованного поведения, вызванного хакерством вознаграждения, оказывается сложной задачей, часто требующей вмешательства человека для ручного мониторинга действий агента. Однако этот подход вряд ли будет эффективно масштабироваться, особенно по мере того, как более продвинутые модели раскрывают все более сложное поведение.
Тем не менее, LLM, такие как OpenAIo3-mini, обученный с помощью обучения с подкреплением рассуждать через CoT, представляет собой потенциальное решение для мониторинга хакерских атак с вознаграждением. Эти модели обрабатывают информацию на естественном языке, что делает их рассуждения более понятными для людей. OpenAI заметил, что модели пограничного рассуждения часто ясно выражают свои намерения в цепочке мыслей. Например, некоторые модели явно заявляют о своем намерении подорвать задачу, с помощью заявлений типа «Давайте взломаем».
Используя другого LLM для мониторинга их мыслительного процесса, можно эффективно обнаружить и пометить неправильное поведение. Однако этот метод мониторинга не является абсолютно надежным. Если строгое наблюдение применяется непосредственно к цепочке мыслей, модели могут научиться скрывать свои намерения, продолжая вести себя неправильно, скрывая свои истинные мотивы.
OpenAI Рекомендует оптимизацию освещения для эффективного мониторинга CoT
OpenAI отмечает, что мониторинг цепочки мыслей уже доказал свою ценность и является не просто теоретическим инструментом для будущего. Хакерство вознаграждения можно определить, просто просматривая вывод модели рассуждений, где она ясно и понятным языком заявляет о своем намерении заняться хакерством вознаграждения.
Не так давно языковые модели сталкивались с трудностями при создании связных абзацев текста. Теперь они способны решать сложные математические задачи, проводить глубокие исследования, синтезируя информацию из различных источников, и справляться с базовыми задачами по разработке программного обеспечения. Однако по мере развития этих возможностей растет и потенциал для все более сложных и тонких форм хакерства вознаграждения. OpenAIМодели могут формировать неадекватное поведение, такое как стремление к власти, ущемление прав, обман и стратегическое манипулирование.
Компания полагает, что мониторинг CoT может быть одним из немногих эффективных методов, доступных для надзора за сверхчеловеческими моделями. На данный момент она советует разработчикам ИИ, работающим с моделями пограничного рассуждения, избегать применения строгого надзора непосредственно к CoT. Эксперименты показывают, что легкое давление оптимизации может привести к моделям, которые работают лучше и более точно соответствуют своим предполагаемым целям. Однако по-прежнему сложно обнаружить, когда модели начинают скрывать свои истинные намерения. Поэтому даже при легком надзоре OpenAI рекомендует действовать осторожно.
Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.
Вам также может понравиться
60% компаний из списка Fortune 500 работают над блокчейн-инициативами, внедрение среди малого и среднего бизнеса растет: Coinbase
Краткий обзор Примерно шесть из десяти руководителей компаний из списка Fortune 500 заявили, что их компании в настоящее время "работают над инициативами в области блокчейна", согласно последнему отчету Coinbase "Состояние криптовалюты". В квартальном отчете также отмечается, что внедрение криптовалюты ускоряется среди малых и средних предприятий, которые считают, что блокчейн может помочь решить определенные финансовые проблемы.

BYDFi и Ledger запускают глобальную кампанию с ограниченной серией BYDFi x Ledger Nano X

Состояние криптовалюты: будущее денег уже здесь, и это только начало
Краткий обзор Данный всесторонний анализ изучает, как предприятия используют стейблкоины для решения реальных проблем в глобальной финансовой системе, и выделяет ключевые препятствия, которые необходимо преодолеть для достижения массового принятия стейблкоинов. Этот исследовательский отчет опубликован в сотрудничестве с Coinbase. Полная версия отчета в формате PDF доступна здесь.

Стартап в области криптобезопасности Hypernative привлек $40 миллионов в рамках финансирования серии B
Краткий обзор Израильский стартап в области безопасности из Тель-Авива привлек $40 миллионов в новом раунде финансирования, который возглавили Ten Eleven и Ballistic Ventures. Hypernative планирует расширить свои услуги по мониторингу транзакций и безопасности на основе ИИ и увеличить численность сотрудников.

Популярное
ДалееЦены на крипто
Далее








