OpenAI выпускает мониторинг CoT для предотвращения злонамеренного поведения в крупных моделях
OpenAI выпустила свое последнее исследование, указывающее на то, что использование мониторинга CoT (Chain of Thought) может предотвратить выдачу больших моделей бессмысленных данных, сокрытие истинных намерений и другие вредоносные действия. Это также один из эффективных инструментов для надзора за супермоделями. OpenAI использовала недавно выпущенную передовую модель o3-mini в качестве объекта для мониторинга, с более слабой моделью GPT-4o в роли монитора. Тестовая среда включала задачи по программированию, требующие от ИИ реализации функций в библиотеках кода для прохождения модульных тестов. Результаты показали, что мониторы CoT отлично справляются с обнаружением систематического поведения "взлома вознаграждений", с уровнем обнаружения до 95%, что значительно превышает 60% при простом мониторинге поведения.
Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.
Вам также может понравиться
Популярное
ДалееЦены на крипто
Далее








