Исследователи пытаются понять, как работают большие языковые модели

Иллюстрация: Krot_Studio / Shutterstock

Исследователи пытаются понять, как работают большие языковые модели (LLM), такие как GPT-4, Claude и Gemini. Это важно, потому что эти модели, созданные с помощью глубокого обучения, обладают удивительными способностями, но их внутренние механизмы остаются загадкой. LLM обучаются на триллионах текстовых примеров, что позволяет им вести беседы, генерировать тексты, писать программный код и переводить между языками.

Джош Батсон из стартапа Anthropic отмечает, что модели скорее «вырастают», чем проектируются. Поскольку LLM не программируются явно, никто не знает точно, почему они столь эффективны или почему иногда дают ложные ответы, известные как «галлюцинации». Это особенно важно, учитывая, что LLM уже используются для различных задач, от поддержки клиентов до написания программного кода.

Механистическая интерпретация, или понимание внутренних процессов моделей, стала целью многих исследователей. В мае команда Anthropic опубликовала результаты, показывающие, как они использовали «разреженные автокодировщики» для изучения одной из своих моделей, Claude 3 Sonnet. Автокодировщик — это меньшая нейронная сеть, обучающаяся на активности LLM для выявления паттернов, когда небольшие группы нейронов активируются вместе.

В последних экспериментах команда Anthropic выявила 34 миллиона таких паттернов, или «признаков». Эти признаки соответствовали конкретным городам, людям, животным и химическим элементам, а также более сложным концепциям, таким как транспортная инфраструктура или известные теннисистки. Это позволило создать концептуальную карту модели, показывающую, как близкие географически места или связанные концепции «близки» друг к другу в концептуальном пространстве.

Также возможно изменять поведение модели, манипулируя отдельными признаками. Например, усилив признак, связанный с мостом Золотые Ворота, исследователи создали версию модели, одержимую этим мостом. Это открывает возможности для настройки моделей, например, чтобы избежать обсуждения определённых тем или изменения поведения, делая их более или менее эмпатичными или обманчивыми.

В другом исследовании, команда из Оксфорда под руководством Себастьяна Фарквара использовала меру «семантической энтропии» для оценки вероятности галлюцинаций. Их метод заключается в многократном предоставлении модели одного и того же запроса и анализе её ответов по семантической схожести. Этот подход позволил различать точные утверждения и галлюцинации в 79% случаев, что на 10 процентных пунктов лучше предыдущих методов.

Эти работы дополняют исследования других команд, включая OpenAI, которая также изучает механизмы работы LLM. Джош Батсон отмечает, что важно, чтобы исследователи по всему миру продолжали работать над пониманием моделей, что позволит сделать их безопаснее и надёжнее.

Источник: The Economist

Понравилась статья? Поделиться с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: