{ "cells": [ { "cell_type": "markdown", "id": "efbc675e", "metadata": {}, "source": [ "# Llama\n", "\n", "\n", "\n", "\n", "Llama 1 вышла в феврале 2023 года. Это уже подальше, чем GPT-2. И в ее архитектуре появилось уже больше серьезных изменений:\n", "\n", "- Нормализация RMSNorm (вместе с pre-norm).\n", "- Функция активации SwiGLU.\n", "- Новый способ кодирования позиций — Rotary Positional Embeddings." ] }, { "cell_type": "markdown", "id": "2cedc663", "metadata": {}, "source": [ "# RMSNorm\n", "\n", "\n", "\n", "В Llama используется более быстрая и эффективная нормализация — **RMSNorm (Root Mean Square Normalization)**.\n", "И, также как в GPT-2, используется *pre-norm* нормализация, то есть слои нормализации располагаются **перед блоками внимания и FNN**.\n", "\n", "RMSNorm отличается от обычной нормализации только одним: в нём исключен этап центрирования (вычитание среднего) и используется только масштабирование по RMS.\n", "Это сокращает вычислительные затраты (на 7–64%) без существенной потери качества.\n", "На картинке показана разница в распределении после применения RMSNorm и LayerNorm к исходным данным — RMSNorm не разбросан вокруг нуля.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"