{ "cells": [ { "cell_type": "markdown", "id": "0939798d", "metadata": {}, "source": [ "# Mistral\n", "\n", "\n", "\n", "\n", "\n", "1-е поколение Mistral вышло в сентябре 2023 года.\n", "\n", "Mistral получил те же улучшения, что и у Llama: RMSNorm, SwiGLU и RoPE. Но мистраль пошел дальше и добавил еще две оптимизационные фишки:\n", "\n", "\n", "- Grouped-Query Attention (GQA)\n", "- Sliding Window Attention (SWA)\n", "\n", "\n", "Обе модифицируют механизм внимания. И обе предназначены для экономии памяти и ускорения вычислений." ] }, { "cell_type": "markdown", "id": "ec28fd32", "metadata": {}, "source": [ "# Masked Multi-Head Attention, ver. 2.0\n", "\n", "В текущей реализации **Multi-Head Attention** у нас каждая голова живет своей жизнью и обрабатывается по отдельности:\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"