mirror of
https://github.com/pese-git/simple-llm.git
synced 2026-01-23 21:14:17 +00:00
Параметры GPT-1:
12 слоев. 12 голов Внимания в каждом слое. 768 – размерность эмбедингов. 40 000 – размер словаря. 0.1 – дропаут. 2.5e-4 – learning rate 100 эпох. 64 – размер батча 512 – длина одной последовательности.