Параметры GPT-1: 12 слоев. 12 голов Внимания в каждом слое. 768 – размерность эмбедингов. 40 000 – размер словаря. 0.1 – дропаут. 2.5e-4 – learning rate 100 эпох. 64 – размер батча 512 – длина одной последовательности.