Preview

Вестник НГУ. Серия: Информационные технологии

Расширенный поиск

Исследование методов оптимизации скорости исполнения больших языковых моделей для задачи распознавания команд

https://doi.org/10.25205/1818-7900-2025-23-4-44-61

Аннотация

 Целью данной работы являлось исследование и реализация методов оптимизации (особенно методов прунинга) больших языковых моделей для задачи function calling, а также сравнение точности и скорости работы полученных моделей.

В качестве базовой модели была выбрана модель Mistral-7B. Для эффективной тренировки модели использовал­ся датасет glaive-function-calling-v2, предназначенный для задачи function calling. Для обучения базовой модели использовалось квантование до 4 бит в формате nf4 и двойное квантование в сочетании с методом QLoRA (Quantized Low-Rank Adaptation).

Оптимизация модели проводилась несколькими способами: (1) с использованием метода ShortGPT, (2) с помо­щью критерия Тейлора для послойного прунинга, (3) методом LLM-Pruner, который отбрасывает параметры модели поканально, оставляя при этом количество слоев модели неизменным, и (4) методом PowerInfer, который использует свойство контекстуальной разреженности в больших языковых моделях. Для всех перечисленных способов оптимизации были построены оптимизированные модели, и проведено сравнение точности и скоро­сти работы полученных моделей.

Результаты экспериментов показали, что наибольшая точность была достигнута на модели, которая была оптимизирована с помощью метода послойного прунинга по критерию Тейлора важности слоя. Для данного метода был проведен ряд экспериментов, в которых исследовалась разная расстановка гейтов внутри слоя декодера, а также различные способы агрегирования важности слоя на гейтах. По итогам экспериментов можно сделать вывод, что расстановка гейтов после блоков Multi-Head Attention и использование агрегирования важности с помощью L2-нормы вектора градиентов дают наибольшую точность по сравнению с другими возможными ва­риантами.

Научная значимость работы состоит в сравнении передовых методов прунинга, исходя из соотношения каче­ство/скорость модели, и получении ускоренной версии модели для задачи function calling.

Об авторах

А. И. Гончаренко
Институт интеллектуальной робототехники НГУ
Россия

Гончаренко Александр Игоревич, старший преподаватель

Новосибирск



М. И. Чупров
ООО «Экспасофт»
Россия

Чупров Максим Иванович, разработчик-исследователь систем искусственного интеллекта

Новосибирск



Е. С. Нежевенко
Институт автоматики и электрометрии СО РАН
Россия

Нежевенко Евгений Семенович, доктор технических наук, ведущий научный сотрудник тематической группы оптико-электронных специализированных процессоров

Новосибирск



Список литературы

1. Radford A. et al. Improving language understanding by generative pre-training. 2018.

2. Devlin J. et al. Bert: Pre-training of deep bidirectional transformers for language understanding // arXiv preprint arXiv: 1810.04805. 2018. DOI: 10.18653/V1/N19-1423

3. Mikolov T. et al. Efficient estimation of word representations in vector space // arXiv preprint arXiv: 1301.3781. 2013. https://doi.org/10.48550/arXiv.1301.3781

4. Vaswani A. et al. Attention is all you need // Advances in neural information processing systems. 2017. Т. 30. DOI/10.5555/3295222.3295349

5. Ma X., Fang G., Wang X. Llm-pruner: On the structural pruning of large language models // Advances in neural information processing systems. 2023, vol. 36, рp. 21702–21720. https://doi.org/10.48550/arXiv.2305.11627

6. Men X. et al. Shortgpt: Layers in large language models are more redundant than you expect // arXiv preprint arXiv: 2403.03853. 2024. https://doi.org/10.48550/arXiv.2403.03853

7. Frantar E., Alistarh D. Sparsegpt: Massive language models can be accurately pruned in one-shot // International Conference on Machine Learning. PMLR, 2023. P. 10323–10337. https://doi.org/10.48550/arXiv.2301.00774

8. Liu Z. et al. Deja vu: Contextual sparsity for efficient llms at inference time // International Conference on Machine Learning. PMLR, 2023. P. 22137–22176. DOI/10.5555/3618408.3619327

9. Song Y. et al. Powerinfer: Fast large language model serving with a consumer-grade gpu // arXiv preprint arXiv: 2312.12456. 2023. https://doi.org/10.1145/3694715.3695964

10. Jiang A. Q. et al. Mistral 7B // arXiv preprint arXiv: 2310.06825. 2023. https://doi.org/10.48550/arXiv.2310.06825

11. Molchanov P. et al. Importance estimation for neural network pruning // Proceedings of the IEEE / CVF conference on computer vision and pattern recognition. 2019. P. 11264-11272. DOI: 10.1109/CVPR.2019.01152

12. Gerganov G. GitHub – ggerganov/llama.cpp: Port of Facebook’s LLaMA model in C/C++ – github.com. 2023.


Рецензия

Для цитирования:


Гончаренко А.И., Чупров М.И., Нежевенко Е.С. Исследование методов оптимизации скорости исполнения больших языковых моделей для задачи распознавания команд. Вестник НГУ. Серия: Информационные технологии. 2025;23(4):44-61. https://doi.org/10.25205/1818-7900-2025-23-4-44-61

For citation:


Goncharenko A.I., Chuprov M.I., Nejevenko E.S. Research of inference speed optimization methods of large language models for function calling task. Vestnik NSU. Series: Information Technologies. 2025;23(4):44-61. (In Russ.) https://doi.org/10.25205/1818-7900-2025-23-4-44-61

Просмотров: 83

JATS XML


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-7900 (Print)
ISSN 2410-0420 (Online)