Preview

Вестник НГУ. Серия: Информационные технологии

Расширенный поиск

Разработка системы классификации текстов по научным специальностям с применением методов машинного обучения

https://doi.org/10.25205/1818-7900-2021-19-1-39-47

Аннотация

Описана разработка системы классификации тестов по научным специальностям. В качестве научных текстов использована выборка авторефератов по группе специальностей научных работников 05.13.00 «Информатика, вычислительная техника и управление». Приведены основные сведения по методике сбора и фильтрации исходных данных. Описаны способы подготовки исходных данных к моделированию. Для векторизации исходных текстов использована модель TF-IDF, которая позволила при ограниченных технических возможностях загрузить весь объем данных. Для разработки модели машинного обучения применена многоклассовая логистическая регрессия. В работе также описывается процесс и результат разработки веб-приложения для классификации текстов авторефератов. Приведены сведения о возможных путях развития системы классификации.

Об авторе

П. Ю. Гусев
Воронежский государственный технический университет
Россия


Список литературы

1. Суслова С. И. Специальность 12.00.03: статистическое исследование тематики и количества диссертационных работ, представленных к защите // Пролог: журнал о праве. 2018. № 2. С. 48-54. DOI 10.21639/2313-6715.2018.2.8

2. Девицкий Э. И. Специальность 12.00. 05: статистическое исследование тематики и количества диссертационных работ, представленных к защите // Пролог: журнал о праве. 2020. № 1 (25). С. 50-56. DOI 10.21639/2313-6715.2020.1.6

3. Качурова Е. С., Суслова С. И. Специальность 12.00.08: статистическое исследование тематики и количества диссертационных работ, представленных к защите // Пролог: журнал о праве. 2018. № 3. С. 54-60. DOI 10.21639/2313-6715.2018.3.8

4. Данилов Г. В. и др. Сравнительный анализ статистических методов классификации научных публикаций в области медицины // Компьютерные исследования и моделирование. 2020. Т. 12, № 4. С. 921-933. DOI 10.20537/2076-7633-2020-12-4-921-933

5. Васенин В. А. и др. Интеллектуальная система тематического исследования научно-технической информации (ИСТИНА) // Информационное общество. 2013. Т. 1, № 03. С. 21-30.

6. Бородин А. И., Вейнберг Р. Р., Литвишко О. В. Методы обработки текста при создании чат-ботов // Хуманитарни Балкански изследвания. 2019. Т. 3, № 3 (5). DOI 10.34671/ SCH.HBR.2019.0303.0026

7. Artama M., Sukajaya I. N., Indrawan G. Classification of official letters using TF-IDF method. Journal of Physics: Conference Series, 2020, vol. 1516, no. 1, p. 012001-012001. DOI 10.1088/1742-6596/1516/1/012001

8. Grohe M. Word2vec, node2vec, graph2vec, x2vec: Towards a theory of vector embeddings of structured data. In: Proceedings of the 39th ACM SIGMOD-SIGACT-SIGAI Symposium on Principles of Database Systems, 2020, p. 1-16. DOI 10.1145/3375395.3387641

9. Жилина Е. В. Использование бинарной логистической регрессии для оценки качества адаптивного теста // Вестник Томского государственного университета. 2010. № 334. С. 106-109.

10. Попова Е. П., Леоненко В. Н. Прогнозирование реакции пользователей в социальных сетях методами машинного обучения // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20, № 1. С. 118-124. DOI 10.17586/2226-1494-2020-20-1-118-124

11. Yang F. et al. How do visual explanations foster end users' appropriate trust in machine learning? In: Proceedings of the 25th International Conference on Intelligent User Interfaces, 2020, p. 189-201. DOI 10.1145/3377325.3377480

12. Collaris D., Wijk J. J. van. ExplainExplore: Visual Exploration of Machine Learning Explanations. In: IEEE Pacific Visualization Symposium (PacificVis), 2020, p. 26-35. DOI 10.1109/ PacificVis48177.2020.7090


Рецензия

Для цитирования:


Гусев П.Ю. Разработка системы классификации текстов по научным специальностям с применением методов машинного обучения. Вестник НГУ. Серия: Информационные технологии. 2021;19(1):39-47. https://doi.org/10.25205/1818-7900-2021-19-1-39-47

For citation:


Gusev P.Yu. Development of a Classification System for Texts by Scientific Specialties Using Machine Learning Methods. Vestnik NSU. Series: Information Technologies. 2021;19(1):39-47. (In Russ.) https://doi.org/10.25205/1818-7900-2021-19-1-39-47

Просмотров: 107


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-7900 (Print)
ISSN 2410-0420 (Online)