<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.3 20210610//EN" "JATS-journalpublishing1-3.dtd">
<article article-type="research-article" dtd-version="1.3" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xml:lang="ru"><front><journal-meta><journal-id journal-id-type="publisher-id">intechngu</journal-id><journal-title-group><journal-title xml:lang="ru">Вестник НГУ. Серия: Информационные технологии</journal-title><trans-title-group xml:lang="en"><trans-title>Vestnik NSU. Series: Information Technologies</trans-title></trans-title-group></journal-title-group><issn pub-type="ppub">1818-7900</issn><issn pub-type="epub">2410-0420</issn><publisher><publisher-name>НГУ</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="doi">10.25205/1818-7900-2021-19-1-39-47</article-id><article-id custom-type="elpub" pub-id-type="custom">intechngu-153</article-id><article-categories><subj-group subj-group-type="heading"><subject>Research Article</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="ru"><subject>Статьи</subject></subj-group></article-categories><title-group><article-title>Разработка системы классификации текстов по научным специальностям с применением методов машинного обучения</article-title><trans-title-group xml:lang="en"><trans-title>Development of a Classification System for Texts by Scientific Specialties Using Machine Learning Methods</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author" corresp="yes"><contrib-id contrib-id-type="orcid">https://orcid.org/0000-0002-3752-0152</contrib-id><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Гусев</surname><given-names>П. Ю.</given-names></name><name name-style="western" xml:lang="en"><surname>Gusev</surname><given-names>P. Yu.</given-names></name></name-alternatives><email xlink:type="simple">gusevpvl@gmail.com</email><xref ref-type="aff" rid="aff-1"/></contrib></contrib-group><aff-alternatives id="aff-1"><aff xml:lang="ru">Воронежский государственный технический университет<country>Россия</country></aff><aff xml:lang="en">Voronezh State Technical University<country>Russian Federation</country></aff></aff-alternatives><pub-date pub-type="collection"><year>2021</year></pub-date><pub-date pub-type="epub"><day>24</day><month>05</month><year>2021</year></pub-date><volume>19</volume><issue>1</issue><fpage>39</fpage><lpage>47</lpage><permissions><copyright-statement>Copyright &amp;#x00A9; Гусев П.Ю., 2021</copyright-statement><copyright-year>2021</copyright-year><copyright-holder xml:lang="ru">Гусев П.Ю.</copyright-holder><copyright-holder xml:lang="en">Gusev P.Y.</copyright-holder><license license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>This work is licensed under a Creative Commons Attribution 4.0 License.</license-p></license></permissions><self-uri xlink:href="https://intechngu.elpub.ru/jour/article/view/153">https://intechngu.elpub.ru/jour/article/view/153</self-uri><abstract><p>Описана разработка системы классификации тестов по научным специальностям. В качестве научных текстов использована выборка авторефератов по группе специальностей научных работников 05.13.00 «Информатика, вычислительная техника и управление». Приведены основные сведения по методике сбора и фильтрации исходных данных. Описаны способы подготовки исходных данных к моделированию. Для векторизации исходных текстов использована модель TF-IDF, которая позволила при ограниченных технических возможностях загрузить весь объем данных. Для разработки модели машинного обучения применена многоклассовая логистическая регрессия. В работе также описывается процесс и результат разработки веб-приложения для классификации текстов авторефератов. Приведены сведения о возможных путях развития системы классификации.</p></abstract><trans-abstract xml:lang="en"><p>In the process of preparing a dissertation, the researcher is faced with the problems of determining the research topic, as well as the problems of writing a text for a particular specialty. To increase the objectivity of the classification of scientific texts by specialties, a system has been developed using machine learning algorithms. In the process of building the classification system, the following tasks were solved: development tools were identified, the collection and processing of initial data was carried out, machine learning models were built, and a web application was developed. The initial dataset is a sample of texts for the group of Russian scientific specialties “Informatics and Computer Engineering”. For the objectivity of the study, the initial data was filtered - the least representative classes were removed. Conversion of texts for vectorization was also carried out. For the vectorization of the source texts, the TF-IDF model was used, which allowed loading the entire data volume with limited technical capabilities. Multiclass logistic regression is chosen as a machine learning model used to classify a scientific specialty. For training, the initial data divided into 2 parts - training and test in a ratio of 80 to 20. Accuracy is used as a metric of the quality of the machine learning model. The choice of the metric is due to the sufficient balance of the classes. The model trained on the training data made it possible to achieve the accuracy of determining the scientific specialty on test data equal to 0.87. To use a ready-made machine learning model for classification of a scientific specialty, a web application has been developed using Flask. The web app is currently located at http://predict-spec.herokuapp.com/ The most urgent tasks for finalizing the system at the moment are: transferring a web application to a more powerful server, finalizing machine learning models, displaying visual information on the analyzed work.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>классификация</kwd><kwd>машинное обучение</kwd><kwd>научная специальность</kwd><kwd>интеллектуальные системы</kwd><kwd>веб-приложение</kwd></kwd-group><kwd-group xml:lang="en"><kwd>NLP</kwd></kwd-group></article-meta></front><back><ref-list><title>References</title><ref id="cit1"><label>1</label><citation-alternatives><mixed-citation xml:lang="ru">Суслова С. И. Специальность 12.00.03: статистическое исследование тематики и количества диссертационных работ, представленных к защите // Пролог: журнал о праве. 2018. № 2. С. 48-54. DOI 10.21639/2313-6715.2018.2.8</mixed-citation><mixed-citation xml:lang="en">Суслова С. И. Специальность 12.00.03: статистическое исследование тематики и количества диссертационных работ, представленных к защите // Пролог: журнал о праве. 2018. № 2. С. 48-54. DOI 10.21639/2313-6715.2018.2.8</mixed-citation></citation-alternatives></ref><ref id="cit2"><label>2</label><citation-alternatives><mixed-citation xml:lang="ru">Девицкий Э. И. Специальность 12.00. 05: статистическое исследование тематики и количества диссертационных работ, представленных к защите // Пролог: журнал о праве. 2020. № 1 (25). С. 50-56. DOI 10.21639/2313-6715.2020.1.6</mixed-citation><mixed-citation xml:lang="en">Девицкий Э. И. Специальность 12.00. 05: статистическое исследование тематики и количества диссертационных работ, представленных к защите // Пролог: журнал о праве. 2020. № 1 (25). С. 50-56. DOI 10.21639/2313-6715.2020.1.6</mixed-citation></citation-alternatives></ref><ref id="cit3"><label>3</label><citation-alternatives><mixed-citation xml:lang="ru">Качурова Е. С., Суслова С. И. Специальность 12.00.08: статистическое исследование тематики и количества диссертационных работ, представленных к защите // Пролог: журнал о праве. 2018. № 3. С. 54-60. DOI 10.21639/2313-6715.2018.3.8</mixed-citation><mixed-citation xml:lang="en">Качурова Е. С., Суслова С. И. Специальность 12.00.08: статистическое исследование тематики и количества диссертационных работ, представленных к защите // Пролог: журнал о праве. 2018. № 3. С. 54-60. DOI 10.21639/2313-6715.2018.3.8</mixed-citation></citation-alternatives></ref><ref id="cit4"><label>4</label><citation-alternatives><mixed-citation xml:lang="ru">Данилов Г. В. и др. Сравнительный анализ статистических методов классификации научных публикаций в области медицины // Компьютерные исследования и моделирование. 2020. Т. 12, № 4. С. 921-933. DOI 10.20537/2076-7633-2020-12-4-921-933</mixed-citation><mixed-citation xml:lang="en">Данилов Г. В. и др. Сравнительный анализ статистических методов классификации научных публикаций в области медицины // Компьютерные исследования и моделирование. 2020. Т. 12, № 4. С. 921-933. DOI 10.20537/2076-7633-2020-12-4-921-933</mixed-citation></citation-alternatives></ref><ref id="cit5"><label>5</label><citation-alternatives><mixed-citation xml:lang="ru">Васенин В. А. и др. Интеллектуальная система тематического исследования научно-технической информации (ИСТИНА) // Информационное общество. 2013. Т. 1, № 03. С. 21-30.</mixed-citation><mixed-citation xml:lang="en">Васенин В. А. и др. Интеллектуальная система тематического исследования научно-технической информации (ИСТИНА) // Информационное общество. 2013. Т. 1, № 03. С. 21-30.</mixed-citation></citation-alternatives></ref><ref id="cit6"><label>6</label><citation-alternatives><mixed-citation xml:lang="ru">Бородин А. И., Вейнберг Р. Р., Литвишко О. В. Методы обработки текста при создании чат-ботов // Хуманитарни Балкански изследвания. 2019. Т. 3, № 3 (5). DOI 10.34671/ SCH.HBR.2019.0303.0026</mixed-citation><mixed-citation xml:lang="en">Бородин А. И., Вейнберг Р. Р., Литвишко О. В. Методы обработки текста при создании чат-ботов // Хуманитарни Балкански изследвания. 2019. Т. 3, № 3 (5). DOI 10.34671/ SCH.HBR.2019.0303.0026</mixed-citation></citation-alternatives></ref><ref id="cit7"><label>7</label><citation-alternatives><mixed-citation xml:lang="ru">Artama M., Sukajaya I. N., Indrawan G. Classification of official letters using TF-IDF method. Journal of Physics: Conference Series, 2020, vol. 1516, no. 1, p. 012001-012001. DOI 10.1088/1742-6596/1516/1/012001</mixed-citation><mixed-citation xml:lang="en">Artama M., Sukajaya I. N., Indrawan G. Classification of official letters using TF-IDF method. Journal of Physics: Conference Series, 2020, vol. 1516, no. 1, p. 012001-012001. DOI 10.1088/1742-6596/1516/1/012001</mixed-citation></citation-alternatives></ref><ref id="cit8"><label>8</label><citation-alternatives><mixed-citation xml:lang="ru">Grohe M. Word2vec, node2vec, graph2vec, x2vec: Towards a theory of vector embeddings of structured data. In: Proceedings of the 39th ACM SIGMOD-SIGACT-SIGAI Symposium on Principles of Database Systems, 2020, p. 1-16. DOI 10.1145/3375395.3387641</mixed-citation><mixed-citation xml:lang="en">Grohe M. Word2vec, node2vec, graph2vec, x2vec: Towards a theory of vector embeddings of structured data. In: Proceedings of the 39th ACM SIGMOD-SIGACT-SIGAI Symposium on Principles of Database Systems, 2020, p. 1-16. DOI 10.1145/3375395.3387641</mixed-citation></citation-alternatives></ref><ref id="cit9"><label>9</label><citation-alternatives><mixed-citation xml:lang="ru">Жилина Е. В. Использование бинарной логистической регрессии для оценки качества адаптивного теста // Вестник Томского государственного университета. 2010. № 334. С. 106-109.</mixed-citation><mixed-citation xml:lang="en">Жилина Е. В. Использование бинарной логистической регрессии для оценки качества адаптивного теста // Вестник Томского государственного университета. 2010. № 334. С. 106-109.</mixed-citation></citation-alternatives></ref><ref id="cit10"><label>10</label><citation-alternatives><mixed-citation xml:lang="ru">Попова Е. П., Леоненко В. Н. Прогнозирование реакции пользователей в социальных сетях методами машинного обучения // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20, № 1. С. 118-124. DOI 10.17586/2226-1494-2020-20-1-118-124</mixed-citation><mixed-citation xml:lang="en">Попова Е. П., Леоненко В. Н. Прогнозирование реакции пользователей в социальных сетях методами машинного обучения // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20, № 1. С. 118-124. DOI 10.17586/2226-1494-2020-20-1-118-124</mixed-citation></citation-alternatives></ref><ref id="cit11"><label>11</label><citation-alternatives><mixed-citation xml:lang="ru">Yang F. et al. How do visual explanations foster end users' appropriate trust in machine learning? In: Proceedings of the 25th International Conference on Intelligent User Interfaces, 2020, p. 189-201. DOI 10.1145/3377325.3377480</mixed-citation><mixed-citation xml:lang="en">Yang F. et al. How do visual explanations foster end users' appropriate trust in machine learning? In: Proceedings of the 25th International Conference on Intelligent User Interfaces, 2020, p. 189-201. DOI 10.1145/3377325.3377480</mixed-citation></citation-alternatives></ref><ref id="cit12"><label>12</label><citation-alternatives><mixed-citation xml:lang="ru">Collaris D., Wijk J. J. van. ExplainExplore: Visual Exploration of Machine Learning Explanations. In: IEEE Pacific Visualization Symposium (PacificVis), 2020, p. 26-35. DOI 10.1109/ PacificVis48177.2020.7090</mixed-citation><mixed-citation xml:lang="en">Collaris D., Wijk J. J. van. ExplainExplore: Visual Exploration of Machine Learning Explanations. In: IEEE Pacific Visualization Symposium (PacificVis), 2020, p. 26-35. DOI 10.1109/ PacificVis48177.2020.7090</mixed-citation></citation-alternatives></ref></ref-list><fn-group><fn fn-type="conflict"><p>The authors declare that there are no conflicts of interest present.</p></fn></fn-group></back></article>
