Preview

Вестник НГУ. Серия: Информационные технологии

Расширенный поиск

Классификация научных текстов по специальностям методами машинного обучения

https://doi.org/10.25205/1818-7900-2022-20-2-27-36

Аннотация

Данная статья исследует экспериментальную задачу проблемы классификации научных текстовых материалов на основе методов машинного и глубокого обучения (Machine Learning & Deep Learning). Для решения задачи предложен метод классификации текстов, учитывающий предобработку и специфику научных текстовых материалов, позволяющий при использовании алгоритмов ML, повысить точность и быстродействие классификации текстов. Проведено исследование методов индексации и классификации по специальностям для базы научных текстовых материалов. Рассмотрены оценки качества алгоритмов ML и получены результаты сравнений классификации диссертационных работ по специальностям методами машинного обучения в рамках существующей обучающей выборки научных материалов.

Об авторах

Б. Б. Иномов
Таджикский технический университет им. акад. М. С. Осими
Таджикистан

Иномов Бехруз Бурхонович, докторант (Ph.D.), старший преподаватель кафедры цифровой экономики, Политехнический институт Таджикского технического университета имени академика М. С. Осими 

Худжанд

 



M. Тропманн-Фрик
Гамбургский университет прикладных наук
Германия

Marina Tropmann-Frick, профессор науки данных кафедры компьютерных наук, Гамбургский университет прикладных наук (HAW Hamburg)

Гамбург



Список литературы

1. Максудов Х. Т., Иномов Б. Б., Муллоджанов Н. М. Сравнительный анализ методов «дерево решений» и «случайный лес» – при определении специальности научных текстов // Вестник таджикского национального университета серия: естественных наук 2019. № 3. – Душанбе : ТНУ, 2019. С. 23–28.

2. Максудов Х. Т., Иномов Б. Б. Оценка эффективности методов k-ближайших соседей и логистической регрессии при определении специальности научных текстов // Политехнический Вестник серия: Интеллект. Инновации. Инвестиции. 4(48)2019. – Душанбе: ТТУ, 2019. С. 34–38.

3. Гусев П. Ю. Разработка системы классификации текстов по научным специальностям с применением методов машинного обучения // Вестник НГУ. Серия: Информационные технологии. 2021. Том 19, № 1

4. Данилов Г. В. и др. Сравнительный анализ статистических методов классификации научных публикаций в области медицины // Компьютерные исследования и моделирование. 2020. Т. 12, № 4. С. 921–933. DOI 10.20537/2076-7633-2020-12-4-921-933.

5. Научная электронная библиотека диссертаций и авторефератов: [Электронный ресурс]. URL: https://www.dissercat.com/ (дата обращения: 10-09-2018).

6. Kepa M., Szymanski J., Two stage SVM and kNN text documents classifier, In: Pattern Recognition and Machine Intelligence, Kryszkiewicz M. (Ed.), Lecture Notes in Computer Science, Vol. 9124, pp. 279–289, 2015.

7. Adeniyi D. A., Wei Z., Yongquan Y. Automated web usage data mining and recommendation system using K-Nearest Neighbor (KNN)classification method // Applied Computing and Informatics. – 2016. – Т. 12. – № 1. С. 90–108.

8. Baralis E., Cagliero L., Garza P. EnBay: A novel pattern-based Bayesian classifier, Tkde, vol. 25, no. 12, pp. 2780–2795, 2013.

9. Tang B. et al. A Bayesian classification approach using class-specific features for text categorization // IEEE Transactions on Knowledge and Data Engineering. – 2016. – Т. 28. – № 6. – С. 1602–1606.

10. Yoo J. Y., Yang D. Classification scheme of unstructured text document using TF-IDF and naive bayes classifier // Advanced Scienceand Technology Letters. – 2015–Т. 3. – С. 263–266.

11. Lilleberg J., Zhu Y., Zhang Y. Support vector machines and word2vec for text classification with semantic features // Cognitive Informatics & Cognitive Computing (ICCI* CC), 2015 IEEE 14th International Conference on. – IEEE, 2015. – С. 136–140

12. Barik R. C., Naik B. A Novel Extraction and Classification Technique for Machine Learning using Time Series and Statistical Approach, Computational Intelligence in Data Mining, vol. 3, pp. 217–228, 2015.

13. Liu Z., Lv X., Liu K., Shi S. Study on SVM compared with the other text classification methods, 2nd Int. Work. Educ. Technol. Comput. Sci. ETCS 2010, vol. 1, pp. 219–222, 2010.

14. Pliakos K., Geurts P., Vens C. Global multi-output decision trees for interaction prediction // Machine Learning. – 2018. – С. 1–25.

15. Иномов Б. Б. Ресурсы, код, результаты работы. [Электронный ресурс]. URL: https://drive.google.com/open?id=13SaeBHidtCPpOdXTmtlGMWiT_WwbkujG (дата обращения: 06.04.2019).

16. TF-IDF — Википедия. [Электронный ресурс]. URL: https://ru.wikipedia.org/wiki/TF-IDF (дата обращения: 06.04.2019).

17. Sklearn.feature_extraction.text.CountVectorizer. [Электронный ресурс]. URL: https://scikitlearn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html (дата обращения: 16-03-2019).


Рецензия

Для цитирования:


Иномов Б.Б., Тропманн-Фрик M. Классификация научных текстов по специальностям методами машинного обучения. Вестник НГУ. Серия: Информационные технологии. 2022;20(2):27-36. https://doi.org/10.25205/1818-7900-2022-20-2-27-36

For citation:


Inomov B., Tropmann-Frick M. Scientific Texts Classification by Speciality with Machine Learning Methods. Vestnik NSU. Series: Information Technologies. 2022;20(2):27-36. (In Russ.) https://doi.org/10.25205/1818-7900-2022-20-2-27-36

Просмотров: 134


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-7900 (Print)
ISSN 2410-0420 (Online)