Научный журнал "Вестник НГУ. Серия: Информационные технологии", который адресован научным работникам, профессорско-преподавательскому составу университетов и научных организаций, а также аспирантам и студентам. Журнал издается Факультетом информационных технологий Новосибирского государственного университета на основании решения ученого совета университета и свидетельства о регистрации средства массовой информации ФС по надзору в сфере связи, информационных технологий и массовых коммуникаций (ПИ № ФС77-40143 от 04.06.2010).
Текущий выпуск
Представлен итерационный численный метод решения обратной коэффициентной задачи для однородного эллиптического уравнения с интегро-дифференциальными граничными условиями в замкнутой области. Метод опирается на конечно-объемные аппроксимации дифференциальных и интегральных операторов на неструктурированных сетках, численное решение последовательности прямых задач при известном кусочно-постоянном распределении коэффициентов разностного эллиптического уравнения и сходящийся итеративно регуляризованный метод Гаусса – Ньютона. Разработанный метод решения обратных задач электроимпедансной томографии прошел тестирование на измерениях электрического напряжения, выполненных на экспериментальном стенде KIT в университете Восточной Финляндии. Получены близкие к реальным результатам реконструкции электрической проводимости внутри области исследования.
Автоматизация службы лучевой диагностики существенно повысила доступность радиологических исследований для точной диагностики заболеваний и травм. Вместе с тем расширение парка рентгенологического оборудования, внедрение телемедицины и сервисов поддержки врачебных решений на основе искусственного интеллекта требуют модернизации систем хранения и обработки изображений в уже существующих системах.
В данной статье представлен обзор современных методов сжатия радиологических изображений, которые обеспечивают более высокий коэффициент сжатия, улучшенное качество изображения и меньшее время кодирования/декодирования по сравнению со стандартами, предусмотренными спецификацией DICOM. Обзор научных публикаций позволяет заключить, что рентгенологические изображения обладают рядом особенностей, учет которых в алгоритмах сжатия позволяет улучшить показатели сжатия изображений. К таким особенностям относятся: высокая зашумленность, наличие локально симметричных областей (схожих участков), а также присутствие множества последовательных кадров в рамках одного исследования.
Применение современных подходов к сжатию данных способно повысить отказоустойчивость высоконагруженных медицинских систем и сократить затраты на хранение, передачу и обработку диагностических исследований.
Целью данной работы являлось исследование и реализация методов оптимизации (особенно методов прунинга) больших языковых моделей для задачи function calling, а также сравнение точности и скорости работы полученных моделей.
В качестве базовой модели была выбрана модель Mistral-7B. Для эффективной тренировки модели использовался датасет glaive-function-calling-v2, предназначенный для задачи function calling. Для обучения базовой модели использовалось квантование до 4 бит в формате nf4 и двойное квантование в сочетании с методом QLoRA (Quantized Low-Rank Adaptation).
Оптимизация модели проводилась несколькими способами: (1) с использованием метода ShortGPT, (2) с помощью критерия Тейлора для послойного прунинга, (3) методом LLM-Pruner, который отбрасывает параметры модели поканально, оставляя при этом количество слоев модели неизменным, и (4) методом PowerInfer, который использует свойство контекстуальной разреженности в больших языковых моделях. Для всех перечисленных способов оптимизации были построены оптимизированные модели, и проведено сравнение точности и скорости работы полученных моделей.
Результаты экспериментов показали, что наибольшая точность была достигнута на модели, которая была оптимизирована с помощью метода послойного прунинга по критерию Тейлора важности слоя. Для данного метода был проведен ряд экспериментов, в которых исследовалась разная расстановка гейтов внутри слоя декодера, а также различные способы агрегирования важности слоя на гейтах. По итогам экспериментов можно сделать вывод, что расстановка гейтов после блоков Multi-Head Attention и использование агрегирования важности с помощью L2-нормы вектора градиентов дают наибольшую точность по сравнению с другими возможными вариантами.
Научная значимость работы состоит в сравнении передовых методов прунинга, исходя из соотношения качество/скорость модели, и получении ускоренной версии модели для задачи function calling.
Оценка качества перевода является важной задачей в области компьютерной лингвистики. В данном исследовании рассматривается использование методов сжатия данных для оценки точности перевода путем выявления характерных языковых закономерностей. Традиционные методы оценки перевода основаны на анализе стилистических показателей и машинном обучении, однако на эти подходы часто влияют длина текста и предопределенные лингвистические особенности. Чтобы устранить эти ограничения, мы используем теоретико-информационный метод, основанный на сжатии данных.
Наша методология использует алгоритмы сжатия для анализа перевода с целью оценки качества. Мы оцениваем неосознанный стилистический вклад переводчиков, сравнивая несколько переводов одних и тех же литературных произведений. Кроме того, мы применяем классификацию на основе сжатия, чтобы различать оригинальные тексты на амхарском языке, тексты, переведенные человеком с амхарского на английский, и тексты, переведенные компьютером. В наших экспериментах мы использовали шесть оригинальных романов на амхарском языке для анализа авторских стилей, а для оценки качества перевода – известные произведения, переведенные как переводчиками-людьми, так и компьютерными переводчиками. Среди различных алгоритмов сжатия данных без потерь были протестированы следующие: Prediction by Partial Matching (PPM), кодирование Хаффмана, преобразование Барроуза – Уилера (BWT) и алгоритм Лемпеля – Зива – Маркова (LZMA) с целью оценки их эффективности. Согласно коэффициенту V Крамера, рассчитанному по результатам различных экспериментов, алгоритм Prediction by Partial Matching (PPM) показал наивысшую стабильность и поэтому был выбран для всех последующих анализов.
Результаты показывают, что алгоритм PPM достигает наивысшей точности классификации: коэффициент Крамера (V) составил 0,89 для авторских текстов на амхарском языке, 0,762 и 1 для текстов, переведенных человеком с английского на амхарский, 0,91 для текстов, переведенных компьютером с амхарского на английский, и 0,53 для задач компьютерного перевода с английского на амхарский.
Исследование демонстрирует, что методы сжатия данных обеспечивают жизнеспособный, не зависящий от языка подход к оценке качества перевода, особенно для языков с ограниченными ресурсами, таких как амхарский. Эти результаты подчеркивают потенциал теоретико-информационных методов в лингвистическом анализе и компьютерных исследованиях перевода.
В статье рассматривается блочный криптографический алгоритм с использованием двухкомпонентного общего секретного ключа, полученного по принципу ключевого обмена Диффи – Хеллмана на точках эллиптической кривой над полем Zp. Цель алгоритма – устранить недостатки отдельных классических алгоритмов и за счет их комбинирования повысить общую стойкость системы. Генерация и обмен ключами между пользователями осуществляются по типу эллиптических криптографических систем с открытым ключом. При этом предлагается два способа генерации общих секретных ключей для взаимодействующих пользователей: применение криптографического протокола Диффи – Хеллмана на нескольких точках эллиптической кривой или дополнительное использование рекуррентной формулы. Элементы шифрования в алгоритме представлены блоками в виде квадратных матриц, построенных на координатах точек эллиптической кривой. Собственно шифрование проходит в два этапа, на первом из которых используется поточное гаммирование с операцией вычисления кратной точки эллиптической кривой, а на втором проводится формирование матричных блоков и выполняется их матричное преобразование Хилла с использованием обратной связи. Каждый этап шифрования задействует соответствующий ему компонент общего секретного ключа пользователей: числовую гамма-последовательность или квадратную ключ-матрицу. Криптографическая стойкость алгоритма базируется на трудоемкости решения задачи дискретного логарифмирования на эллиптических кривых и защищенности сервиса совместного доступа с безопасной аутентификацией взаимодействующих пользователей. Блочная реализация второго этапа шифрования обеспечивает стойкость системы к частотному анализу. В качестве иллюстрации работы приведенного алгоритма в статье пошагово разбирается пример шифрования/дешифрования текстового сообщения.
ISSN 2410-0420 (Online)

