Разработка нейронных моделей распознавания речи и суммаризации текста туркменского языка

Очеретин Максим Павлович
Казахский национальный университет имени аль-Фараби, 4 курс бакалавр


Аннотация

В данной работе представлена разработка системы нейронных моделей для автоматического распознавания речи (ASR) и суммаризации текста туркменского языка – малоресурсного языка с агглютинативной морфологией. Для задачи ASR применялась модель MMS-1b-all (Meta) с LoRA-адаптацией и CTC-декодированием, дообученная на корпусе Common Voice (2733 примера). Для суммаризации использовалась модель mBART-50-large с токенизацией под туркменский язык, обученная на корпусе новостных текстов (10 248 примеров). Достигнуты результаты: WER = 17.59% для ASR (базовая модель: 107.33%) и ROUGE-L = 0.4255 для суммаризации (zero-shot baseline: 0.2294). Разработанная система может применяться для автоматизации протоколирования совещаний и обработки текстовых данных на туркменском языке.

Ключевые слова: туркменский язык, распознавание речи, суммаризация текста, transfer learning, LoRA, MMS, mBART, малоресурсные языки, нейронные сети.

  1. Введение

Туркменский язык относится к тюркской группе и насчитывает около 7 миллионов носителей [1]. Язык характеризуется агглютинативной морфологией – образованием слов путём последовательного присоединения аффиксов к корню, что создаёт высокую вариативность словоформ и существенно усложняет задачи автоматической обработки речи и текста. Туркменский язык относится к категории малоресурсных: объём доступных размеченных данных значительно уступает широко распространённым языкам, что ограничивает применимость стандартных подходов.

Актуальность работы обусловлена отсутствием качественных систем ASR и суммаризации для туркменского языка. Существующие многоязычные модели – в частности, Whisper (OpenAI) и turkic-asr – демонстрируют WER порядка 100-120% и 70–80% соответственно, что делает их практически непригодными для применения. Цель данной работы – разработка эффективной системы обработки туркменской речи и текста на основе методов трансферного обучения (transfer learning) и parameter-efficient fine-tuning.

Туркменский язык обладает рядом лингвистических особенностей, существенно усложняющих автоматическую обработку. Агглютинативная морфология обусловливает высокую вариативность словоформ: одно базовое слово может порождать десятки форм за счёт последовательного присоединения аффиксов. Например: kitap (книга) → kitaplar (книги) → kitaplarda (в книгах) → kitaplarymyzyň (наших книг). Вокальная гармония определяет выбор суффиксов в зависимости от качества гласных корня (mekdepler / kitaplar). Относительно свободный порядок слов усложняет синтаксический анализ. Совокупность этих факторов делает туркменский язык одним из наиболее трудных для автоматической обработки в тюркской группе.

Существующие многоязычные системы демонстрируют неприемлемое качество для туркменского языка: Whisper (OpenAI) – WER 100–120%, специализированная система turkic-asr – WER 70–80%. Настоящая работа направлена на преодоление данного разрыва посредством целевой адаптации современных многоязычных моделей к особенностям туркменского языка.

  1. RELATED WORK

Автоматическое распознавание речи для малоресурсных языков. Исследования в области ASR для малоресурсных языков активно развиваются с появлением крупных мультиязычных предобученных моделей. Whisper [10] демонстрирует высокое качество для языков с богатой представленностью в обучающей выборке, однако для туркменского языка WER достигает 100–120% ввиду его отсутствия в корпусе. Модель MMS [8] расширила ASR до 1100+ языков за счёт языковых адаптеров; работа Pratap et al. (2023) показала, что адаптеры родственных языков ускоряют сходимость при дообучении. Mussakhojayeva et al. [12] исследовали мультиязычное ASR для тюркских языков, однако туркменский в их работе явно не рассматривался.

Parameter-efficient fine-tuning. Метод LoRA [13], предложенный Hu et al. (2022), широко применяется для адаптации больших языковых моделей при ограниченных ресурсах. Ряд работ подтвердил эффективность LoRA именно для малоресурсных сценариев, где полное дообучение ведёт к переобучению.

Суммаризация текста для малоресурсных языков. Обзор методов суммаризации представлен в [17]. Модель mBART-50 [23] применялась для задач машинного перевода и суммаризации в многоязычном контексте; Tang et al. (2020) показали, что прокси-язык (типологически близкий) позволяет переносить знания на неохваченные языки. Специализированных публично доступных систем суммаризации туркменских текстов на момент написания работы не существует, что подчёркивает новизну настоящего исследования.

  1. ТЕОРИТИЧЕСКИЕ ОСНОВЫ

3.1 Архитектура wav2vec 2.0 и модель MMS

Модель wav2vec 2.0 [11] представляет собой самообучаемую архитектуру, состоящую из двух компонентов: сверточного энкодера, извлекающего локальные акустические признаки из аудиосигнала, и трансформерного энкодера из 48 слоёв, моделирующего долгосрочные контекстные зависимости. Предобучение осуществляется на неразмеченных аудиоданных: часть выходов сверточного энкодера маскируется, трансформерный энкодер обучается предсказывать квантизованные представления замаскированных фрагментов из набора кандидатов. Данная контрастивная задача позволяет извлекать богатые акустические представления без использования разметки, что критически важно для малоресурсных языков.

Модель MMS-1b-all (Massively Multilingual Speech) [8] расширяет wav2vec 2.0 до поддержки более 1100 языков посредством языковых адаптеров – специализированных модулей, встроенных внутрь каждого трансформерного блока. При активации адаптеров целевого языка основные веса модели остаются неизменными, что обеспечивает языковую специфику при сохранении межъязыковых акустических закономерностей. Декодирование реализовано через механизм CTC [9], позволяющий получать текстовые последовательности без авторегрессивной генерации.

3.2 Методология LoRA

          Метод Low-Rank Adaptation (LoRA) [13] относится к классу parameter-efficient fine-tuning и позволяет адаптировать большие предобученные модели при минимальном числе обучаемых параметров. Для каждой матрицы весов W ∈ ℝ^(d×k) добавляется произведение двух матриц низкого ранга: ΔW = BA, где B ∈ ℝ^(d×r), A ∈ ℝ^(r×k), r ≪ min(d,k). Исходные веса заморожены; обучаются только матрицы A и B. При выборе ранга r=8 число обучаемых параметров сокращается на несколько порядков по сравнению с полным дообучением. В данной работе LoRA применялась к матрицам проекций механизма внимания (q_proj, v_proj, k_proj, out_proj), что позволило ограничить долю обучаемых параметров до 0.41% от общего числа (3.93 млн из 968 млн).

Применение LoRA для малоресурсных языков обосновано тремя факторами: предотвращение переобучения на малом корпусе, сохранение межъязыковых знаний базовой модели, существенное снижение вычислительных затрат на обучение.

3.3 Архитектура mBART-50 и подход к суммаризации

          Модель mBART-50-large [23] реализует полноценную encoder-decoder архитектуру на основе Transformer [7] с 1.38 млрд параметров. Энкодер формирует контекстное представление входного документа, декодер авторегрессивно генерирует выходную последовательность. Предобучение осуществляется методом denoising autoencoder на одноязычных текстах 50 языков: к исходным последовательностям применяются виды шума (удаление токенов, перестановка предложений, маскирование фрагментов), модель обучается восстанавливать исходный текст. В отличие от масочного предобучения BERT, denoising-задача задействует весь encoder-decoder стек, непосредственно готовя модель к генеративным задачам.

Токенизация в mBART-50 реализована алгоритмом BPE [3] посредством библиотеки SentencePiece [4]. Объём словаря – 250 054 токена – обеспечивает покрытие символов тюркских языков, включая большинство специфических символов туркменского алфавита (ä, ö, ü, ý, ş, ç, ň). Субсловное разбиение принципиально важно для агглютинативного туркменского языка: пословная токенизация порождала бы чрезмерно большой словарь, тогда как BPE компактно представляет морфологически сложные формы через комбинации общих подслов.

  1. 4. Методология

4.1 Модель распознавания речи

В качестве базовой модели для задачи ASR была выбрана MMS-1b-all (Massively Multilingual Speech) [8] от Meta AI – модель на архитектуре wav2vec 2.0 [11], предобученная на более чем 1100 языках. Ключевое преимущество MMS – языковые адаптеры, позволяющие эффективно переносить знания между языками. В качестве стартовой точки использовались адаптеры турецкого языка (target_lang=»tur») как наиболее близкого тюркского языка в составе MMS.

При выборе базовой модели для задачи ASR рассматривались четыре кандидата: Whisper large-v3 (OpenAI), turkic-asr, wav2vec 2.0 large и MMS-1b-all. Оценка проводилась в режиме zero-shot на тестовой выборке Common Voice без дообучения на туркменских данных.

 Таблица 1 — Сравнение базовых моделей ASR на туркменских тестовых данных (zero-shot)

Модель WER(%) CER(%) BLEU chrF2 Примечание
Whisper large-v3 100-120 ~35 Туркменский не поддерживается
turkic-asr 70-80 ~18 Тюркские языки, без туркменского
wav2vec 2.0 large ~95 ~27 Без языковой адаптации
MMS-1b-all ~107 ~30 0.96 38.03 Адаптеры тюркских языков

Несмотря на то что MMS-1b-all не показал наилучшего WER в zero-shot режиме среди рассматриваемых систем, выбор был обусловлен совокупностью критериев. Во-первых, архитектура языковых адаптеров позволяет изолировать чувствительные к языку параметры и дообучать их целенаправленно, не затрагивая общие акустические представления, накопленные при предобучении на 1100+ языках. Во-вторых, в качестве стартовой точки использовались адаптеры турецкого языка (target_lang=»tur») как типологически ближайшего тюркского языка в составе MMS: оба языка принадлежат к огузской ветви тюркской семьи и обладают схожей фонологической системой и агглютинативной морфологией. Инициализация адаптерами родственного языка вместо случайной инициализации ускоряет сходимость и улучшает итоговое качество при ограниченном числе обучающих примеров. В-третьих, архитектура wav2vec 2.0 в основе MMS хорошо зарекомендовала себя в условиях малых объёмов размеченных данных, что критически важно при наличии лишь 2733 обучающих примеров.

Для дообучения применялась методология LoRA (Low-Rank Adaptation) [13]: низкоранговые матрицы добавлялись к проекциям механизма внимания (q_proj, v_proj, k_proj, out_proj) с рангом r=8, alpha=32. Основные веса модели оставались замороженными, сверточный энкодер также не обновлялся. Доля обучаемых параметров составила 0.41% от общего числа (3.93 млн из 968 млн), что позволило избежать переобучения на малом корпусе.

Обучающий корпус формировался на основе Mozilla Common Voice [14]: 734 примера из train-раздела и 1999 примеров из validated-раздела, итого 2733 обучающих примера; валидационная выборка – 522 примера, тестовая – 516. Средняя длительность аудиозаписей составляет 4–6 секунд. Все аудиофайлы приводились к частоте дискретизации 16 кГц с нормализацией амплитуды. Текстовые метки нормализовались: приводились к нижнему регистру, удалялись символы вне туркменского алфавита.

Исходный словарь модели (турецкий адаптер) содержал 76 токенов и не включал четыре специфических туркменских символа: ý, ň, ä, ž. Данные символы критически важны для корректной транскрипции и встречаются в значительной доле слов. Токены были добавлены, словарь расширен до 80 позиций. Выходной слой lm_head переинициализирован с сохранением весов для исходных 76 токенов и случайной инициализацией для четырёх новых.

Таблица 2 – Параметры обучения ASR-модели

Параметр Значение
Базовая модель facebook/mms-1b-all
Стартовые адаптеры Турецкий (tur)
LoRA ранг (r) 8
LoRA alpha 32
LoRA dropout 0.1
LoRA target modules q_proj, v_proj, k_proj, out_proj
Обучаемых параметров 3.93 млн (0.41%)
Число эпох 30
Batch size (per device) 4
Gradient accumulation 4 step
Эффективный batch size 16
Learning rate 1×10⁻⁴
Warmup ratio 0.1
Оптимизация AdamW
Функция потерь CTC-loss
Precision f16

4.2 Модель суммаризации текста

Для задачи суммаризации была выбрана модель mBART-50-large [23] от Meta – полноценная encoder-decoder архитектура с многоязычным словарём объёмом 250 054 токена, предобученная на текстах 50 языков методом denoising. Турецкий язык (tr_TR) использовался как прокси для туркменского – типологически близкого языка, представленного в словаре mBART-50. Токенизация осуществлялась субсловным алгоритмом BPE (SentencePiece [4]), обеспечивающим устойчивость к высокой морфологической вариативности туркменского языка.

При выборе модели суммаризации рассматривались следующие кандидаты: T5, mT5, BART, PEGASUS и mBART-50-large.

Таблица 3 — Сравнение кандидатов для задачи суммаризации

Модель Многоязыность Тюркская поддержка Архитектура Словарь
T5 Нет Нет Encoder-decoder 32000
BART Нет Нет Encoder-decoder 50265
mT5 Нет Нет Encoder-decoder 96103
PEGASUS Да Частично Encoder only 250100
Mbart Да (tr_TR) Encoder-decoder 250054

Модели T5, BART и PEGASUS были исключены ввиду отсутствия многоязычной поддержки: их словари не охватывают специфические символы туркменского алфавита, что делает корректную обработку туркменских текстов невозможной без полной переработки токенизатора. Модель mT5, несмотря на многоязычность и охват 101 языка, использует исключительно энкодерное предобучение без явной генеративной цели, что требует значительной дополнительной адаптации для абстрактивной суммаризации и снижает качество генерации по сравнению с полноценными encoder-decoder моделями. Модель mBART-50-large была выбрана по совокупности критериев: поддержка турецкого языка в качестве прокси для туркменского, развитый многоязычный словарь объёмом 250 054 токенов на основе BPE, охватывающий большинство специфических символов туркменского алфавита, и полноценная encoder-decoder архитектура с denoising-предобучением, оптимальная для абстрактивной суммаризации.

Данные собирались с новостного портала orient.tm – одного из немногих регулярно обновляемых ресурсов с туркменскоязычным контентом. Структура новостных статей позволяет автоматически формировать пары «документ – резюме» без ручной разметки: полный текст статьи выступает документом, заголовок – целевым резюме. Исходный корпус содержал 14 991 запись.

Для оценки качества туркменских текстов введён показатель turkmen_score – доля символов туркменского алфавита в общем числе буквенных символов (диапазон 0–1). После фильтрации по доле туркменских символов (turkmen_score ≥ 0.29) и удаления слишком коротких текстов итоговый корпус составил 12 809 записей: 10 248 обучающих (80%), 1280 валидационных (10%), 1281 тестовых (10%). Средняя длина документа – 1655 символов, резюме – 84 символа.  Токенизация: максимум 512 токенов для входа и 128 для выхода. Обучение: 3 эпохи, AdamW (8-bit), lr=3×10⁻⁵, fp16, gradient accumulation steps=8.

Таблица 4 — Характеристики корпуса суммаризации

Параметр Значение
Источник данных orient.tm
Исходный размер корпуса 14 991 запись
Порог фильтрации (turkmen_score) ≥ 0.29
Итоговый размер корпуса 12809 записей
Обучающая выборка 10248(80%)
Валидационная выборка 1280 (10%)
Тестовая выборка 1281 (10%)
Средняя длина документа 1655 символов
Средняя длина резюме 84 символа
Средний turkmen_score 0.454
  1. 5. Архитектура системы

Разработанная система представляет собой двухэтапный конвейер обработки туркменской речи и текста. На первом этапе аудиосигнал (WAV/MP3, 16 кГц) подаётся на вход ASR-модели, которая преобразует его в текстовую последовательность без пунктуации. На втором этапе текст токенизируется и передаётся в модель суммаризации, формирующую краткое резюме длиной до 128 токенов. Взаимодействие между компонентами осуществляется через текстовый интерфейс; каждый компонент может использоваться независимо.

Ключевое архитектурное решение — устойчивость модели суммаризации к отсутствию пунктуации на входе, что обусловлено её предобучением на зашумленных последовательностях (denoising). Эксперименты подтвердили приемлемое качество суммаризации даже при отсутствии знаков препинания в тексте ASR-вывода. Сравнительные характеристики компонентов представлены в таблице 5.

Таблица 5 – Сравнительные характеристики компонентов системы

Характеристика ASR-модель Модель суммаризации
Базовая модель MMS-1b-all (Meta) mBART-50-large (Meta)
Число параметров 968 млн 1380 млн
Метод обучения LoRA (r=8) Full fine-tunning
Обучающий корпус Common Voice (2733 прим.) orient.tm  (10 248 прим.)
Язык прокси Турецкий (tur) Турецкий (tr_TR)
Входной формат Аудио 16 кГц Текст до 512 токенов
Выходной формат Текст (без пунктуации) Текст до 128 токенов
Основная метрика chrF2 Rouge-L

 6. Эксперименты и результаты

6.1 Результаты распознавания речи

Оценка проводилась на тестовой выборке из 516 примеров Common Voice. Сравнение базовой модели (без дообучения) и дообученной приведено в таблице 1.

Таблица 6 Сравнение ASR-моделей на тестовой выборке

Модель WER CER BLEU chrF2
MMS-1b-all (без дообучения) 107.33% 29.65% 0.96 38.03
MMS-1b-all + LoRA (дообученная) 17.59% 3.13% 65.26 91.47
Относительное улучшение −89.74 −26.52 +64.3 +53.44

Процесс обучения демонстрировал устойчивую сходимость на протяжении 30 эпох. Тренировочные потери снизились с 1.94 (шаг 500) до 0.97 (шаг 5000). WER на валидационной выборке уменьшился с 40.9% до 23.2%, признаки переобучения отсутствовали

Дообученная модель достигла WER = 17.59% против 107.33% у базовой, что соответствует снижению на 89.74 процентных пункта. Динамика обучения демонстрировала устойчивую сходимость без признаков переобучения: WER на валидационной выборке снизился с 40.9% (шаг 500) до 23.2% (шаг 5000).  Для эталонной транскрипции «ejesi görgüli ýol boýy ogluna guwanyp geldi» дообученная модель воспроизвела текст точно (WER = 0%). Базовая модель выдала «ece su görgülü yol voy o lin uvonup keldi» (WER = 128.57%), что наглядно иллюстрирует критическую роль специализированной адаптации.

6.2 Результаты суммаризации текста

Оценка проводилась на тестовой выборке из 1281 примера. Использовались метрики ROUGE [24] и BERTScore [25]. Результаты представлены в таблице 2.

Таблица 7 Сравнение моделей суммаризации

Модель ROUGE-1 ROUGE-2 ROUGE-L BERTScore
mBART-50 (zero-shot) 0.2608 0.1577 0.2294 0.6193
mBART-50 (дообученная) 0.4467 0.3066 0.4255 0.7115
Относительный прирост +71.25% +94.44% +85.45% +14.90%

ROUGE-L на валидационной выборке вырос с 0.0003 (шаг 500) до 0.401 (шаг 3500). Резкий рост после шага 500 объясняется периодом адаптации модели к туркменскому языку после турецкой инициализации; к шагу 1000 ROUGE-L уже составлял 0.371.

Дообученная модель достигла ROUGE-L = 0.4255 по сравнению с 0.2294 для zero-shot baseline (+85.45%). По метрике ROUGE-2 зафиксирован наибольший относительный прирост – +94.44%. В 82.83% случаев дообученная модель превзошла zero-shot baseline по ROUGE-L. Анализ по группам turkmen_score показал, что наибольший абсолютный прирост ROUGE-L (+0.2108) наблюдается на текстах со средним содержанием туркменских символов (0.29-0.5).

Наибольший абсолютный прирост ROUGE-L (+0.2108) наблюдается на текстах со средним содержанием туркменских символов (turkmen_score 0.29–0.5, 684 из 802 примеров улучшены). На текстах с высоким turkmen_score (≥0.7) прирост несколько ниже (+0.1278), что объясняется меньшим числом таких примеров в обучающей выборке (59 примеров в тесте).

В наилучшем случае (пример №877, turkmen_score = 0.33) дообученная модель точно воспроизвела заголовок «Gyrgyzystanda çig nebitiň çykarylyşynyň möçberi artdy» (ROUGE-L = 1.0), тогда как zero-shot модель сгенерировала описание с числовыми данными (ROUGE-L = 0.068). В 13.43% случаев наблюдалось ухудшение – преимущественно на текстах с высокой долей иноязычных вставок.

6.3 Качественный анализ суммаризации текста

Для иллюстрации различий между моделями приведены три характерных примера из тестовой выборки.

Пример 1 – Fine-tuned модель точно воспроизводит заголовок (успешный случай)

  Текст
Источник (начало) Gyrgyzystanda çig nebitiň çykarylyşynyň möçberi artdy – diýip, Trend bu ýurduň statistika maglumatlarynyň çeşmesine salgylanyp, habar berýär. Şeýlelikde, 2023-nji ýylyň ýanwar-fewral aýlarynda…
Эталон Gyrgyzystanda çig nebitiň çykarylyşynyň möçberi artdy
Zero-shot Aziýa ýurdunyň nebit ýataklaryndan 93 müň 800 tonna çig nebit alnypdy. Jemi 2022-nji ýylda Gyrgyzystanda gara altynyň çykarylmagy 295 müň 100 tonna deň boldy…
Fine-tuned Gyrgyzystanda çig nebitiň çykarylyşynyň möçberi artdy
ROUGE-L 0.068 → 1.000
BERTScore 0.609 → 1.000

Zero-shot модель генерирует описательный фрагмент с конкретными числами из тела статьи, не улавливая заголовочную структуру. Дообученная модель точно воспроизводит эталонный заголовок. Это типичный случай для 84.3% тестовой выборки, где fine-tuned превосходит zero-shot по ROUGE-L.

Пример 2 – Zero-shot модель превосходит fine-tuned (случай ухудшения)

Текст
Источник (начало) USAID-iň Häzirki zaman hünärleri ösdürmek taslamasy «Sanly Bilim» kompaniýasy bilen bilelikde «TechYouth Bootcamp» maksatnamasynyň amala aşyrýandygy barada habar berýär…
Эталон USAID-iň Häzirki zaman hünärleri ösdürmek taslamasy «Sanly Bilim» kompaniýasy bilen bilelikde «TechYouth Bootcamp» maksatnamasynyň amala aşyrýandygy barada habar berýär
Zero-shot USAID-iň Häzirki zaman hünärleri ösdürmek taslamasy «Sanly Bilim» kompaniýasy bilen bilelikde «TechYouth Bootcamp» maksatnamasynyň amala aşyrýandygy barada habar berýär…
Fine-tuned USAID Türkmenistanyň raýatlaryna «TechYouth Bootcamp» maksatnamasyna gatnaşyp bilerler
ROUGE-L 0.636 → 0.154
BERTScore 0.820 → 0.691

Эталонный заголовок в данном случае почти дословно совпадает с первым предложением статьи. Zero-shot модель фактически воспроизводит начало текста, что механически даёт высокий ROUGE. Дообученная модель генерирует семантически корректное, но более краткое резюме, которое по форме расходится с эталоном. Этот паттерн объясняет большинство из 15.7% случаев, где fine-tuned уступает по ROUGE-L.

Пример 3 – Сопоставимое качество, разные стратегии генерации (пограничный случай)

Текст
Источник (начало) Qingdao Relong Technology Co., Ltd. hytaý kompaniýasy Hazar şäheriniň golaýynda Hazar deňziniň kenarynda düýbi çuňlaşdyrmak işleriniň geçirilmegi üçin läbik sorujy dredgingi Türkmenistana iberdi…
Эталон Hytaý kompaniýasy Türkmenistana Hazaryň düýbüni çuňlaşdyrmak işleri üçin läbik sorujy snarýady iberdi
Zero-shot Qingdao Relong Technology Co., Ltd. hytaý kompaniýasy Hazar şäheriniň golaýynda Hazar deňziniň kenarynda düýbi çuňlaşdyrmak işleriniň geçirilmegi üçin läbik sorujy dredgingi Türkmenistana iberdi
Fine-tuned Hazar deňziniň kenarynda düýbi çuňlaşdyrmak üçin sorujy dredgingi Türkmenistana iberdiler
ROUGE-L 0.342 / 0.333
BERTScore 0.686 → 0.737

ROUGE-L практически идентичен у обеих моделей, однако стратегии кардинально отличаются. Zero-shot копирует первое предложение почти дословно, включая полное название компании. Fine-tuned генерирует более компактное резюме в заголовочном стиле, опуская лишние детали – что подтверждается более высоким BERTScore (0.737 vs 0.686). Этот пример демонстрирует ограничение метрики ROUGE при оценке абстрактивной суммаризации.

  1. 7. Обсуждение результатов

7.1 Comparison

Достигнутый WER = 17.59% представляет принципиальный прогресс на фоне существующих систем. Whisper (zero-shot) демонстрирует WER ≈ 100–120% для туркменского языка – это объясняется минимальной представленностью туркменских данных в его обучающей выборке из 680 тыс. часов. Система turkic-asr, ориентированная на тюркские языки, показывает WER ≈ 70–80%, однако туркменский в явном виде в неё не включён. Разработанная (fine-tuned) модель превосходит оба аналога в 4–7 раз при использовании лишь 2733 обучающих примеров. Это подтверждает ключевой тезис работы: для малоресурсных языков предобученные многоязычные модели с языковыми адаптерами в сочетании с parameter-efficient fine-tuning эффективнее полностью supervized подходов с большими корпусами, но без языковой специализации.

Для суммаризации прямое сравнение с другими системами затруднено ввиду отсутствия публично доступных моделей суммаризации туркменских текстов. Показатель ROUGE-L = 0.4255 сопоставим с результатами для других малоресурсных языков при аналогичном объёме данных. Рост BERTScore с 0.6193 до 0.7115 свидетельствует о значительном улучшении семантического качества, что выходит за рамки поверхностного лексического совпадения, измеряемого ROUGE.

7.2 Limitations

Система имеет ряд ограничений. Во-первых, корпус ASR (2733 примера) ограничен, что снижает устойчивость к диалектным вариантам и специфической лексике. Во-вторых, использование заголовков новостных статей как эталонных резюме вносит систематическое смещение: тонко настроенная модель суммаризации генерирует заголовочные конструкции, отличающиеся от профессиональных аннотаций по стилю. В-третьих, ASR-модель не восстанавливает пунктуацию, что требует постобработки при сквозном применении.

Анализ ошибок ASR. Качественный анализ ошибок дообученной модели выявил несколько характерных паттернов. Наиболее частый тип ошибок – замена специфических туркменских символов (ý, ň, ä, ž) на фонетически близкие символы латинского алфавита, встречающиеся в турецком языке: например, ý заменяется на y, ň на n. Это объясняется ограниченным числом обучающих примеров, содержащих данные символы, и их относительной редкостью в корпусе Common Voice. Второй тип ошибок – пропуски коротких служебных слов (частицы, послелоги), что типично для CTC-декодирования при высокой скорости речи. Третий тип – смешение фонетически близких звуков в диалектных произношениях, не представленных в обучающей выборке. Перечисленные типы ошибок указывают на два приоритетных направления улучшения: расширение обучающего корпуса примерами с высокой частотой специфических символов и включение диалектных данных.

Анализ ошибок суммаризации. В 13.43% случаев по метрике ROUGE-L дообученная модель уступила zero-shot baseline. Детальный анализ показал, что ухудшение преимущественно наблюдается на трёх типах примеров: тексты с низким turkmen_score (высокая доля иноязычных вставок), очень короткие документы (менее 150 символов), где заголовок воспроизводит практически весь текст дословно, и тексты с именами собственными и числовыми данными, где zero-shot модель случайно воспроизводила числа из начала статьи, совпадая с эталонным заголовком. В целом, дообученная модель формирует более компактные и структурно корректные резюме, что подтверждается ростом BERTScore (+14.90%) даже в тех случаях, когда ROUGE-L незначительно снижается.

7.3 Future Work

Перспективными направлениями развития являются: расширение корпуса ASR за счёт радиовещания и диалектных записей; создание профессионально аннотированного корпуса суммаризации; интеграция модуля восстановления пунктуации между компонентами конвейера; исследование лёгких архитектур для работы в режиме реального времени на ресурсоограниченных устройствах.

Заключение

В работе разработана система нейронных моделей для распознавания речи и суммаризации текста туркменского языка. Применение transfer learning с LoRA-адаптацией к модели MMS-1b-all обеспечило снижение WER с 107.33% до 17.59%. Дообучение mBART-50-large на новостном корпусе позволило достичь ROUGE-L = 0.4255 (+85.45% к zero-shot baseline). Разработанная система реализует полноценный конвейер от аудиосигнала до текстового резюме и может применяться для автоматизации протоколирования совещаний и обработки аудио- и текстовых данных на туркменском языке. Полученные результаты демонстрируют, что грамотное использование современных методов трансферного обучения позволяет строить эффективные системы обработки речи и текста для малоресурсных языков даже при существенном дефиците размеченных данных. Разработанный подход применим к другим малоресурсным языкам тюркской группы – казахскому, уйгурскому, туркменскому – и может служить методологической основой для аналогичных исследований.

Список использованной литературы

  1. Ethnologue: Languages of the World. Turkmen. – URL: https://www.ethnologue.com/language/tuk
  2. Johanson L., Csató É. The Turkic Languages. – Routledge, 1998.
  3. Sennrich R. et al. Neural Machine Translation of Rare Words with Subword Units // ACL. – 2016.
  4. Kudo T., Richardson J. SentencePiece // EMNLP. – 2018.
  5. Vaswani A. et al. Attention is All You Need // NeurIPS. – 2017.
  6. Pratap V. et al. Scaling Speech Technology to 1,000+ Languages // Meta AI. – 2023.
  7. Graves A. et al. Connectionist Temporal Classification // ICML. – 2006.
  8. Radford A. et al. Robust Speech Recognition via Large-Scale Weak Supervision // ICML. – 2023.
  9. Baevski A. et al. wav2vec 2.0 // NeurIPS. – 2020.
  10. Mussakhojayeva S. et al. A Study of Multilingual End-to-End Speech Recognition for Turkic Languages // Interspeech. – 2022.
  11. Hu E. et al. LoRA: Low-Rank Adaptation of Large Language Models // ICLR. – 2022.
  12. Ardila R. et al. Common Voice // LREC. – 2020.
  13. Allahyari M. et al. Text Summarization Techniques // arXiv:1707.02268. – 2017.
  14. Tang Y. et al. Multilingual Translation with Extensible Multilingual Pretraining // arXiv:2008.00401. – 2020.
  15. Lin C.-Y. ROUGE // ACL Workshop. – 2004.
  16. Zhang T. et al. BERTScore // ICLR. – 2020.
  17. Wolf T. et al. HuggingFace Transformers // EMNLP. – 2020.

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Прокрутить вверх