Метод (Русский)

Способ реализации проекта

Проект включает несколько этапов:

  1. Формирование языковых групп.
  2. Выбор алфавита (с использованием стандарта Ортатил из 35 букв).
  3. Подбор правил грамматики (8-ступенчатая гармония).
  4. Отбор слов (Средний индекс понятности).
  5. Перевод одной книги с каждого языка на Ортатил.

Алфавит состоит из 35 букв, включающих дипломатические архиконсонанты:

A aÄ äB bḄ ḅ
C cÇ çD dḌ ḍ
E eF fG gĞ ğ
H hI ıİ iJ j
K kḲ ḳL lM m
N nÑ ñO oÖ ö
P pQ qR rS s
Ş şT tU uÜ ü
W wY yZ z

Сохранение фонетических особенностей (Дипломатические начальные точки)

Для преодоления диалектных различий мы используем архиконсонанты только в первой букве корня слова, чтобы отметить исторические звуковые переходы:

  • Ḳelmäk — огузы читают как Gelmäk, карлуки/кыпчаки как Kelmäk.
  • Ḍurmaq — огузы читают как Durmaq, карлуки/кыпчаки как Turmaq.
  • Qardaş — турки читают как Kardaş, азербайджанцы как Gardaş, восточные группы как Qardaş.
  • Ḅar — огузы читают как Var, восточные группы как Bar.
  • Jol — огузы/карлуки читают как Yol, кыпчаки как Jol.
  • Wätän — огузы читают как Vätän, восточные группы как Wätän.

Метод выбора (Средний индекс понятности)

Решения о включении корня в словарь основываются на СИП (Средний индекс понятности).

СИП оценивает кандидатов среди десяти основных тюркских языков, разделенных на три ветви:

  • Огузская: Турецкий, Азербайджанский, Туркменский (3 языка)
  • Карлукская: Узбекский, Уйгурский (2 языка)
  • Кыпчакская: Казахский, Кыргызский, Каракалпакский, Татарский, Башкирский (5 языков)

Базовый балл рассчитывается путем определения наличия (✅ = 1) или отсутствия (❌ = 0) варианта слова в каждом языке, вычисления среднего значения для каждой ветви и их сложения.

Затем применяется дополнительный Бонус межветвевого охвата:

  • Бонус "Во всех" (+1.0): Если вариант присутствует хотя бы в одном языке из каждой из трех ветвей.
  • Бонус "Огуз/Кыпчак" (+0.5): Если вариант охватывает огузскую и кыпчакскую группы, но отсутствует в карлукской.

СИП = Сумма Огуз + Сумма Карлук + Сумма Кыпчак + Бонус охвата

Пороговые значения СИП

  • СИП >= 2.3: Высокая понятность. Принимается автоматически и включается в словарь.
  • СИП < 2.3: Низкая понятность. Сохраняется во внутренней базе данных, но исключается из основного словаря, если нет других вариантов с более высоким баллом.

Реальный пример: Понятие "Ветер"

Ниже представлена матрица оценки кандидатов jel, şamal и daıl для определения итоговых словарных единиц.

Матрица оценки понятности

Метрика / Языкjelşamaldaıl
Турецкий
Азербайджанский
Туркменский
Узбекский
Уйгурский
Казахский
Кыргызский
Каракалпакский
Татарский
Башкирский
Сумма Огуз1.00 (3/3)0.33 (1/3)0.00 (0/3)
Сумма Карлук1.00 (2/2)1.00 (2/2)0.00 (0/2)
Сумма Кыпчак1.00 (5/5)0.40 (2/5)0.60 (3/5)
Бонус "Во всех"✅ (+1.0)✅ (+1.0)❌ (+0.0)
Итоговый СИП4.002.730.60

Итоговый анализ и результаты

  • jel (СИП: 4.00): Этот корень достигает абсолютного охвата во всех десяти языках (1.00 + 1.00 + 1.00) и получает бонус +1.0. Принимается как основной выбор.
  • şamal (СИП: 2.73): Хотя он отсутствует в некоторых языках, он успешно охватывает все три ветви, получая бонус +1.0 (0.33 + 1.00 + 0.40 + 1.0). С баллом выше 2.3 şamal принимается наравне с jel.
  • daıl (СИП: 0.60): Этот вариант встречается только внутри кыпчакской группы (0.60). Он не охватывает все ветви, не получает бонус и не проходит порог 2.3. Исключается.

Заключение: И jel, и şamal принимаются как официальные варианты Ортатил для понятия "Ветер".