Метод (Русский)
Способ реализации проекта
Проект включает несколько этапов:
- Формирование языковых групп.
- Выбор алфавита (с использованием стандарта Ортатил из 35 букв).
- Подбор правил грамматики (8-ступенчатая гармония).
- Отбор слов (Средний индекс понятности).
- Перевод одной книги с каждого языка на Ортатил.
Алфавит состоит из 35 букв, включающих дипломатические архиконсонанты:
| A a | Ä ä | B b | Ḅ ḅ |
| C c | Ç ç | D d | Ḍ ḍ |
| E e | F f | G g | Ğ ğ |
| H h | I ı | İ i | J j |
| K k | Ḳ ḳ | L l | M m |
| N n | Ñ ñ | O o | Ö ö |
| P p | Q q | R r | S s |
| Ş ş | T t | U u | Ü ü |
| W w | Y y | Z z |
Сохранение фонетических особенностей (Дипломатические начальные точки)
Для преодоления диалектных различий мы используем архиконсонанты только в первой букве корня слова, чтобы отметить исторические звуковые переходы:
- Ḳelmäk — огузы читают как Gelmäk, карлуки/кыпчаки как Kelmäk.
- Ḍurmaq — огузы читают как Durmaq, карлуки/кыпчаки как Turmaq.
- Qardaş — турки читают как Kardaş, азербайджанцы как Gardaş, восточные группы как Qardaş.
- Ḅar — огузы читают как Var, восточные группы как Bar.
- Jol — огузы/карлуки читают как Yol, кыпчаки как Jol.
- Wätän — огузы читают как Vätän, восточные группы как Wätän.
Метод выбора (Средний индекс понятности)
Решения о включении корня в словарь основываются на СИП (Средний индекс понятности).
СИП оценивает кандидатов среди десяти основных тюркских языков, разделенных на три ветви:
- Огузская: Турецкий, Азербайджанский, Туркменский (3 языка)
- Карлукская: Узбекский, Уйгурский (2 языка)
- Кыпчакская: Казахский, Кыргызский, Каракалпакский, Татарский, Башкирский (5 языков)
Базовый балл рассчитывается путем определения наличия (✅ = 1) или отсутствия (❌ = 0) варианта слова в каждом языке, вычисления среднего значения для каждой ветви и их сложения.
Затем применяется дополнительный Бонус межветвевого охвата:
- Бонус "Во всех" (+1.0): Если вариант присутствует хотя бы в одном языке из каждой из трех ветвей.
- Бонус "Огуз/Кыпчак" (+0.5): Если вариант охватывает огузскую и кыпчакскую группы, но отсутствует в карлукской.
СИП = Сумма Огуз + Сумма Карлук + Сумма Кыпчак + Бонус охвата
Пороговые значения СИП
- СИП >= 2.3: Высокая понятность. Принимается автоматически и включается в словарь.
- СИП < 2.3: Низкая понятность. Сохраняется во внутренней базе данных, но исключается из основного словаря, если нет других вариантов с более высоким баллом.
Реальный пример: Понятие "Ветер"
Ниже представлена матрица оценки кандидатов jel, şamal и daıl для определения итоговых словарных единиц.
Матрица оценки понятности
| Метрика / Язык | jel | şamal | daıl |
|---|---|---|---|
| Турецкий | ✅ | ❌ | ❌ |
| Азербайджанский | ✅ | ❌ | ❌ |
| Туркменский | ✅ | ✅ | ❌ |
| Узбекский | ✅ | ✅ | ❌ |
| Уйгурский | ✅ | ✅ | ❌ |
| Казахский | ✅ | ❌ | ✅ |
| Кыргызский | ✅ | ✅ | ❌ |
| Каракалпакский | ✅ | ✅ | ❌ |
| Татарский | ✅ | ❌ | ✅ |
| Башкирский | ✅ | ❌ | ✅ |
| Сумма Огуз | 1.00 (3/3) | 0.33 (1/3) | 0.00 (0/3) |
| Сумма Карлук | 1.00 (2/2) | 1.00 (2/2) | 0.00 (0/2) |
| Сумма Кыпчак | 1.00 (5/5) | 0.40 (2/5) | 0.60 (3/5) |
| Бонус "Во всех" | ✅ (+1.0) | ✅ (+1.0) | ❌ (+0.0) |
| Итоговый СИП | 4.00 | 2.73 | 0.60 |
Итоговый анализ и результаты
- jel (СИП: 4.00): Этот корень достигает абсолютного охвата во всех десяти языках (1.00 + 1.00 + 1.00) и получает бонус +1.0. Принимается как основной выбор.
- şamal (СИП: 2.73): Хотя он отсутствует в некоторых языках, он успешно охватывает все три ветви, получая бонус +1.0 (0.33 + 1.00 + 0.40 + 1.0). С баллом выше 2.3 şamal принимается наравне с jel.
- daıl (СИП: 0.60): Этот вариант встречается только внутри кыпчакской группы (0.60). Он не охватывает все ветви, не получает бонус и не проходит порог 2.3. Исключается.
Заключение: И jel, и şamal принимаются как официальные варианты Ортатил для понятия "Ветер".