std.uni - D Programming Language

Все перечисленные примитивы работают с Unicode-символами и наборами символов. Для функций, которые работают с ASCII-символами и игнорируют Unicode-символы, смотрите модуль std.ascii. Определение Unicode-символов, кодовой точки и других терминов, используемых в этом модуле, приведено ниже в разделе Терминология.

Основное внимание в этом модуле уделяется всему, что необходимо для разработки приложений, поддерживающих Unicode. С этой целью он предоставляет следующие оптимизированные примитивы:

Классификация символов по категориям и общим свойствам: isAlpha, isWhite и другие.
Сравнение строк без учёта регистра (sicmp, icmp).
Преобразование текста в любую из четырёх форм нормализации посредством функции normalize.
Декодирование (decodeGrapheme) и итерация (byGrapheme, graphemeStride) по воспринимаемым пользователем символам, то есть по кластерам графем.
Разложение и компоновка индивидуального символа(ов) в соответствии с каноническими правилами или с правилами совместимости, смотрите функции compose и decompose, включая специфические версии для хангульских слогов composeJamo и decomposeHangul.

Признаётся, что приложению могут потребоваться дополнительные усовершенствования и расширения, например менее известные алгоритмы, или адаптации существующих алгоритмов для конкретных регионов. Чтобы помочь пользователям в создании каких-либо дополнительных функций помимо основных примитивов, модуль предоставляет:

CodepointSet, тип для простой обработки наборов символов. Помимо типичной алгебры множеств, он предоставляет необычную особенность: генератор исходного кода на D для обнаружения кодовых точек в этом наборе. Это удобно для метапрограммирующих синтаксических парсеров и используется в самом модуле для способности к классификации в небольших наборах, таких как isWhite.
Способ построения оптимально упакованных многоэтапных таблиц, также известный как частный случай Trie. Функции codepointTrie, codepointSetTrie создают пользовательские tries, которые определяют отображение dchar на значение. Конечным результатом является быстрый и предсказуемый поиск со сложностью Ο(1), который даёт возможность создавать функции, такие как isAlpha и combiningClass, но для пользовательских наборов данных.
Полезный метод для парсеров, поддерживающих Unicode, которые выполняют классификацию символов кодированных кодовых точек, заключается в избежании ненужного декодирования любой ценой. utfMatcher даёт улучшение по сравнению с обычным рабочим процессом декодирование-классификация-обработка, сочетая шаги декодирования и классификации. Извлечение необходимых битов непосредственно из закодированных кодовых блоков позволяет достичь значительных улучшений производительности. См. MatcherConcept для общего интерфейса UTF-сопоставлений.
Часто полезны строительные блоки для персонализированной нормализации: combiningClass для запроса комбинирования класса и allowedIn для проверки свойства Quick_Check данной формы нормализации.
Доступ к большой подборке часто используемых наборов кодовых точек. Поддерживаемые наборы включают Script, Block и General Category. Точное содержимое набора можно увидеть в утилите CLDR, на странице индекса свойств веб-сайта Unicode. Смотрите unicode для простого и (опционально) проверяемого во время компиляции набора запросов.

Краткий обзор

import std.uni;
void main()
{
    // Инициализация наборов кодовых точек с использованием скрипта/блока или имени свойства
    // теперь 'set' содержит кодовые точки обоих скриптов. 
    auto set = unicode("Cyrillic") | unicode("Armenian");
    // То же самое, но проще и проверяется во время компиляции
    auto ascii = unicode.ASCII;
    auto currency = unicode.Currency_Symbol;

    // простые операции с набором
    auto a = set & ascii;
    assert(a.empty); // Поскольку он не пересекается с ascii
    a = set | ascii;
    auto b = currency - a; // вычесть все ASCII, Cyrillic и Armenian

    //некоторые свойства наборов кодовых точек
    assert(b.length > 45); // 46 элементов в Unicode 6.1, ещё больше в 6.2
    // проверка наличия кодовой точки в наборе
    // просто отлично, её сложность O(logN)
    assert(!b['$']);
    assert(!b['\u058F']); // знак армянского драма
    assert(b['¥']);

    // Построение быстрых таблиц поиска, гарантирующих сложность O(1)
    // 1-уровневая таблица поиска Trie по существу представляет собой огромный битовый набор ~262Kb
    auto oneTrie = toTrie!1(b);
    // 2-уровневая более компактна, но обычно немного медленнее
    auto twoTrie = toTrie!2(b);
    // 3-уровневая ещё меньше, и ещё немного медленнее
    auto threeTrie = toTrie!3(b);
    assert(oneTrie['£']);
    assert(twoTrie['£']);
    assert(threeTrie['£']);

    // Построить таблицу trie с самым разумным уровнем
    // и привязать её в качестве функтора
    auto cyrillicOrArmenian = toDelegate(set);
    auto balance = find!(cyrillicOrArmenian)("Hello ընկեր!");
    assert(balance == "ընկեր!");
    // совместимо с bool delegate(dchar)
    bool delegate(dchar) bindIt = cyrillicOrArmenian;

    // Нормализация
    string s = "Plain ascii (and not only), is always normalized!"; // Обычный ascii (и не только), всегда нормализован!
    assert(s is normalize(s));// та же самая строка

    string nonS = "A\u0308ffin"; // лигатура (соединение букв)
    auto nS = normalize(nonS); // в NFC - стандарт, одобренный W3C
    assert(nS == "Äffin");
    assert(nS != nonS);
    string composed = "Äffin";

    assert(normalize!NFD(composed) == "A\u0308ffin");
    // в NFKD, декомпозицию совместимости, применяемую для нечёткого сопоставления/поиска
    assert(normalize!NFKD("2¹⁰") == "210");
}

Терминология

Ниже приведен список важных понятий и определений Unicode. Любые соглашения, используемые специально в этом модуле, отмечены как таковые. Описания основаны на формальном определении, которое содержится в третьей главе The Unicode Standard Core Specification.

Абстрактный символ (Abstract character)

Единица информации, используемая для организации, контроля или представления текстовых данных. Обратите внимание, что:

При представлении данных, природа этих данных в целом является символьной, а не каким-либо другим видом данных (например, визуальным).
Абстрактный символ не имеет конкретной формы и его не следует путать с глифом.
Абстрактный символ не обязательно соответствует тому, что пользователь считает «символом», и его не следует путать с Графемой.
Кодированные абстрактные символы (см. Кодированный символ), называются абстрактными символами Unicode.
Абстрактные символы, которые напрямую не кодируются стандартом Unicode, часто могут быть представлены с помощью комбинирования последовательностей символов.

Каноническое разложение (Canonical decomposition)

Разложение символа или символьной последовательности, которое возникает из-за рекурсивного применения канонических отображений, основанных на базе данных символов Юникода (Unicode Character Database), и описанных в «Conjoining Jamo Behavior» (раздел 12 Unicode Conformance).

Каноническая компоновка (Canonical composition)

Точное определение канонической компоновки – это алгоритм, указанный в 11 разделе Unicode Conformance. Неофициально это процесс, обратный каноническому разложению с добавлением определённых правил, например, предотвращение появления устаревших символов в скомпонованном результате.

Канонический эквивалент (Canonical equivalent)

Две последовательности символов называются каноническими эквивалентами, если их полные канонические разложения идентичны.

Символ (Character)

Как правило, отличается в зависимости от контекста. Для целей этой документации термин символ означает кодированный символ, то есть кодовую точку, имеющую назначенный абстрактный символ (символьное значение).

Кодовая точка (Code point)

В отдельных переводах документации по Unicode применяется термин Кодовая позиция – прим. пер.
Любое значение в кодовом пространстве Unicode; то есть в диапазоне целых чисел от 0 до 10FFFF (hex). Не все кодовые точки назначены кодированным символам.

Кодовый блок (Code unit)

Минимальная комбинация битов, которая может представить собой единицу кодированного текста для обработки или обмена. В зависимости от кодировки это могут быть: 8-битные кодовые блоки в UTF-8 (char), 16-битные кодовые блоки в UTF-16 (wchar) и 32-битные кодовые блоки в UTF-32 (dchar). Обратите внимание, что в UTF-32 кодовый блок является кодовой точкой и представлен D-типом dchar.

Комбинируемый символ (Combining character)

Символ с Общей категорией Combining Mark (M).

Все символы с ненулевым каноническим классом комбинирования являются комбинируемыми символами, но обратное неверно: существуют комбинируемые символы с нулевым классом комбинирования.
Эти символы обычно не используются изолированно, если только их не описывают. К ним относятся такие символы, как знаки ударения, диакритические знаки, Hebrew points (точки в иврите?), Arabic vowel signs (арабские знаки гласных) и Indic matra (индийская матра).

Класс комбинирования (Combining class)

Численное значение, используемое каноническим алгоритмом упорядочения Unicode для определения того, какие последовательности комбинируемых знаков (combining marks) следует считать канонически эквивалентными, а какие нет.

Разложение совместимости (Compatibility decomposition)

Разложение символа или последовательности символов, которое возникает из-за рекурсивного применения как отображений совместимости, так и канонических отображений, основанных на базе данных символов Юникода (Unicode Character Database), и описанных в «Conjoining Jamo Behavior», после чего никакие символы не могут быть разложены далее.

Совместимый эквивалент (Compatibility equivalent)

Две последовательности символов называются совместимыми эквивалентами, если их полные разложения совместимости идентичны.

Кодированный символ (Encoded character)

Связь (или отображение) между абстрактным символом и кодовой точкой.

Глиф (Glyph)

Фактическое, конкретное изображение представления глифа, которое было растеризовано или иным образом изображено на поверхности какого-либо дисплея.
Какое-то бессмысленно-рекурсивное определение... Надеюсь, я правильно понял, что это просто изображение буквы или знака – прим.пер.

Основная графема (Grapheme base)

Символ со свойством Grapheme_Base или любой стандартный корейский слоговый блок.

Кластер графем (Grapheme cluster)

Определяется как текст между границами графем, как это описано в Стандарте Unicode, приложение №29, Unicode text segmentation. Важные общие свойства графемы:

Графемный кластер представляет собой горизонтально сегментируемую единицу текста, состоящую из некоторой основной графемы (которая может состоять из корейского слога) вместе с любым количеством несамостоятельных знаков, приложенных к ней.
Кластер графем обычно начинается с основной графемы, а затем распространяется на любые идущие следом последовательности несамостоятельных знаков. Кластер графем по большей части непосредственно относится к рендеру текста и таким процессам, как размещение курсора и выбор текста при редактировании, но также может иметь значение для сравнения и поиска.
Для многих процессов кластер графем ведет себя так же, как если бы он был единственным символом с теми же свойствами, что есть у его основной графемы. По сути, несамостоятельные знаки графически прилагаются к основе, но не изменяют её свойства.

Этот модуль определяет ряд примитивов, которые работают с графемами: Grapheme, decodeGrapheme и graphemeStride. Все они используют границы расширенных графем (extended grapheme), как это описано в вышеупомянутом приложении к стандарту.

Непромежуточный знак (Nonspacing mark)

Комбинируемый символ с Общей категорией Nonspacing Mark (Mn) или Enclosing Mark (Me).

Промежуточный знак (Spacing mark)

Комбинируемый символ, который не является непромежуточным знаком.

Тоже какие-то бюрократически бессмысленные определения, как с глифом... Как я понял по картинкам, Nonspacing Mark соотвествует всяким знакам сверху или снизу буквы, Enclosing Mark соотвествует знакам со всех сторон (вокруг) буквы, а Spacing Mark соотвествует знакам между буквами – прим.пер.

Нормализация

Концепции канонического эквивалента или совместимого эквивалента символов в стандарте Unicode требуют наличия полного формального определения эквивалентности для Unicode-строк. Строковая эквивалентность определяется процессом, называемым нормализацией, посредством которого строки преобразуются в формы, которые непосредственно сравниваются для идентичности. Это основная цель процесса нормализации, см. функцию normalize, предназначенную для преобразования в любую из четырёх заданных форм.

Очень важным свойством Форм Нормализации Unicode является то, что они должны оставаться стабильными между версиями стандарта Unicode. Строка Unicode, нормализованная к определенной форме нормализации Unicode в одной версии стандарта, гарантированно останется в этой Форме Нормализации в реализациях будущих версий стандарта.

В стандарте Unicode установлены четыре формы нормализации. Неформально две из этих форм определяются максимальным разложением эквивалентных последовательностей, а две из этих форм определяются максимальной компоновкой эквивалентных последовательностей.

Форма нормализации D (NFD): Каноническое разложение последовательности символов.
Форма нормализации KD (NFKD): Разложение совместимости последовательности символов.
Форма нормализации C (NFC): Каноническая компоновка канонического разложения кодированной последовательности символов.
Форма нормализации KC (NFKC): Каноническая компоновка разложения совместимости последовательности символов.

Выбор формы нормализации зависит от конкретного варианта использования. NFC – лучшая форма для обычного текста, поскольку она более совместима со строками, преобразованными из устаревших кодировок. NFKC является предпочтительной формой для идентификаторов, особенно там, где есть проблемы с безопасностью. NFD и NFKD являются наиболее полезными для внутренней обработки.

Построение таблиц поиска

Стандарт Unicode описывает набор алгоритмов, которые зависят от возможности быстрого поиска различных свойств кодовой точки. Учитывая, что кодовое пространство составляет около 1 миллиона кодовых точек, это не простая задача – обеспечить эффективное по использованию памяти решение для множества свойств.

Общих подходов, таких как хэш-таблицы или бинарный поиск по отсортированным интервалам кодовых точек (как в InversionList), недостаточно. Хэш-таблицы занимают огромный объём памяти, а бинарный поиск с интервалами не достаточно быстр в случае некоторых тяжелых алгоритмов.

Рекомендуемым решением (см. Unicode Implementation Guidelines) является использование многостадийных таблиц, которые представляют собой реализацию структуры данных Trie с целыми ключами и фиксированным количеством этапов. В остальной части раздела оно будет называться фиксированным trie. Ниже описывается конкретная реализация, которая нацелена на скорость доступа за счет идеальной экономии размера.

Например, для двухуровневой Trie принцип работы заключается в следующем. Разделяется количество бит в ключе (кодовой точке, состоящей из 21 бита) на 2 компонента (например, 15 и 8). Первое - это количество бит в индексе trie, а другое - количество бит на каждой странице trie. Схема trie – это массив размером 2^^бит-на-индекс, за которым следует массив блоков памяти размером 2^^бит-на-страницу/бит-на-элемент.

Количество страниц является переменным (но не менее 1) в отличие от количества записей в индексе. Все слоты индекса должны содержать те несколько страниц, которые присутствуют. Поиск - это всего лишь несколько операций - вырезать верхние биты, найти по ним индекс, взять страницу по этому индексу и использовать нижние биты в качестве смещения на этой странице.

Предполагая, что страницы расположены последовательно в одном массиве pages, вот псевдокод:

auto elemsPerPage = (2 ^^ bits_per_page) / Value.sizeOfInBits;
pages[index[n >> bits_per_page]][n & (elemsPerPage - 1)];

Где, если elemsPerPage является степенью 2, весь процесс представляет собой несколько простых инструкций и 2 чтения массива. Последующие уровни trie вводятся путём рекурсии по этой идее - массив индексов рассматривается как значения. Затем количество бит в индексе снова разбивается на 2 части, со страницами над «текущим индексом» и новым «верхним индексом».

Для полноты, одноуровневая таблица trie – это просто массив. Текущая реализация использует преимущества бит-упаковки, когда известно, что диапазон ограничен заранее (например, bool). См. также BitPacked для принудительного применения его вручную. (Что-то я не нашел ничего с именем BitPacked нигде в библиотеке D – прим.пер.) Однако главное преимущество в размере происходит от того факта, что несколько одинаковых страниц на каждом уровне объединяются при строительстве.

Реальный процесс построения trie более сложен и скрыт от пользователя в виде удобных функций codepointTrie, codepointSetTrie и ещё более удобной toTrie. В общем, множество или встроенный ассоциативный массив с типом dchar можно преобразовать в trie. Объект trie в этом модуле доступен только для чтения (immutable); Он эффективно замораживается после строительства.

Свойства Unicode

Это полный список свойств Юникода, доступных через структуру unicode. Обратитесь к утилите CLDR, если у вас есть сомнения относительно содержимого определенного набора.

Наборы общей категории, перечисленные ниже, доступны только с помощью сокращённого доступа через структуру unicode.

**Общая категория (General category)**
Сокр.	Длинная форма	Сокр.	Длинная форма	Сокр.	Длинная форма
L	Letter	Cn	Unassigned	Po	Other_Punctuation
Ll	Lowercase_Letter	Co	Private_Use	Ps	Open_Punctuation
Lm	Modifier_Letter	Cs	Surrogate	S	Symbol
Lo	Other_Letter	N	Number	Sc	Currency_Symbol
Lt	Titlecase_Letter	Nd	Decimal_Number	Sk	Modifier_Symbol
Lu	Uppercase_Letter	Nl	Letter_Number	Sm	Math_Symbol
M	Mark	No	Other_Number	So	Other_Symbol
Mc	Spacing_Mark	P	Punctuation	Z	Separator
Me	Enclosing_Mark	Pc	Connector_Punctuation	Zl	Line_Separator
Mn	Nonspacing_Mark	Pd	Dash_Punctuation	Zp	Paragraph_Separator
C	Other	Pe	Close_Punctuation	Zs	Space_Separator
Cc	Control	Pf	Final_Punctuation	-	Any
Cf	Format	Pi	Initial_Punctuation	-	ASCII

Наборы для других общедоступных свойств, получаемых с помощью unicode:

**Общие бинарные свойства (Common binary properties)**
Наименование	Наименование	Наименование
Alphabetic	Ideographic	Other_Uppercase
ASCII_Hex_Digit	IDS_Binary_Operator	Pattern_Syntax
Bidi_Control	ID_Start	Pattern_White_Space
Cased	IDS_Trinary_Operator	Quotation_Mark
Case_Ignorable	Join_Control	Radical
Dash	Logical_Order_Exception	Soft_Dotted
Default_Ignorable_Code_Point	Lowercase	STerm
Deprecated	Math	Terminal_Punctuation
Diacritic	Noncharacter_Code_Point	Unified_Ideograph
Extender	Other_Alphabetic	Uppercase
Grapheme_Base	Other_Default_Ignorable_Code_Point	Variation_Selector
Grapheme_Extend	Other_Grapheme_Extend	White_Space
Grapheme_Link	Other_ID_Continue	XID_Continue
Hex_Digit	Other_ID_Start	XID_Start
Hyphen	Other_Lowercase
ID_Continue	Other_Math

Ниже приведена таблица с именами блоков, принимаемыми unicode.block. Обратите внимание, что в краткой версии unicode требуется добавление "In" к именам блоков, для различения сценариев и блоков.

**Блоки (Blocks)**
Aegean Numbers	Ethiopic Extended	Mongolian
Alchemical Symbols	Ethiopic Extended-A	Musical Symbols
Alphabetic Presentation Forms	Ethiopic Supplement	Myanmar
Ancient Greek Musical Notation	General Punctuation	Myanmar Extended-A
Ancient Greek Numbers	Geometric Shapes	New Tai Lue
Ancient Symbols	Georgian	NKo
Arabic	Georgian Supplement	Number Forms
Arabic Extended-A	Glagolitic	Ogham
Arabic Mathematical Alphabetic Symbols	Gothic	Ol Chiki
Arabic Presentation Forms-A	Greek and Coptic	Old Italic
Arabic Presentation Forms-B	Greek Extended	Old Persian
Arabic Supplement	Gujarati	Old South Arabian
Armenian	Gurmukhi	Old Turkic
Arrows	Halfwidth and Fullwidth Forms	Optical Character Recognition
Avestan	Hangul Compatibility Jamo	Oriya
Balinese	Hangul Jamo	Osmanya
Bamum	Hangul Jamo Extended-A	Phags-pa
Bamum Supplement	Hangul Jamo Extended-B	Phaistos Disc
Basic Latin	Hangul Syllables	Phoenician
Batak	Hanunoo	Phonetic Extensions
Bengali	Hebrew	Phonetic Extensions Supplement
Block Elements	High Private Use Surrogates	Playing Cards
Bopomofo	High Surrogates	Private Use Area
Bopomofo Extended	Hiragana	Rejang
Box Drawing	Ideographic Description Characters	Rumi Numeral Symbols
Brahmi	Imperial Aramaic	Runic
Braille Patterns	Inscriptional Pahlavi	Samaritan
Buginese	Inscriptional Parthian	Saurashtra
Buhid	IPA Extensions	Sharada
Byzantine Musical Symbols	Javanese	Shavian
Carian	Kaithi	Sinhala
Chakma	Kana Supplement	Small Form Variants
Cham	Kanbun	Sora Sompeng
Cherokee	Kangxi Radicals	Spacing Modifier Letters
CJK Compatibility	Kannada	Specials
CJK Compatibility Forms	Katakana	Sundanese
CJK Compatibility Ideographs	Katakana Phonetic Extensions	Sundanese Supplement
CJK Compatibility Ideographs Supplement	Kayah Li	Superscripts and Subscripts
CJK Radicals Supplement	Kharoshthi	Supplemental Arrows-A
CJK Strokes	Khmer	Supplemental Arrows-B
CJK Symbols and Punctuation	Khmer Symbols	Supplemental Mathematical Operators
CJK Unified Ideographs	Lao	Supplemental Punctuation
CJK Unified Ideographs Extension A	Latin-1 Supplement	Supplementary Private Use Area-A
CJK Unified Ideographs Extension B	Latin Extended-A	Supplementary Private Use Area-B
CJK Unified Ideographs Extension C	Latin Extended Additional	Syloti Nagri
CJK Unified Ideographs Extension D	Latin Extended-B	Syriac
Combining Diacritical Marks	Latin Extended-C	Tagalog
Combining Diacritical Marks for Symbols	Latin Extended-D	Tagbanwa
Combining Diacritical Marks Supplement	Lepcha	Tags
Combining Half Marks	Letterlike Symbols	Tai Le
Common Indic Number Forms	Limbu	Tai Tham
Control Pictures	Linear B Ideograms	Tai Viet
Coptic	Linear B Syllabary	Tai Xuan Jing Symbols
Counting Rod Numerals	Lisu	Takri
Cuneiform	Low Surrogates	Tamil
Cuneiform Numbers and Punctuation	Lycian	Telugu
Currency Symbols	Lydian	Thaana
Cypriot Syllabary	Mahjong Tiles	Thai
Cyrillic	Malayalam	Tibetan
Cyrillic Extended-A	Mandaic	Tifinagh
Cyrillic Extended-B	Mathematical Alphanumeric Symbols	Transport And Map Symbols
Cyrillic Supplement	Mathematical Operators	Ugaritic
Deseret	Meetei Mayek	Unified Canadian Aboriginal Syllabics
Devanagari	Meetei Mayek Extensions	Unified Canadian Aboriginal Syllabics Extended
Devanagari Extended	Meroitic Cursive	Vai
Dingbats	Meroitic Hieroglyphs	Variation Selectors
Domino Tiles	Miao	Variation Selectors Supplement
Egyptian Hieroglyphs	Miscellaneous Mathematical Symbols-A	Vedic Extensions
Emoticons	Miscellaneous Mathematical Symbols-B	Vertical Forms
Enclosed Alphanumerics	Miscellaneous Symbols	Yijing Hexagram Symbols
Enclosed Alphanumeric Supplement	Miscellaneous Symbols and Arrows	Yi Radicals
Enclosed CJK Letters and Months	Miscellaneous Symbols And Pictographs	Yi Syllables
Enclosed Ideographic Supplement	Miscellaneous Technical
Ethiopic	Modifier Tone Letters

Ниже приведена таблица с именами сценариев, принимаемыми unicode.script и краткой версией unicode:

**Сценарии (Scripts)**
Arabic	Hanunoo	Old_Italic
Armenian	Hebrew	Old_Persian
Avestan	Hiragana	Old_South_Arabian
Balinese	Imperial_Aramaic	Old_Turkic
Bamum	Inherited	Oriya
Batak	Inscriptional_Pahlavi	Osmanya
Bengali	Inscriptional_Parthian	Phags_Pa
Bopomofo	Javanese	Phoenician
Brahmi	Kaithi	Rejang
Braille	Kannada	Runic
Buginese	Katakana	Samaritan
Buhid	Kayah_Li	Saurashtra
Canadian_Aboriginal	Kharoshthi	Sharada
Carian	Khmer	Shavian
Chakma	Lao	Sinhala
Cham	Latin	Sora_Sompeng
Cherokee	Lepcha	Sundanese
Common	Limbu	Syloti_Nagri
Coptic	Linear_B	Syriac
Cuneiform	Lisu	Tagalog
Cypriot	Lycian	Tagbanwa
Cyrillic	Lydian	Tai_Le
Deseret	Malayalam	Tai_Tham
Devanagari	Mandaic	Tai_Viet
Egyptian_Hieroglyphs	Meetei_Mayek	Takri
Ethiopic	Meroitic_Cursive	Tamil
Georgian	Meroitic_Hieroglyphs	Telugu
Glagolitic	Miao	Thaana
Gothic	Mongolian	Thai
Greek	Myanmar	Tibetan
Gujarati	New_Tai_Lue	Tifinagh
Gurmukhi	Nko	Ugaritic
Han	Ogham	Vai
Hangul	Ol_Chiki	Yi

Ниже приведена таблица имен, принимаемая unicode.hangulSyllableType.

**Типы слогов хангыля (Hangul syllable type)**
Сокр.	Длинная форма
L	Leading_Jamo
LV	LV_Syllable
LVT	LVT_Syllable
T	Trailing_Jamo
V	Vowel_Jamo

Operator	Math notation	Description
&	a ∩ b	пересечение (intersection)
\|	a ∪ b	объединение (union)
-	a ∖ b	разность (subtraction)
~	a ~ b	симметрическая разность (symmetric set difference), т.е. (a ∪ b) \ (a ∩ b)

C	тип, неявно преобразуемый в dchars
C[] `input`	массив графемных кластеров
size_t `index`	стартовый индекс в массиве `input`[]

S1 `r1`	лидирующий диапазон символов
S2 `r2`	лидирующий диапазон символов

S1 `str1`	строка
S2 `str2`	строка