2022 Проблемы моделирования поверхностной и глубинной структур многословного термина
ИЗ: В.И. Глумов , А.А. Швецов. Проблемы моделирования поверхностной и глубинной структур многословного термина. (с. 255-264). – Инновационные технологии в образовательной деятельности. Материалы XXIV Международной научно-методической конференции. (2 марта 2022 года, НГТУ им. Р.Е. Алексеева, Нижний Новгород) . Нижний Новгород, Нижегородский государственный технический университет им.Р.Е. Алексеева, 2022. – 328с.
УДК 81'33
В.И. Глумов, А.А. Швецов
Нижегородский государственный технический университет
им.Р.Е Алексеева
г. Нижний Новгород, Россия
Проблемы моделирования поверхностной и глубинной структур многословного термина
"Всякая наука, каков бы ни был её предмет,
изучает вещи, их свойства и отношения."
Владимир Даль
(Уёмов – 1963,с. 3)
"Всякая наука начинает с результатов,
добытых мышлением и речью народа."
В.В. Виноградов
Введение
Объектом исследования является структура английского и русского составных терминов предметных областей "Вычислительная техника и программирование" и "Информационный поиск". Предполагается, что линейно-организованный терминологический знак имеет как внешнюю/поверхностную структуру (external structure), так и глубинную линейно-организованную структуру (deep/hidden structure).
Эти типы структур формируются под действием законов естественной логики и лингвистических законов. Естественный язык, являющийся "системой систем", выполняет свою функцию, будучи тесно связанным с системой мышления человека. Единство материального мира, сознания человека и языковой системы мы выражаем в виде триады "мир-сознание-язык".
Можно предположить, что терминологический знак является продуктом работы языковой системы и системы мышления. Каково́ участие лингвистических категорий и логических категорий в формировании длинного терминологического знака – этот вопрос имеет очень давнюю историю.
В связи с проблемами человеко-машинного общения, интеллектуального машинного поиска информации, интеллектуального машинного перевода, проблемами вербального управления объектами, проблемами повышения интеллекта систем анализа и синтеза речи резко возрос интерес к терминологическим исследованиям. Возникло специальное научное направление, исследующее проблему автоматического извлечения терминов из естественных текстов. Это направление считается отдельным разделом более широкого научного направления – "Автоматическое извлечение научно-технических знаний из текстов".
В состав какой науки входят такие научные исследования – в лингвистику, в прикладную лингвистику, в информатику, в кибернетику – это не столь важно. Главное в автоматизации поиска термина в узко-тематических текстах и извлечении термина из текста заключается в том, что мы должны вначале сформировать нашу рабочую теорию термина, теорию образования терминологического знака, уяснить себе такие важные лингвистические понятия, как "язык", "лингвистическое значение", "лингвистические категории", "лексическое значение", "синтаксическое значение", "позиционное значение" и другие опорные лингвистические понятия. Вооружившись такими лингвистическими знаниями, мы и отправляемся в речевую стихию, в океан научно-технических текстов/документов, надеясь на богатый улов. В нашем случае роль рыбы будут играть наши однословные и многословные термины. [Многословный термин с расширенной препозицией или/и постпозицией относительно "ядра" термина, грамматически главного слова термина мы называем компаундом (compound), а сам процесс формирования или сборки компаунда из терминоэлементов мы называем "компаундированием" (compounding).] В этом океане документов (а им может быть 1) мировой фонд документов, в том числе и патентов; 2) или отраслевой массив разноязычных документов) нам могут встретиться весьма причудливо оформленные компаунды, которые ставят в тупик даже опытных отраслевых экспертов.
И мировому фонду научно-технических документов, и любому отраслевому массиву документов свойственен быстрый рост – учёные и инженеры изобретают всё новые и новые технологии (ноу-хау)/методы/алгоритмы, присваивая (assign) им те или иные имена. И все эти наименования и названия современные информационно-поисковые системы (ИПСы) должны "понять" – вручную, полуавтоматически и , наконец, автоматически.
Обсуждая понятие "термин", сейчас уместно отметить следующее: на сегодня существует большой разнобой в толковании понятия "знак". Одни учёные считают, что любой знак абсолютно пуст, и что даже словесный знак лишь приклеивается к именуемому предмету/вещи (ср. человек приклеивает кличку/прозвище другому человеку: "дед-щукарь" (Шолохов)); а другие учёные считают, что даже длинный терминологический знак типа "кирпичный завод" сообщает мало информации о вещи, названной "завод".
Поскольку мы сейчас подошли к теме наших терминологических исследований, возьмём конкретный знак вида "кирпичный завод" и посмотрим на его линейно-организованную структуру или структуры. В таких терминах мы пытаемся распознать внешнюю структуру знака – цепочку частиречных категорий ("частей речи"), а также пытаемся выявить и "глубинную структуру" этого знака, то есть линейную последовательность "значений" терминоэлементов, составляющих данный извлечённый из текста компаунд. Такой линейной последовательностью или цепочкой может быть последовательность вида "произведённый продукт – производитель". При формализованном описании терминологических значений лингвисты называют сочетание вида "продукт – производитель" логико-семантической формулой или криптотипом.
Какой материальный мир описывает или представляет данный знак? Описывается лишь некая узко-тематическая научно-техническая ситуация? И чем уже эта ситуация , тем всё длиннее становится термин (если погонную длину термина измерять в "терминоэлементах").
Лингвистический робот, анализирующий очередной извлечённый из текста компаунд ("кирпичный завод") , должен быть способным "увидеть" смысловую разницу между казалось бы лексически сходными словами "завод" и "заводь" .
Термин "кирпичный завод" можно автоматически трансформировать в сообщение вида "Завод производит кирпичи" или нет? Такие вопросы нам обязательно задаст наш робот, если мы заранее не введём в машину формализованное описание вещи "завод" и вещи "кирпич". Заранее в памяти робота мы должны сформировать формализован-ную/искусственную Систему Знаний (СЗ), на основе которой наш робот и будет успешно анализировать извлечённые из текста знаки и будет успешно "понимать" их. (Иногда отраслевой узко-тематический поисковый тезаурус тоже считают Системой Знаний.)
При машинной обработке отраслевых текстов нам могут встретиться термины разнообразной поверхностной структуры, т.е. термины, элементы которых можно (вручную или автоматически) соотносить с разными частиречными категориями. В официальных грамматиках последовательность таких категорий называют "грамматической конструкцией". При проведении количественных наблюдений над терминами такую конструкцию часто называют "моделью" или "грамматической моделью".
В термине "кирпичный завод" реализована грамматическая конструкция "прилагательное – существительное" , в которой существительное
занимает грамматически центральную позицию, отмеченную звездой (*), а грамматически зависимое от этого существительного прилагательное
занимает ближайшую левую позицию. (Центральную позицию мы условно называем "ядром" .)
В английском термине digital computer (цифровой компьютер) имеет место быть всё та же конструкция "английское прилагательное – английское существительное" .
В нашем случае значение составного термина (английского или русского) мы вначале формально представляем с помощью трёх признаков:
1) морфологический признак (частиречная категория терминоэлемента) ,
2) позиционный признак (фиксируем месторасположение терминоэлемента в поверхностной структуре компаунда ),
3) синтагматическая цепь связей/отношений, возможных между терминоэлементами данного компаунда.
Эти три признака и составляют нашу 3-хпризнаковую модель компаунда. Сам анализируемый компаунд включён в эту модель. В машине данная модель размещается в виде матрицы, имеющей один столбец и три строки:
Такая матрица, содержащая нашу модель и сам компаунд, является своеобразным микробанком, к которому возможно обращаться с разнообразными поисковыми запросами – разумеется, следует учесть информационные возможности именно данной модели. Примеры запросов:
1) подсчитать частоту использования грамматической конструкции "существительное – существительное – существительное" в извлечённых компаундах данного массива компаундов;
2) какова́ частота появления частиречной категории "существительное" в 1-ой левой препозиции компаунда , когда ядро занято категорией "герундий"?
ПРИМЕЧАНИЕ: Герундий подчеркнут в терминах data *processing (обработка данных), machine *learning (машинное обучение), deep machine *learning (глубинное/глубокое машинное обучение).
3) какова́ частота цепи вида в английских и русских компаундах данного массива?
Можно сформулировать десятки языковедческих запросов к такому банку, хотя модель составлена всего из трёх признаков терминоструктуры. Если же в модель ввести ещё два признака, тогда число возможных типов запросов резко возрастёт. Тот факт, что наша модель содержит и сам извлечённый компаунд, создаёт возможность вводить и такой лексикографический запрос: какова́ частота компаундов, где ядерная позиция занята такими малоинформативными терминами, как: technology, system, mechanism, unit, machine, device. (Двусловный термин вида вычислительная машина может быть свёрнут, без ущерба смыслу термина, в однословный термин вида вычислитель или компьютер.) Матрица выдаст ответ (в требуемой форме):
1. Результаты машинной обработки массива извлечённых компаундов
Ниже мы укажем некоторые результаты машинной обработки нашего массива компаундов, извлечённых из отраслевых текстов.
1.1. Вероятности появления английских частиречных категорий в той или иной позиции терминоструктуры компаунда
ПРИМЕЧАНИЕ: В каждой "клавише" частиречные категории , появляющиеся в данной позиции, упорядочены по убыванию вероятностных значений. Суммарная вероятность появления всех категорий в данном месте терминоструктуры равна единице, но может случится и так, что в данной позиции появится лишь одна категория – её вероятность будет тогда равна единице.
Рис. 1. Позиционные вероятности появления английских частиречных категорий
1.2. Распределение вероятностей появления частиречных категорий в пре- и постпозициях русской и английской терминоструктур
Гистограмма 2. Распределение вероятностей появления частиречных категорий
Таблица 3
Однонаправленные цепи
а) Левонаправленные (%)
б) Правонаправленные (%)
2. О глубинной линейно-организованой терминоструктуре
Формирование 3-хпризнаковой модели компаунда мы считаем первым этапом исследования терминоструктуры. По каким законам сочетаются слова друг с другом в момент "речения", влияет ли на речь сама цель производства речи, влияют ли на сборку длинного компаунда иные обстоятельства материального мира – эти вопросы изучались не одно столетие. Достаточно вспомнить знаменитые десять категорий Аристотеля.
Известен также и закон наименьших усилий (least-effort law), который , по-видимому, регулирует эту сборку терминологического знака; известен также и тот факт, что в длинном словосочетании число препозитивных элементов (т.е. слов перед ядром) обычно составляет 7 +/- 2 элементов ( Miller – 1956).
Можно предположить, что сборка или формирование терминоструктуры происходит на двух уровнях – на глубинном уровне и на уровне поверхностном. Ниже мы предъявляем читателю синтаксический криптотип <инструментальность – действие> , выявленный нами в английских и русских компаундах, и указываем его лексическое наполнение. Этот криптотип состоит из двух синтаксических категорий (двух глубинных признаков терминоструктуры), которые являются представителями синтактико-семантической системы естественного языка. В работе (Глумов – 1986) было выявлено 19 таких логико-семантических признаков (действие, действователь, инструментальность и т.п.), с помощью которых становится возможным формально описывать или представлять терминологическое значение компаунда.
Сочетание таких глубинных признаков, повторяем, называют "логико-семантической формулой" (logicosemantic formula) (Смирницкий – 2009, с. 37) или "криптотипом" (cryptotype) (Уорф – 1936; Лакофф – 1981; 1995).
Таблица 4
Таблица 5
Синтаксические криптотипы
(первые пять рангов)
Заключение
Пятипризнаковое (5-ипризнаковое) моделирование терминологического значения компаунда позволяет более полно описать содержание терминологического знака. Разумеется, такое моделирование более трудоёмкое, чем 3-хпризнаковое.
Столь подробное моделирование, как нам кажется, приближает нас к осмыслению объёмности задач автоматического понимания научно-технической речи.
Дорога к решению проблемы человеко-машинного общения ещё очень и очень долгая. Цитируем профессора Мичи: "Заставить робота управлять космическим аппаратом во время его полёта на Луну в настоящее время несложно – гораздо труднее послать его за угол купить пачку сигарет. По сравнению с последней задачей даже детально разобраться в состоянии экономики может оказаться проще.» [Мичи – Джонстон – 1987, с. 18].
Литература
- (Глумов – 1986) В.И. Глумов (Кафедра современного русского языка и общего языкознания Горьковского гос. ун-та им. Л.И. Лобачевского)
Структурно-семантическая организация составных терминов русского и английского языков (на материале текстов по вычислительной технике и программированию). Дисс. на соиск. уч. ст. к. филолог. н. (10.02.21 – структурная, прикладная и математическая лингвистика). Горький, Горьковский государственный университет им. Н.И. Лобачевского, 1986. – 168с. (Приложение – 81 с.) - ( Лакофф – 1981) Дж. Лакофф. Лингвистические гештальты. (Перев. с англ.) Новое в зарубежн. лингвистике. –М.: 1981, выпуск X; с. 350-368. (G. Lakoff. Linguistic gestalts//Papers from the 13th Regional Meeting Chicago Linguistic Society, Chicago, 1977.
- (Лакофф – 1995) Дж. Лакофф. Когнитивное моделирование. (Перев. с англ.) // Язык и интеллект. –М.: Прогресс, 1995; – с. 143-184.
- (Мичи – 1987) Д. Мичи, Р. Джонсон. КОМПЬЮТЕР – ТВОРЕЦ. (Перев. с англ.) М.: Мир, 1987. – 255с. (Donald Michie and Rory Johnson. The Creative Computer. Machine intelligence and human knowledge. Viking, 1984.)
- (Смирницкий – 2009) А.И. Смирницкий. Синтаксис английского языка. /Под ред. к. филолог. н. В.В. Пасека. Предисловие доктора филологических наук, профессора О.А. Смирницкой. Изд. 3-е. –М.: Книжный дом "ЛИБРОКОМ" . 2009. – 286 с. (Из лингвистического наследия А.И. Смирницкого).
- (Уёмов – 1963) А.И. Уёмов. Вещи, свойства и отношения. –М.: изд. АН СССР, 1963. – 184с.
- (Уорф – 1936). Bendjamin Lee Whorf (Бенджамин Ли Уорф). A Linguistic Consideration of Thinking in Primitive Communities. 1936. ("криптотип или скрытая категория")
- (Miller – 1956) George A. Miller. The Magical Number Seven, Plus or Minus Two: Some limits on our capacity for processing information. The Psychological Review 63 (2) (September 1956): 81–97.
