2016 г. О более точном моделировании грамматических и лексических значений: аспект автоматизации извлечения составных терминов
О БОЛЕЕ ТОЧНОМ МОДЕЛИРОВАНИИ
ГРАММАТИЧЕСКИХ И ЛЕКСИЧЕСКИХ ЗНАЧЕНИЙ:
АСПЕКТ АВТОМАТИЗАЦИИ ИЗВЛЕЧЕНИЯ СОСТАВНЫХ ТЕРМИНОВ
Глумов Виктор Игнатьевич
к. филолог. н.
10.02.21 – структурная,прикладная
и математическая лингвистика)
Нижегородский филиал Российского экономического
университета им. Г.В. Плеханова
Нижний Новгород, Россия
| Скачать статью в pdf формате |
Из: (с. 139-155) Сборник материалов IV-ой международной научно-практической конференции «Актуальные вопросы модернизации: экономика, образование, управление и право» (Нижний Новгород, Нижегородский филиал Российского экономического университета имени Г.В. Плеханова, 12 ноября 2015 года). Издание НФ РЭУ им. Г.В. Плеханова, Нижний Новгород, 2016. – 652 с.
Аннотация: Обсуждается связь лексических значений и грамматических значений при формировании поверхностной структуры и глубинной структуры английских и русских составных терминов. Рассматривается триада «мир – понятие – язык» и её отражение в терминологическом знаке. Предлагается более подробное – пятипризнаковое – моделирование поверхностной и глубинной структур многословных терминов (компаундов).
Ключевые слова: грамматическая семантика, лексическая семантика, глубинная структура термина, моделирование лексических значений, аспектизация, пятипризнаковое моделирование английских и русских составных терминов, автоматизация распознавания терминов.
To the problem of more exactly modelling
grammatical and lexical meanings:
the aspect of automatic compound term extraction
V.I. Gloumov
PhD (appl. linguistics),
Nizhny Novgorod Branch
Plekhanov Russian University of Economics
Nizhny Novgorod, Russia
Abstract: There is discussed the relationship between lexical and grammatical meanings when a surface structure and a deep structure for English and Russian compound terms are being formed. At this, the triad "environment – concepts – language” and its mapping onto a terminological sign is discussed. A five-feature modelling suggested for surface and deep structures of such compounds is thought to be a more efficient facility for automatic term extraction.
Key words: grammatical semantics, lexical semantics, a deep terminological structure, modelling lexical meanings, aspectization, a five-feature modelling of English and Russian multi-word terms, computer-aided term extraction.
Можно предположить, что проблему автоматического понимания естественных научно-технических текстов – а самым информативным компонентом таких текстов является термин – можно успешно решить, если предварительно нами будут изучены логико-лингвистические явления, происходящие в текстах и, в частности, в многословных терминах. На естественный текст нам целесообразно смотреть как на результат работы системы мышления человека и системы языка {Дополнение 1. См. все дополнения в конце статьи.}. При этом следует учитывать роль окружающей материальной среды и особенности цели научно-технической речи. Алфавитные цепочки, называемые нами предложением или термином, должны рассматриваться нами как вершина айсберга, основное содержание которого скрыто от наших глаз.
В построении лингвистической единицы (ЛЕ), которая может иметь вид слова, словосочетания или предложения, участвуют все т.н. уровни языковóй системы. По-видимому, в процессе строительства все уровни языка участвуют одновременно, а не так, что вначале работает один уровень языка, затем включается в работу другой уровень, используя результаты, добытые первым уровнем. Каждый уровень языковой системы содержит свои собственные семантические единицы-категории, а каждая категория обладает планом содержания и планом выражения.
Чтобы показать совместную работу разных уровней/систем языка (а язык, следовательно, считается нами "системой систем"), возьмём фрагмент английского предложения “When training programming for digital computers…“. Понять этот фрагмент в данный момент нельзя – нужно ждать дальнейшее расширение этого фрагмента. А это расширение тоже двойственное – фрагмент может быть расширен или 1) словом вида “he”, или словосочетанием вида “this company”, или 2) глаголом “is”, или “was” , или “will be”, или “makes up” (составлять, является, есть) и т.д.
Возникнут два варианта расширения исходного фрагмента:
- “When training programming for digital computers he … “.
- “When training programming for digital computers is … “.
В 1-ом варианте появление деятеля, выраженного местоимением “he”, мгновенно устраняет неопределённость и размытость – становится понятным содержание расширенного фрагмента: "При обучении программированию для цифровых ЭВМ он …" или "Обучая программированию для цифровых ЭВМ, он …" (возможны и другие варианты перевода, не извращающие основной смысл высказывания).
В 1-ом варианте мы устойчиво распознаем единицу training как английское действительное причастие настоящего времени (Part I). Подлежащее-деятель (he) совершает одно действие (training) и далее (в главном предложении) будет совершать другое действие.
Во 2-м варианте словоформа training уже отчётливо толкуется нами как действительный герундий (active Gerund), исполняющий роль подлежащего. Отсюда перевод данного расширенного фрагмента:
“Когда обучение программированию для цифровых ЭВМ является …”.
Понимание смысла или содержания расширенного фрагмента, по-видимому, произошло в результате совместной работы категорий всех уровней языка. Все системы языка как бы одновременно смотрели в колодец, где возникло событие training, и, взаимодействуя, помогая друг другу, обеспечили нам опознавание морфологических категорий "причастие настоящего времени" и "действительный герундий".
Примечание 1: В момент анализа или синтеза предложения важно видеть всю «картину» узко-тематического мира (отраслевую картину), которая описывается в данном предложении, видеть набор предметов/вещей, участвующих в этой картине, типы межпредметных связей/отношений (т.е. парадигматических/экстралингвистических отношений). Такое понимание описываемой материальной действительности способствует построению, скажем, эффективной искусственной Системы Знаний (artificial Knowledge System) для данной предметной области (domain, subject area). Мы не должны, при этом, забывать роль естественного языка в триаде “мир – сознание – язык”. Помимо толкования относительности и обобщённости языка, язык можно толковать как ограниченный набор договоров/соглашений/протоколов/правил/законов, регулирующих соединение изобретённых «слов» в линейной цепочке слов, регулирующих опускание слов в длинных словосочетаниях без нарушения смысла высказывания. Эти догово́ры многочисленны, но не бесконечны.
Естественный язык своими ограниченными инструментами способен выражать бесконечность мысли. Такую способность естественного языка проектировщики, например, языков программирования и пытаются встроить в искусственные языки.
В широко известном лозунге о зна́чимости языка говорится очень жёстко: «Есть язык – есть и нация. Нет языка – нет и нации». Раз национальный язык признаётся мощным инструментом в строительстве нации, то отсюда вытекает и потребность суровой борьбы с коверканием и порчей языка, в том числе борьбы с чрезмерным калькированием в научно-технических подъязыках. Это коверкание всё более и более тормозит научно-техническому прогрессу страны и порождает уже давно существующий парадокс: один слой людей лихо ежедневно порождает совсем ненужные кальки, а другой слой людей (менее многочисленный) пытается разработать алгоритмы автоматического анализа и синтеза речи . (Эту задачу можно также назвать "обеспечением человеко-машинного общения на естественном языке"). Кстати, количество ка́лек в русском научно-техническом языке гораздо больше количества ка́лек, возникших, скажем, в английском научно-техническом языке – что, по-видимому, определяет, в той или иной мере, нашу т.н. "современную технологическую отсталость". Если это так, тогда нам, тем более, следует спешить придумывать русские имена для новых иностранных научно-технических понятий – с тем, чтобы наш школьник, студент, инженер и учёный могли бы быстро усвоить заграничное понятие, быстро понять суть иностранной технологии и эффективнее её применять.
Создание оптимальных и ёмких терминов должно регулироваться специальным общенациональным органом с большими полномочиями. Если он сейчас в России есть, то его деятельность пока не ощущается. А что касается терминологических стандартов, то они должны быть не расплывчатыми, а более конкретными.
Описывая работу языковóй системы, следует также напомнить, что любая человеческая мысль мгновенно «утяжеляется» словом, т.е. можно сказать, что человек смотрит на окружающий мир «глазами языка» (гипотеза Сепира-Уорфа). Например, одну и ту же девушку, на которую смотрит немец и русский, немец относит к сущностям среднего рода (грамматическая категория рода немецкого языка) , а русский к сущностям рода женского (грамматическая категория рода русского языка). И при организации, скажем, интеллектуального многоязычного поиска документов эту особенность естественных языков нам следует учитывать. Иными словами, следует учитывать особенности лексических значений и грамматических значений данного естественного языка.
В наших попытках препарировать грамматико-семантические значения и лексико-семантические значения терминов мы опираемся на следующую философско-диалектическую установку: весь материальный мир содержит лишь вещи/предметы/объекты и их качества. Вещь и её качества взаимообусловлены – нет вещи без качеств и нет качества без вещи, но приоритет существования оставлен за вещью. “Вещь – это система качеств. Качество, свойство, признак при таком подходе есть отношение предмета к другому предмету.” [Уёмов - 1963, с.21]. Согласимся с таким взглядом В. Даля: “Всякая наука, каков бы ни был её предмет, изучает вещи, их свойства и отношения” [Уёмов - 1963, с.3]. Также В. Даль отмечал, что в широком смысле вещь – это всё то, что доступно чувствам [Уёмов - 1963, с.5].
Выше мы описали сложнейшие фено́мены материального мира, в том числе лингвистические категории. И поэтому возникает вопрос: для описания процессов, происходящих в теле составного термина, достаточно ли строить лишь однопризнаковую модель вида "существительное + существительное + существительное" или "прилагательное + существительное" и т.д.? (Назовём такую модель морфологической.). Такое однопризнаковое описание (single-feature modelling) явно недостаточно для формализованного представления как поверхностной, так и глубинной структур термина – тем более, что сегодняшние компьютеры имеют бездонные памяти, а языки программирования обладают огромными описательными возможностями. Иными словами, созрели условия для моделирования куда более сложных логико-семантических явлений в речи – письменной и устной, научно-технической речи и повседневной речи.
Для более детального моделирования поверхностной и глубинной структур составного термина (с препозицией или постпозицией, или одновременно с препозицией и постпозицией {Дополнение 2}) нами предлагается пятипризнаковое моделирование компаунда (five-feature compound modelling). Безусловно, если трёхпризнаковое моделирование (three - feature modelling), выполненное в [Глумов - 1986], отличается трудоёмкостью {Дополнение 3}, то данное пятипризнаковое описание отличается ещё бо́льшей трудоёмкостью.
При всех видах моделирования нам следует предварительно уяснить себе такие важнейшие лингвистические понятия, как "слово", "словоформа", "граница между двумя терминоэлементами в теле составного термина", "терминируемость/нетермиируемость терминоэлемента", а также понять, откуда исходит синтаксическая связь и на какой терминоэлемент она направлена. Также следует предварительно сформировать содержание семантико-синтаксических признаков вида "инструментальность", "локативность", "место", "время" и др. многочисленные признаки такой же степени абстрактности, а также и сформировать содержание семантико-лексических признаков вида "неодушевленность", "механический процесс", "интеллектуальный процесс", "коммунальность" и других признаком этой степени абстрактности.
Проблемы с формированием содержания лексико-семантического признака
Выше мы упомянули степень трудоёмкости при формализованном описании каждого элемента многословного термина. Хоть трёхпризнаковое описание и трудоёмко, оно, тем не менее, также недостаточно. Эта недостаточность обусловлена тем, что 1) термин может быть многозначен и 2) связи между элементами в термине могут быть как прямыми, так и косвенными. Косвенность отношений между двумя терминоэлементами обусловлена существованием явления метонимии, т.е. между двумя формально связанными терминоэлементами фактически возникает некая семантическая лакуна/пропасть: binary control, двоичное управление {Дополнение 4}, floating arithmetic, плавающая арифметика {Дополнение 5}, pseudocolor memory [Глумов - 1986, c. 39] {Дополнение 6}, полуцветная память, black memory, черная память, grey memory, серая память, binary computer, двоичный компьютер и т.п. В [Глумов - 1986, с. 127-131] предложено "построение мостов" через такие пропасти (bridging или cascading).
Укажем такое явление в терминах как многозначность, а также отметим полезность признаков инструментальность и объект для распознавания многозначности. Возьмём двухзначный термин air cooling (воздушное охлаждение). Его первое значение – 1) охлаждение воздуха (семантическая формула "процесс+объект") и второе значение – 2) охлаждение воздухом ("процесс+инструментальность"). Существуют термины и более многозначные. Укажем три значения термина "computer programming" (машинное программирование): 1) программирование для цифровых вычислительных машин (ЦЭВМ), 2) программирование машин, 3) программирование с помощью машин. (Ср. множество творительностей у А.А. Потебни: творительный-место, творительный-время и т.д.{Дополнение 7}.
Даже применяя синтактико-семантические признаки (инструментальность и т.п.) для описания терминоструктуры, мы чувствуем неполноту описания. Четырёхпризнаковое описание (four-feature modelling) не обеспечивает наше полное понимание истинного содержания термина. Грамматические значения, описывающие конкретную производственную ситуацию, обозначенную термином, более абстрактны, они надлекси́чны, им свойственно описывать вещь в целом, не «приближаясь» к самой вещи. Лексические же значения более подробны, более специфичны, они более приближены к вещи, они способны точнее и глубже описывать качества вещи. Например, присвоив слову «программирование» признак «процесс», мы еще не сказали, в чём именно заключается этот процесс. Иными словами, мы еще не заявили, что нужно сделать, чтобы данную ситуацию можно было выразить с помощью слова "программирование". Мы не перечислили, какие предметы и какие отношения нам следует применить, чтобы построенную сущность можно было бы назвать именно "программирование", а не, скажем, "курение" или "плавание" и т.п.
Возьмем также случай из практики построения информационно-поисковых языков: мы чувствуем родствó терминов, скажем, кораблестроительный факультет и кораблестроительная верфь. Будут ли истинны умозаключения "Факультет строит корабли" и "Верфь строит корабли", а также "Иван строит корабль" ?
Если мы хотим познать смысл данной вещи-термина, нам, по-видимому, следует в нашем анализе спускаться ещё ниже, т.е. выходить на уровень лексических значений или т.н. лексико-семантических признаков терминоструктуры. Признаки этого уровня, как мы сказали выше, имеют ме́ньшую абстрактность.
Итак, мы подошли к проблеме формирования содержания именно лексических признаков. Грамматические признаки [т.е. морфологические признаки (существительное, глагол, причастие и т.п.)] и синтаксические признаки (подлежащее, сказуемое, обстоятельство образа действия и т.п.)] нам уже даны русской или английской грамматиками. Т.е. содержание этих признаков нам уже не нужно формировать. Нам нужно лишь сформировать содержание признака инструментальность и других признаков этого уровня абстрактности. Что касается лексико-семантических признаков, то до сих пор не существует алгоритмов устойчивого классифицирования признаков такого уровня абстракции. Обычно принятое разбиение предметов на одушевленность/неодушевленность является самым первым шагом при описании терминоэлемента. Но считать терминоэлементы вида факультет или верфь неодушевленными сущностями, а Ивана сущностью одушевленной – такое разбиение понятий на классы нам кажется самым начальным этапом анализа. Не скрывается ли за факультетом и верфью одушевленность? Напрашивается вопрос: как размышлял человек, сочиняя термин кораблестроительный факультет или станкостроительный завод? Почему человек почти приравнял структуры "корабли строящий факультет", "корабли строящая верфь" и "корабли строящий Иван"?
Формирование содержания лексического признака «коммунальность»
В тексте вида "Иван строит корабль" отношения между двумя вещами прозрачны. Легко построить предикат «СТРОИТЬ (ИВАН, корабль) {Дополнение 8}.
Можно ли считать, что отношения прозрачны и в сообщениях вида "планета дышит", "государство производит", "область выпускает станки", "студенческая группа спит", "взвод сидит," "армия наступает" и т.п. ?
Анализируя содержание слов, составляющих такие предложения, мы чувствуем нечто общее между словами планета, государство, область, город, корабль, армия, фронт, факультет, бригада, конференция, парламент и т.п. Это общее является неким стержнем, объединяющим такие слова в некую группу/множество/кластер. Нам кажется, что эти слова притягиваются друг к другу потому, что выражают идею общности/коммунальности/сообщества/коллективизма. Действия, выполняемые планетой, армией, факультетом и т.п., являются коллективными действиями. Действователи (А.А. Потебня) являются сущностями одушевленными, но они названы обобщающим именем (бригада, звено, рота, студенческая группа и т.п.). Если человек способен строить корабль, то и коллектив людей (фирма, армия, страна, планета) способны выполнять этот процесс {Дополнение 9}.
Если мы решили толковать так термины вида "кораблестроительная верфь" и наша интерпретация "работает" на практике, тогда и нашего анализатора мы должны научить именно так понимать наш признак.
Этот признак мы назвали «коммунальностью», т.е. он вызывает в нашем сознании идею общности неких сущностей (entities), идею объединения сущностей в группы, в бригады, в армии и др. формы организации. Этот признак обладает большой покрываемостью (coverage) в тексте, т.е. понятие коммунальности, выражаемое вышеуказанными словами, часто используется человеком для выражения своих мыслей. Каждому "коммунальному" понятию можно определить место в соответствующем иерархическом дереве понятий. При анализе терминов вида кораблестроительный факультет терминоэлемент факультет мы будем толковать как некую коммунальность/одушевленность, а терминоэлемент инженер будет, естественно, интерпретироваться нами как некая одушевленная сущность.
Такое толкование позволяет нам строить следующие предикаты: "вычислять (СООБЩЕСТВО, – )", "строить (ВЕРФЬ, корабль)", "строить (ФАКУЛЬТЕТ, корабль)", ''строить (ФИРМА, корабль)" и т.д. Вещи сообщество, верфь, факультет, корабль, процесс строить – все эти сущности имеют конкретные места в отраслевой Системе Знаний.
Для описания некоторых терминоэлементов с помощью лексико-семантического признака "коммунальность" мы, разумеется, должны предварительно сформировать некую классификацию, и в этой классификации признак "коммунальность" займет свое место. Все сущности такой классификации могут, скажем, делиться на вещи и их качества/признаки/свойства: вещи – на одушевленные и неодушевленные, а процессы, производимые этими вещами, также являются признаками вещи. Иными словами, нами вещь рассматривается как субстанция, излучающая/демонстрирующая свои свойства/способности: компьютер способен обрабатывать данные, но компьютер не способен курить и т.п. Свойства-процессы мы в последующем можем разбить на интеллектуальные процессы, механические процессы и т.д. По мере анализа текстовых терминов эта классификация – и это важно – совершенствуется, уточняются связи между понятийными деревьями этой классификации.
Таким образом, мы видим, что пятипризнаковое моделирование позволяет получить значительно более многосторонний образ многословного термина или многостороннее описание терминируемого понятия.
О выражении одного признака с помощью другого признака
Каковы правила сочетаемости слов в пределах предложения или в пределах многословного термина, почему одни слова-предметы «тянуться» к другим словам-предметам и «отталкиваются» от иных слов – на эти вопросы еще не найдены ответы.
Обсуждая проблемы построения оптимальных терминов, хотелось бы отметить нижеследующий интересный и широко распространенный прием – выражение одного признака с помощью другого. Пример: «Дом лежит в 20 минутах ходьбы» (расстояние выражается через время) или «Долго идти? Это – в двух километрах.” (время выражается через расстояние, идея времени выражается через идею расстояния, образ времени выражается через образ расстояния/дистанции). По-видимому, такой прием возможен и при строительстве составного термина.
Возьмем английский термин trench knife (нож для рукопашного боя, букв. траншейный нож) и спросим себя: почему в этом термине человек признак ножа (траншея) применил для описания ножа (knife). Что этим человек хотел подчеркнуть? В чем причина объединения этих двух – казалось бы лексически далеких друг от друга – слов? Каково́ содержание межсловных отношений? Закономерен вопрос: каков должен быть нож, чтобы его можно было назвать «нож для рукопашного боя»? Слово траншея, по-видимому, было выбрано потому, что один из признаков траншеи показался человеку очень важным и информативным. Признаки траншеи глубина, длина, кривизна были забракованы.
Если в терминах вида trench-digging machine траншеекопатель [Судзиловский - 1968, с.860] семантическая формула «страдалец + процесс + действователь» прозрачна и легко опознается {Дополнение 10}, то термины trench knife [Судзиловский - 1968,с.860]) и trench bomb ручная граната (букв. траншейная граната) [Судзиловский - 1968, с.860] не совсем прозрачны.
В русском термине подчеркивается идея схватки «руками, вручную», но рукопашная схватка может происходить в поле, лесу, под водой и т.д. По-видимому, английский солдат хотел сказать, что траншейный нож должен быть коротким, а не длинным, ибо любая траншея – как место боя – характеризуется большой узостью. В таком месте нельзя быстро размахнуться – и схватку выигрывает боец с коротким ножом. То же самое и с гранатой: ее радиус поражения как раз подходит для узкой траншеи. По-видимому, для выражения идеи о длине ножа был использован признак малая ширина/узость, принадлежащий предмету траншея. В самом термине траншея признак малая ширина лишь подразумевается, явно в теле термина название этого признака отсутствует.
Наш вывод из данного обсуждения: русские варианты «траншейный нож» и «траншейная граната» были бы более информативными. Термин "нож для рукопашного боя" излишне длинный и излишне описательный. Признак траншея в двух английских терминах (trench knife, trench bomb) делает термины системно-одинаковыми. Русские "нож для рукопашного боя" и "ручная граната" объединены идеей "руки", а английские – идеей "малой длины/ширины/протяженности". В русской паре системность просматривается с трудом.
В искусственных Системах Знаний такой способ выражения лексического значения может быть очень продуктивным.
О понятии «заменитель термина» в статистических наблюдениях
Вышеуказанные проблемы можно отнести к вопросу о распознавании и извлечении терминов из текста. Нижеследующее явление также относится к проблеме ручного или автоматического извлечения терминов (manual and automatic term extractions).
При извлечении термина из текста наблюдаются многочисленные замены многословного термина более короткими терминами или повседневными словами и местоимениями. Иногда логико-лингвистическое поведение автора текста похоже на поведение патентоведа, формулирующего начало патентной формулы или формулы изобретения {Дополнение 11}.
В письменной речи первоначально используемый многословный термин, обычно объявляемый в самом начале текста, начинает постепенно свертываться в более короткий знак. Сказывается действие закона наименьших усилий – содержание речи не нарушается, а создается лишь более короткий знак. (Содержание может выражаться даже кивком головы или движением руки.)
При свертывании происходит, в том числе, замена видового понятия (например, электронная вычислительная машина) родовым понятием (вычислительная машина), а далее, это родовое понятие заменяется более верхним понятием (машина). Автор, как бы в своих размышлениях, перемещается по понятийному дереву снизу вверх (bottom – up), т.е. от частного к более общему, производя индуктивное умозаключение/рассуждение (reasoning).
Кроме таких замен понятий-знаков, принадлежащих одному и тому же понятийному дереву, автор речи часто заменяет термин коротким нетермином или сочетаниям вида «данная система», «вышеупомянутая программа» и т.п. Иногда в качестве такого заменителя выступают местоимения.
Такие замены сохраняют смысл предложения – такие заменители, при необходимости, можно снова заменить исходным термином, но стилистическая окраска предложения, безусловно, при этом изменяется {Дополнение 12}.
Если мы хотим знать реальную частоту, с которой наблюдаемый термин-понятие действительно появляется в отраслевых текстах, нам, по-видимому, целесообразно учитывать и все случаи замен данного термина. Важно, при этом, вести учет и лексического состава замен, а также учет случаев замены другим термином или нетермином. Предположим следующий примитивный текст: «Бабушка козлика очень любила. Она его потчевала морковкой каждый день.»
Целесообразнее считать, что «бабушка» и «козлик» здесь упоминались два раза, а остальные слова по одному разу. Возьмем следующий текст (из Интернета).
В тексте о российской межконтинентальной баллистической ракете морского базирования Р-30 «Булава-30» полное исходное название ракеты упомянуто только 1 раз, заменитель ракета – 4 раза, а заменитель Булава – 6 раз.
Выявление реального поведения термина в отраслевых текстах может способствовать проектированию более эффективных анализаторов научно-технических текстов, наращиванию интеллекта поисковых многоязычных тезаурусов, построению оптимальных дескрипторов информационно-поискового языка (ИПЯ).
При проектировании дорогостоящего анализатора текстов, нужно предусмотреть и анализ таких трудных текстов, как: «Мужчина в серой шляпе взял билет до Керженца. Затем серая шляпа долго сидела в станционном буфете.». С помощью своей Системы Знаний интеллектуальный анализатор должен распознать признак « в серой шляпе » как отъемлемый (распознавание неотъемлемости/отъемлемости см. в [3;4]), а процессы взял, сидела он должен присвоить предмету «мужчина». Заменитель серая шляпа должен толковаться/интерпретироваться как прием замены одного знака другим, без изменения объема значения исходного слова (original word).
Такие случаи многочисленных замен, по-видимому, обусловлены, повторяем, законом наименьших усилий и явлением иносказательности. При этом, отметим, что как сам термин, так и его заместители возбуждают в сознании эксперта один и тот же образ. Это лишний раз подтверждает необходимость учета всех способов выражения понятия – выражено ли данное понятие самим терминов или выражено лишь заместителем термина. Учет частоты и самого термина и его заместителей и составит истинное количественное наблюдение над терминами.
Резюме
Если принять гипотезу о «бездонности» любого предмета/вещи, то формализованное представление содержания такого предмета с помощью грамматических и лексических категорий является единственным средством описания богатства содержания предмета. При этом, чем бо́льшим числом признаков описывается предмет, тем лучше. (Вопрос о взвешивании важности признаков и действии закона Вильфредо Парето (20:80) {Дополнение 13} мы здесь не обсуждаем.) Предложенное пятипризнаковое описание внешней и глубинной структур составного термина может способствовать выявлению механизма строительства терминов и в последующем решению проблем нормализации и стандартизации терминологий.
Взаимосвязь между лингвистическими категориями, присутствующими в терминоструктуре, может фиксироваться в искусственных Системах Знания, имеющих вид семантической сети, фреймовой системы и т.п.
Введение понятия «заместитель/заменитель термина» создает возможность проводить истинное количественное наблюдение над терминами научно-технического текста. При таком наблюдении мы способны ответить на вопрос: Что собственно мы выявляем в тексте – только физические формы вида "двоичный компьютер", "двоичному компьютеру" и т.д. или реальные случаи применения данного понятия, выраженного как самим термином, так и его многочисленными заместителями?
Литература
(Глумов – 1986) В.И. Глумов. Структурно-семантическая организация составных терминов русского и английского языков (на материале текстов по вычислительной технике и программированию). (10.02.21 – структурная, прикладная и математическая лингвистика). Дисс. на соиск. уч. ст. к. филолог. н., Горький, 1986, каф. совр. русск. языка и общего языкознания Горьковского госуниверситета им. Н.И. Лобачевского.
(Глумов – 2009) В.И. Глумов. Роль триады и метонимии в семантической организации составного термина. С. 134-160. Сборник трудов участников Пятой Международной конференции "Горизонты прикладной лингвистики и лингвистических технологий (MegaLing-2009)", научное направление конференции: "Интеллектуальные системы обработки языка". Украина, Киев, сентябрь 2009 года, с. 134-160. info@megaling..ua (Также см. на персональном сайте gloumov.com)
(Глумов – 2009а) В.И. Глумов. О формализованном представлении лексических значений «голубоглазость» или "толстостенность" в англо-русских составных терминах». (с. 128-136). В: Мат-лы 2-ой Межд. научно-практич. конф. "Информационные технологии в гуманитарном образовании", Пятигорск, ГОУ ВПО "Пятигорский государственный лингвистический университет (ПГЛУ)", 22-23 апреля 2009 года. Изд. Пятигорск, ПГЛУ, 2009. – 554с. [http://itgo.pglu.ru] (Также см. на сайте gloumov.com)
(Судзиловский – 1968) Англо-русский военный словарь (Изд. 2-е) (Под общ. ред. Г.А. Судзиловского) –М.: Военное издательство, 1968. – 1063с.
(Уёмов – 1963) А.И. Уёмов. Вещи, свойства и отношения. – М.: изд-во АН СССР, 1963.
ДОПОЛНЕНИЯ
В связи с требованиями программиста, размещающего статью на сайте, сделанные в статье ссылки приняли вид "дополнений", имеющих сквозную нумерацию.
Дополнение 1
Под системой мы понимаем некое ограниченное множество предметов и межпредметных отношений. Тогда терминологическая система нашей предметной области (domain) содержит ограниченный набор как терминов-понятий, так и типов связей/отношений.
Дополнение 2
Такие термины мы хотели бы назвать «компаундами» (вслед за химиками), потому что возникает возможность процесс формирования компаунда назвать «компаундированием». Это едва ли не единственный случай, когда калька нам полезна, и ей трудно сразу придумать русский ёмкий термин.
Дополнение 3
Были использованы три признака: 1) морфологический признак (часть речи), 2) позиционный признак, т.е. указание номера позиции терминоэлемента в терминоструктуре относительно грамматически главного терминоэлемента (ядра), 3) синтагматический признак, т.е. указание направления данной грамматической связи от источника связи к приемнику связи. В результате такого описания создавалась возможность выявить – в теле термина – активность морфологических категорий, частоту синтагматических цепей и провести классифицирование таких цепей, выявить зависимость цепей от содержания грамматического ядра и т.д. Также было вручную описано содержание 19 признаков вида инструментальность, процессность, активный деятель, фиктивный деятель, объект-«страдалец», время, место/локативность, аблятивность/отсутствие признака, материал/сделанный из, устойчивость, мера/квантитативность, сходство/подобие, фамильность и т.п.
Дополнение 4
То есть управление с помощью данных, представленных числами, а числа имеют систему представления, а система представления может быть двоичной, восьмеричной, десятичной и т.д. Такое представление содержания понятия “binary control” , по-видимому, может помочь нам при формировании искусственной Системы Знаний, с помощью которой мы могли бы автоматически понимать термины – словарные и текстовые. Общее содержание понятия мы предлагаем выражать с помощью каскада [2, с. 126-132] из ниспадающих ступенек – на каждой ступеньке расположено умозаключение из двух актантов:
ступень: данные представлены числами
(данные и числа являются актантами, а представлены является связкой между актантами)
ступень: числа имеют систему представления
(здесь два актанта (числа и система представления) связаны связкой имеют)
ступень: система представления есть двоичная
(здесь присутствует лишь один актант (система представления) и его признак, актант и признак связаны связкой «есть»).
Умозаключение, расположенное на самой верхней ступени каскада, является самым общим. На каждой нижней ступени общее понятие как бы разбивается на составные, уточняющие понятия. «В таком каскаде нижнее предложение, будучи заполненное конкретным лексическим материалом, является наиболее важным и информативным. Это предложение назовем нулевым» [2,с. 126]. То есть в любом каскаде предложение на самой нижней ступеньке считается нами самым важным/опорным и информативным. Почему? Потому что в этом предложении описано самое существенное содержание понятия: система счисления может быть только двоичной, десятичной и т.д., признак двоичности или десятичности непосредственно принадлежит лишь предмету «система счисления». Этот предмет является исконным хозяином этого признака. Такой признак можно назвать прямым признаком (direct feature), в противоположность косвенному признаку (indirect feature). Если предмет теряет прямой признак, тогда данный предмет превращается в другой предмет, т.е. теряет свою самость/сущность. В случае же двоичная арифметика признак двоичная связан с предметом арифметика лишь косвенно, этим порождая некую яркость и иносказательность. Признак как бы порвал свою исконную связь (bond) со своим хозяином и убежал к другому предмету, который стал теперь его "косвенным" хозяином (indirect owner). Построенный таким образом терминологический знак несет некую яркость и необычность, но изобразить такой термин в виде предиката нельзя.
Предикатная запись в виде “ЕСТЬ (арифметика, двоичная)” нами считается ложной. Понятие двоичности лишь косвенно, а не прямо, связано с понятием арифметические операции (арифметика). Об истинности и неистинности признака мы так подробно говорим потому, что при построении, скажем, интеллектуального анализатора научно-технических текстов мы должны учитывать такое богатое содержание отношений между двумя терминоэлементами. Это богатство может стать большой преградой на пути формализованного представления описания семантической терминоструктуры.
Термин является своеобразным банком узкотематических знаний, а поэтому целесообразно пытаться описать эти знания с помощью предикатов, фреймов или семантических сетей.
Дополнение 5
То есть арифметические операции над числами с плавающей запятой [2,с. 38].
Дополнение 6
То есть запоминающее устройство в ЭВМ, хранящее данные, описывающие полуцветные образы. Так что следует привыкнуть к уже давно существующим терминам black memory (черная память), gray/grey memory (серая память). Они присутствуют лишь в текстах, но не в словарях.
Дополнение 7
Вычислительный термин FORTRAN-compiler (ФОРТРАН-транслятор) также имеет два значения: 1) программа-транслятор для Фортран-программ (т.е. для программ на Фортране) и 2) транслятор на Фортране (т.е. сама программа-транслятор написана тоже на языке программирования Фортран).
Дополнение 8
При построении искусственной Системы Знаний, на основе которой можно было бы автоматически понимать термины, открывается возможность перечислить всех деятелей нашей предметной области и при каждом деятеле указать его главные признаки. Так же можно поступить и с объектами-страдальцами. В последующем эти понятия войдут в искусственный объектно-признаковый язык.
Дополнение 9
В английской научно-технической литературе часто используется словосочетание «computing community” (вычислительное сообщество, общество вычислителей/пользователей вычислительной техники). Если мы хотим быть последовательными в своих рассуждениях, тогда предмет “community” мы должны считать одушевленным, и в предложении вида «Вычислительное сообщество объединяет миллион людей» мы должны видеть две одушевленности – «сообщество» и «люди».
Дополнение 10
В таком словосочетании отсутствуют лакуны между лексемами и словосочетание можно трансформировать в умозаключение “The machine digs trenches” (Устройство копает траншеи).
Дополнение 11
В патентной формуле кратко описывается содержание изобретения, особо выделяется отличие изобретения от других, указываются аспекты: «содержательная часть», «отличительная часть» и т.д. Описание занимает только одно предложение. В патентном поиске такое описание может служить в качестве поискового образа патента.
Дополнение 12
Ср. частое использование сочетания вида «данный прибор» или слова “said” в патентных текстах. Они применяются для обеспечения однозначного понимания речи.
Дополнение 13
Принцип Парето = Закон Парето = правило 20/80.
Интернет: fingeniy.com/princip-pareto-zakon-pareto-pravilo-2080/
ИНФОРМАЦИЯ:
Виктор Игнатьевич Глумов (V.I. Gloumov или Victor Ignatjevitch Gloumov) , к. филолог. н. (10.02.21 – структурная, прикладная и математическая лингвистика)
Данная статья, опубликованная в 2015 году, выложена на сайт gloumov.com 25 октября 2016 года.
| Скачать статью в pdf формате |

