2011г. Проблемы формализованного представления синтаксических значений в терминах

ПРОБЛЕМЫ   ФОРМАЛИЗОВАННОГО ПРЕДСТАВЛЕНИЯ   СИНТАКСИЧЕСКИХ  ЗНАЧЕНИЙ   В  ТЕРМИНАХ

 

Глумов Виктор Игнатьевич

Филиал РГГУ в г. Нижний Новгород,

кафедра гуманитарных и социально-экономических дисциплин, Нижний Новгород, Россия

gloumovvi@mail.ru 

 

Problems of formally representing

the syntactical meanings in terms

 

Victor I. Gloumov

 

The Nizhny Novgorod branch of the RGGU Moscow state university for the humanities, the chair for humanitarian and social-economic disciplines, Nizhny Novgorod, Russia

 

Из: Сб.  докладов на Международной научной конференции MegaLing’2011 «Горизонты прикладной лингвистики и лингвистических технологий». Направление конференции:  Интеллектуальные системы обработки языка

(Украина, Киев, 26-30 сентября 2011 года)

info@megaling.org.ua

 

Скачать статью в pdf формате

 

Реферат: Внешняя структура составных англо-русских вычисли-тельных терминов опи-сывается тремя признака-ми – морфологическим, позиционным и синтаг-матическим. Машинная обработка таких описаний выявила особенности поведения морфологичес-ких категорий в тер-миноструктуре, типы син-таксических цепочек терминов, частоты терминоэлементов.

Описываются особен-ности предмашинного ре-дактирования терминов.

Из выявленных 20 се-мантических признаков вида субъект, действие, объект, инструменталь-ность, место, часть-целое и т.п. формально описан признак неотъемлемой части/партитивности (inalienable part/partia-lity).

Описан алгоритм построения английских терминоэлементов вида «thick-walled толстостен-ный» и его применение в речи.

 

    Abstract. The surface structure of English-Russian computing compounds is suggested to be represented via three features – morphological, positional and syntagmatic. Within a compound structure, the computer-based processing of such representations made it possible to reveal how statistically behave both the morphological categories, the syntactical chains of compounds and the compound components themselves.

    Some specificity of preprocessing editing of compounds is discussed as well.

From 20 revealed semantic features similar to subject, action, object, instrumentality, locativeness, part-whole and the like there has been described the inalienable-part or partiality feature.

An algorithm for construct-ing an English compound component like thick-walled is suggested. How to employ it in speech analysis is also described.

 

Ключевые слова: англо-русские составные термины (компаунды), предмашинное редактиро-вание термина, статисти-ческое описание поверх-ностной структуры терми-на, семантическая структу-ра термина, семантический признак <неотъемлемая часть/партитивность (inalienable part/partiali-ty)>.

 

Keywords: compounding; English and Russian compounds; preprocessing edition of compounds; statistically describing a surface structure of compounds; compound semantic structure; semantic feature <inalienable part/partiality>.

 

 

Объектом наших количественного и неколичественного наблюдений являются английские и русские составные термины предметной области «Цифровая вычислительная техника и программирование». Составной термин может одновременно иметь как препозитивные, так и постпозитивные элементы; элементы в термине связаны только подчинительными отношениями [Головин - 1972, с.51].

Многозначность грамматической формы термина, сочетание прямых и косвенных отношений между элементами в пределах составного термина – эти явления требуют комплексного подхода к наблюдению над планом выражения и планом содержания термина. В нашем случае статистическое наблюдение над терминоструктурой составляло первый этап наблюдения, а ручное распознавание семантических признаков – второй этап. На первом этапе каждый элемент вводимого в компьютер термина описывался морфологическим, позиционным и синтагматическим признаками. Такие сведения о поверхностной структуре термина и сам термин составляли поверхностную модель термина. Результаты машинной обработки моделей показаны на рисунках 1-5. На втором этапе наблюдений было выделено и формально описано 20 логико-синтаксических признаков терминоструктуры: субъект, фиктивный субъект, реальный субъект, действие, объект, партитивность, инструментальность, локативность, сходство, назначение, квантитативность, сделанный=из, конкретизация, аблятивность (т.е. отсутствие признака), устойчивость, адресность/фамильность, идентификатор и т.д. {Дополнение 1, см. в конце статьи}.

 

Особенности предмашинного редактирования терминов

Проводиться ли отбор текстовых терминов в экспериментальный массив вручную или автоматически, формируется ли одноязычный или многоязычный массив терминов для последующей машинной обработки – эти многотрудные операции опираются на понимание нами значения таких лингвистических сущностей, как «слово», «терминоэлемент», «составной термин», «сложное слово». К сожалению, существующий сегодня разнобой в понимании содержания этих фундаментальных лингвистических понятий заставляет нас принимать свои рабочие решения относительно, скажем, границ между элементами в составном термине, терминированности составляющих термин элементов и т.п. В нашем случае, первый этап наблюдений мы выполняли с опорой на содержание наших семантических признаков. Например, обнаружив термин Hollerith data «холлеритовские данные» (с явно опознаваемым фамильным элементом) и, затем, обнаружив форму H-data, мы фиксировали в H-data искусственную машиночитаемую границу между элементами (H-#*data).

Для обеспечения эффективной машинной сортировки поверхностных моделей и терминов каждый текстовый термин подвергался предмашинному редактированию. Предредактирование включало в себя:

1) приведение грамматически главного элемента (т.е. ядра) термина к единой грамматической форме {Дополнение 2};

2) очистка термина от нетерминированных слов (т.е. проверка элементов термина на терминированность (termhood));

3) опускание артиклей в английских терминах (где это необходимо), акронимов (если акроним не является терминоэлементом);

4) расписывание именной группы с сочинительной связью (т.е. текстовый фрагмент вида “data and knowledge engineering” расписывался на термины: “data engineering” и “knowledge engineering”);

5) дописывание термина (т.е. в текстовой ситуации “the defective one” термин оформляется в виде “defective CPU”; причем элемент “CPU” порой обнаруживается далеко от элемента “defective”);

6) фиксирование естественной или искусственной границы между элементами в термине. Широкое употребление отраслевых акронимов (RAM memory (память с произольной выборкой, random-access memory)), фамильных элементов (Hollerith data), ярких названий процессов и устройств (divide and rule sorting “сортировка «разделяй и властвуй») – подобная речевая стихия форм требует особого внимания, если мы хотим быть готовыми к машинному сравнению терминов и их моделей и не потерять термины, столь нужные нам в отраслевом информационно-поисковом языке (ИПЯ).

Примечание 1: Если двухэтапное наблюдение планируется, скажем, над англо-русско-немецкими терминами одной и той же предметной области, тогда выбор объекта наблюдения – слова или морфемы – потребует ещё более жестких рабочих решений относительно таких понятий, как «терминоэлемент», «граница между терминоэлементами». Вероятнее всего, нужно будет отказываться от использования понятия «слово» и выбирать более надёжно распознаваемый предмет – морфему.

Явления сжатия терминоструктуры, наблюдавшиеся в нашем случае, по-видимому, возникают в немецких терминах еще чаще. Предложенное нами содержание надлексических признаков и диагностические трансформации для проверки объема содержания признака [Винокур - 1939] могут оказаться достаточными для формализованного представления многоморфемных терминов.

Покажем некоторые моменты предредактирования английских терминов. (Термины выделены жирным шрифтом. Подчёркнутые элементы составного термина  при машинной обработке не должны разрываться. При английском  термине указан его перевод на русский и даётся описание основного содержания английского термина.)

computer *memory (перевод: "машинная память" или "запоминающее устройство (ЗУ) ЭВМ);  number *radix (основание числа) {Дополнение 3}, text *synthesizer  (текстовый синтезатор, синтезатор речи); corpus *compilation (формирование корпуса текстов);  pattern *recognition (распознавание образов); information *retrieval (информационный поиск (IR), поиск информации); term *classification (классификация/классифицирование  терминов);  remote *debugging, (удалённая отладка (программ), дистанционно-удалённая отладка);

digital *computer (цифровая ЭВМ/компьютер, ЦЭВМ);  internal *memory(внутренняя память машины);  binary *control (двоичное/бинарное управление, т.е.  управляющая команда должна быть в двоичном коде);  black*memory ("чёрная" память, т.е. память,  хранящая данные, описывающие  чёрные образы/изображения) ;  сверхбольшая *ИС (сверхбольшая интегральная  схема) (ср. первая/вторая/третья  космическая скорость) ;

data *processing(обработка данных); corpus *compiling(формирование/организация/составление корпуса/массива текстов); high-speed *processing(высокоскоростная обработка); быстродействующая *память;  медносеребряный сплав;

radiation-proof *case (радиационно-устойчивый кожух); operator-proof *computer (безоператорный компьютер); idiot-proof *system (система, устойчивая против идиота, т.е. если одновременно вводить в систему  несколько команд, тогда система примет своё собственное решение  и будет его исполнять); безоператорный ввод ;  two-pass *compiler (двухпроходной транслятор) ;

GOTO *statement (оператор условного перехода GO TO) , LIFO-*list (список «последний пришёл – первым обслужен» = last-in-first-out *list);   bit-by-bit *comparison [поразрядное (автоматическое) сравнение];  step-by-step *compilation (пошаговая трансляция/сборка программы) ;

post mortum *dump ( послесчётный *дамп, т.е. букв. посмертный дамп, т.е.   в случае  вынужденного останова  программы  ( в случае "бездеятельности" программы) автоматически организуется  распечатка  полученных результатов, распечатка состояния программы – для последующего ручного  поиска причин сбоя.   dump = букв. свал  груза с самосвала на землю, на неподготовленное место, с целью срочного освобождения  кузова самосвала);

H-#*data (холлеритовские данные ( названы в честь  американского пионера в области обработки данных – Германа Холлерита (German Hollerith)));

divide and rule *sorting (*сортировка «разделяй и властвуй»; несмотря на наличие сочинительной связи в теле данного термина, мы  сохраняем в целости идентификатор   “divide and  rule”;  понятие "идентификатор" придумано нами, его мы считаем специальной условной морфологической категорией.  Для предотвращения программного разрывания таких словосочетаний  мы обозначаем  такие идентификаторы специальным знаком.

В вышеуказанных двухэлементных терминах содержание синтаксических связей  поражает своим многообразием. (Идиоматичность или образность препозитивного терминоэлемента может быть настолько высокой, что  даже вручную отнести его к той или иной части речи  уже представляет немалые сложности.) На рис. 1-2 видно, что в английской терминоструктуре первая препозиция может заполняться одной из семи обычных морфологических категорий. Частота появления каждой из этих категорий в трёх левых и трёх правых позициях показана на рис. 3. Зависимость между появлением этих категорий в левых позициях (т.е. в  препозициях)  от  содержания ядра (от содержания ядерной позиции),  мы описали в [Глумов – 2009]. Создаётся впечатление, что производитель научно-технической речи, планируя всесторонне описать обсуждаемый предмет, спешит сразу же объявить в ядре и слева от него самые важные признаки  терминируемого предмета, стремясь держать ядро всегда свободным справа, чтобы  в последующем иметь возможность прикреплять к ядру всё новые и новые его признаки. Ядро, ядерная позиция терминоструктуры должна быть в постоянной готовности к правому/прогрессивному расширению. В момент формирования  структуры знака мощно работают как закон линейности знака, так и закон наименьших усилий (the least-effort law). 

 : *processing data, *обработка данных, *распознавание образов, *сортировка «разделяй и властвуй»

: *processing digital data, *обработка цифровых данных, *распознавание цифровых образов, *processing digitized data,

                                   *обработка оцифрованных данных

: Fortran IF *statement (оператор IF Фортран-языка)

: natural text *processing (обработка естественных текстов), natural text *analyzer (анализатор естественных текстов).

Частоты морфологических категорий в этих синтаксических конструкциях представлены на рис. 1-2.

 

Статистические результаты первого этапа

Основные статистические результаты машинной обработки массивов английских и русских моделей и соответствующих массивов терминов [Глумов - 2009, с.137-138] представлены на рис. 1-2. На этих рисунках в каждой «клавише» перечислены морфологические категории, возникающие в данной позиции терминоструктуры.  Значение общей относительной частоты в каждой «клавише» равно единице. Величина частоты меньше 0,01 опускалась.

Примечание. Условные обозначения  в рисунках и в тексте.
   Знаком # (решетка) обозначен искусственно введенный пробел между терминоэлементами.
   Например: RESIDENT-#*routine (стандартная *программа РЕЗИДЕНТ).
   Знаком * (звезда) обозначен грамматически главный терминоэлемент (RESIDENT- #*routine).

 

а) английские морфологические категории:

 

N

Cуществительное общего падежа

NACR

 

Cуществительное-акроним

[ROM-#*memory (постоянное запоминающее *устройство; *ПЗУ, read-only memory]

ING

Причастие настоящего времени

ED

Причастие прошедшего времени

VN

Отглагольное существительное

GER

Герундий

GER*

Герундий, являющийся ядром термина

ADJ

Прилагательное.

ADJC

 

Сложно-составное прилагательное

[error-proof (сбоеустойчивый), alphameric (алфавитно-цифровой)]

I

Идентификатор.

[RESIDENT-#*routine (стандартная *программа RESIDENT)]. Элементы вида RESIDENT состав-ляют искусственный класс «идентификатор».

 

б) русские морфологические категории:

 

С

Существительное именительного падежа

 C*

Существительное именительного падежа, являющееся ядром термина

Срод

Существительное родительного падежа

Сдат

Существительное дательного падежа

Свн

Существительное винительного падежа

Ств

Существительное творительного падежа

Спр

Существительное предложного падежа

Сакр

Существительное-акроним (ЭВМ)

C-1

Существительное в 1-ой препозиции относительно ядра

C1

Существительное в 1-ой постпозиции относительно ядра

П

Полное или краткое прилагательное

П1

Сложно-составное прилагательное (водоустойчивый, сбоеустойчивый)

Пакр

Прилагательное-акроним [СВЧ-#*прибор]

ПЧ1

Причастие действительное

ПЧ2

Причастие страдательное

Н

Наречие

ИД

Идентификатор [РЕЗИДЕНТ-#*программа].

 

Предлоги указываются полностью, в круглых скобках.

На рисунках 1 и 2 с помощью «волн» мы хотим лишь показать некую динамику изменений активности морфологических категорий в конкретных пре- и постпозициях относительно ядра.

На основании рисунков 1-2 укажем (на рис. 3) активность морфологических категорий по мере приближения к грамматическому ядру – в препозициях (-1) – (-3) и в постпозициях (1) – (3). В каждой позиции возьмём первые 5 категорий. На дне столбца указано общее количество категорий, которые замечены в данной позиции.

Рис.1. Частоты появления английских морфологических классов в позициях терминоструктуры

 

Рис.2. Частоты появления русских морфологических классов в позициях терминоструктуры

 

Английская терминоструктура

П р е п о з и ц и я

Ядро

П о с т п о з и ц и я

-3

-2

-1

*

1

2

3

 

ADJ

0.46

 

N

0.49

 

N

0.56

 

N

0.85

 

(of)

0.48

 

N

0.56

 

N

0.78

 

N

0.3

 

ADJ

0.22

 

ADJ

0.14

 

GER

0.1

 

N

0.17

 

ADJ

0.15

 

GER

0.04

 

ADJC

0.07

 

ED

0.08

 

GER

0.09

 

VN

0.04

 

(for)

0.07

 

GER

0.04

 

(in)

0.04

 

I

0.05

 

ADJ

0.04

 

ADJC

0.08

 

NACR

0.01

 

I

0.06

 

(to)

0.04

 

ADJ

0.03

 

ED

0.04

 

NACR

0.04

 

ED

0.06

 

 

ADJ

0.04

 

ADJC

0.03

 

VN

0.03

 

Всего

8

классов

 

9

 

 

8

 

 

4

 

 

13

 

 

12

 

 

7

 

 

 

Русская терминоструктура

П р е п о з и ц и я

Ядро

П о с т п о з и ц и я

 

-3

-2

-1

*

1

2

3

 

 

П

0,75

 

П

0,55

 

П

0,71

 

С

0,98

 

Срод

0,5

 

Срод

0,6

 

Срод

0, 35

 

 

ПЧ2

0,15

 

П1

0,17

 

ПЧ1

0,11

 

САКР

0,02

 

П

0,17

 

П

0,1

 

Спр

0,12

 

 

П1

0,1

 

Н

0,1

 

П1

0,06

 

 

ИД

0,07

 

Ств

0,05

 

П

0,11

 

 

 

ПЧ1

0,07

 

ПЧ2

0,06

 

 

(с)

0,05

 

(на)

0,04

 

Ств

0,11

 

 

 

ПЧ2

0,06

 

С

0,04

 

 

(на)

0,04

 

(в)

0,04

 

САКР

0,1

 

 

 

 

 

 

 

 

 

Всего

3 класса

 

5

 

 

7

 

 

2

 

 

12

 

 

10

 

 

12

 

 
                 

Рис. 3. Активность морфологических классов в ближайших трех пре- и постпозициях

 

В [Глумов - 2009], опираясь на содержание предложенных нами семантических признаков, мы описали поведение морфологических категорий в терминоструктуре в зависимости от того, какой семантический признак становится грамматически господствующим.

Синтагматические цепи

В английских терминах обнаружено 76 и в русских терминах 96 видов цепей синтагматических связей. Наиболее частотные (свыше 1%) из них даны на рис. 4.

 

 

Тип синтагматической цепи

термина

Частота

%

Англий-ские

Русские

40,2

21,7

19,6

  8,5

  5,9

4

   8,9

3

 

  2,8

 

  2,6

 

  1,2

 14,1

 

    7,7

 

    7,5

 

 

 3

 

 

     2,9

Всего

81,9

    71,7

Рис.4. Частоты синтагматических цепей

То, что русской терминоструктуре свойственно правое расширение, особенно видно не на рис. 4, а на рис. 2. Такое обширное расширение говорит об излишней описательности русских вычислительных терминов. Здесь уместно отметить настораживающий факт, а именно чрезмерную активность формы родительного падежа существительного в постпозиции: см. на рис. 2 постпозитивные частоты морфологических классов:

 

*

1-ая

2

3

4

5

6

7

8-ая

 

0,5

0,6

0,35

0,53

0,42

0,1

0,5

0,4

 

Невольно вспоминается совет Б.Н. Головина [Головин - 1979, c.72] проявлять в нашей речи чрезмерную осторожность с «цепями» падежей, не употреблять «скопление» падежей, ибо употребление подряд идущих одинаковых падежных форм затемняет мысль. Его пример «обсуждение дела ускорения хода подготовки мер увеличения производства товаров ширпотреба» убедительно показывает, как увеличение родительной цепочки уменьшает доступность мысли.

Терминоэлементы

Ранг

Английский

терминоэлемент

f

 

Ранг

Русский

терминоэлемент

f

1

(of)

250

 

1

программа

345

2

data

182

2

данные

  84

3

system

167

3

(на)

  64

4

image

145

4

управление

  63

5

computer

118

5-6

(с)

  59

6

memory

107

5-6

язык

  59

7

program

  88

7

система

  58

8

time

  75

8

(в)

  48

9

processing

  65

9

память

  47

10

digital

  60

10-11

программный

  44

 

 

10-11

устройство

  44

Рис. 5. Фрагмент частотного словника

 

В массиве английских терминов всего оказалось 5994 терминоэлементов, среди них выявлено 1426 ранжированных терминоэлементов; в русском массиве из общего количества в 6420 терминоэлементов выявлено ранжированных 1035. На рис. 5 даны элементы первых 10 рангов. Предлоги указаны в круглых скобках. Английские терминоэлементы первых 10 рангов составляют 21,1 % от 5994 элементов, а русские первых 11 рангов составляют 14,1% от 6420 элементов.

Средняя длина английских вычислительных терминов оказалась равной 2,95 терминоэлементов, а русских – 3,21 терминоэлемента  {Дополнение 4}.

Процентное соотношение длин терминов показано в Таб. 6.

 

Таблица 6. Длина терминов (в терминоэлементах)

 

Кол-во

термино-

элементов

Англ.

%

Русск.

%

Кол-во

термино-

элементов

Англ.

%

Русск.

%

2

41,4

35,6

6

1,9

5,1

3

34,3

31,5

7

0,8

0,9

4

15,7

17,4

8

0,2

0,7

5

5,7

8,8

 

 

 

 

Семантический этап

Называя наш этап «семантическим», хотелось бы уяснить себе вид семантики, с которой мы имеем дело в термине. Элемент занимает свое место в  линейно-организованной терминоструктуре с учетом его лексического значения и значения грамматического. И лексическая,  и грамматическая системы языка отражают материальную действительность.

Наши признаки надлексичны, их абстрактность позволяет считать их универсальными. По своей абстрактности они одинаковы, т.е.  гомогенны.  В [Глумов - 2009] мы описывали их текучесть и аморфность. Единственным вспомогательным средством для фиксирования их объема содержания мы считаем проверочную или диагностическую трансформацию.

В [Глумов - 2009] тройку признаков (т.е. субъект, его действие и объект-страдалец) предложено считать неким центром, вокруг которого располагаются остальные вспомогательные (уточняющие) признаки.

Неотъемлемая частичность

Ниже мы рассмотрим один из наших признаков – признак частичности (часть-целое: computer *memory, машинная *память, *memory of computer, *память компьютера), а именно один из его оттенков – идею неотъемлемости, неотъемлемой партитивности (inalienable part/partiality).

Существует большой слой английских и русских сложных слов вида narrow-winged, узкокрылый, выражающих идею неотъемлемости от некоего целого. Этим целым может быть сущность aircraft «самолет». При проектировании лексических единиц поисковых многоязычных тезаурусов, такой (относительно легко машиночитаемый) элемент можно встраивать в тело поискового дескриптора – например, narrow-winged aircraft «узкокрылый самолет, самолет с узкими крыльями». При этом, принимается, что значение неотъемлемости внешне – лексически и грамматически – выражается формами самолет имеет узкие крылья, самолет с узкими крыльями, узкие крылья имеющий самолет и т.д.   {Дополнение 5}. В специальном тезаурусе можно специально указать целое (aircraft), его неотъемлемую часть (wing) и признаки этой части (narrow, wide).

Содержание и имя этого признака («голубоглазость» blue-eyedness)  впервые  предложены А.И. Смирницким в [Смирницкий - 1956, c.118]. Мы считаем, что содержание этого признака можно формализовать и применить, скажем, при нормализации лексических единиц информационно-поискового языка.

Условно этот признак можно назвать и «ширококрылостью», и «теплокровностью», и «длинноносостью». Важно, чтобы его содержание не сливалось с содержанием соседних признаков такого же уровня абстракции.

Укажем внешнее выражение этого признака в разнообразных предметных областях.

 

Примеры:

thin-walled (толстостенный, с толстыми стенками),

long-legged (длинноногий, с длинными ногами),

warm-blooded (теплокровный, имеющий теплую кровь),

broad-leaved (широколиственный, с широкими листьями),

big-boned (ширококостный, с широкой костью/костями),

long-horned (длиннорогий, с длинным рогом/рогами),

long-haired (длинношерстный, с длинными волосами),

concrete-surfaced (с бетонной поверхностью) [например, concrete-surfaced runway (бетонная взлетная полоса, взлетная полоса с бетонной поверхностью)].

Лексическое значение сложного слова blue-eyed  есть сумма значений его компонентов. Значение, например, blue-eyed children «голубоглазые дети» эквивалентно значению, выраженному формой children with blue eyes «дети с голубыми глазами». Как отмечает А.И. Смирницкий, в словосочетании with blue eyes предлог with является семантическим эквивалентом суффикса –(e)d в blue-eyed. Это замечание для нас очень перспективно потому, что при автоматическом анализе предложной группы, скажем, вида with wide wings «с широкими крыльями, ширококрылый» предлог with оповещает нас, что с определенной долей вероятности он несет значение суффикса –(e)d в терминоэлементе long-winged, wide-winged и т.д. Теперь взгляните на активность предлогов “with” и «с» на наших рисунках 1-2. Эти предлоги – важные элементы составных терминов: частота появления предлога with следом за ядром равна 0,04, а предлога «(с)» равна 0,05.

Комплекс blue-eyed представляет собой сложное слово, это сложное слово является образованием цельнооформленным – в отличие от сочетания слов вида with blue eyes. Цельнооформленность слова blue-eyed дополнительно подчеркивается здесь тем, что словообразующий суффикс –(e)d относится в этом слове ко всему отрезку blue-eye-, как к целому, а не только к его компоненту -eye- (так как blue-eyed значит примерно голубые-глаза имеющий, а не «голубой глаза-имеющий») [Смирницкий - 1956, с.118] {Дополнение 6}

В практических целях, при отборе терминов в машинный массив, мы хотели бы мыслить комплекс blue-eyed как <голубыми-глазами-обеспеченный, голубыми-глазами-снабженный, голубыми-глазами-оборудованный>. То есть мы хотим показать здесь присутствие грамматической пассивности.

Для желающих применять формулу «голубоглазость, blue-eyedness» в своей речи сознательно (и различать ее в тексте), мы предлагаем следующий алгоритм.

Представьте себе, что вы мыслите себе следующую производственную ситуацию: «Есть подросток и нужно выразить на английском языке мысль, что у подростка «неотъемлемо» имеются голубые глаза, т.е. что он – голубоглазый или с голубыми глазами». Стройте английское сложное слово blue-eyed с помощью следующих шагов.

Шаг 1. Вообразите себе некую абстрактную Систему Знания или поисковый тезаурус, в которых задано понятие ЧЕЛОВЕК или ЛЮДИ. Наш подросток принадлежит этому классу, т.е. мы имеем дерево понятий, а понятие подросток на этом дереве занимает вполне конкретное место.

Шаг 2. Наделим сущность подросток некоторыми неотъемлемыми признаками – плечо (shoulder), голова (head), сердце (heart), душа (soul) и т.п. (Или построим такие утверждения: подросток имеет плечи, подросток имеет душу, и т.п.). Перечислим в тезаурусе эти части при их владельце.

Шаг 3. Каждый неотъемлемый признак может принимать конкретное значение:

плечи есть широкие, shoulders ARE broad;

нос есть длинный, nose IS long;

душа есть добрая, soul IS good, и т.п.

[Возможны и другие виды фиксирования связи между признаком и его хозяином.]

Шаг 4. Взяв значение long признака nose, мы образовали комплекс long-nose, которому затем присвоим форму английского причастия прошедшего времени. Получилось long-nosed = длинноносый, т.е. с длинным носом, имеющий длинный нос, «оснащенный или оборудованный длинным носом».

В результате мы получили “a long-nosed teenager” или “a teenager with a long nose”, т.е. длинноносый подросток, подросток с длинным носом.

Испытайте этот алгоритм в другой ситуации – ситуации с кошкой, которая имеет длинный хвост, с собакой, имеющей черную шерсть, и т.п. Получим  long-tailed  длиннохвостый, black-haired черноволосый.

Возьмем предметную область «авиация». Пусть есть ситуация взлетная полоса (runaway), взлетная полоса имеет неотъемлемо принадлежащую ей поверхность (surface), и эта поверхность есть бетонная (concrete). Полученное образование concrete-surfaced runway (бетонная взлетная полоса) структурно ничем не отличается от long-tailed dog (длиннохвостая собака), long-nosed teenager и им подобным.

Теперь опишем ситуацию с цистерной (tank), имеющей стенки (wall), которые есть тонкие (thin). Не забывая о пассивности, получим a thin-walled tank (тонкостенная цистерна).

Длиннохвостость (long-tailedness), бетонноповерхностность (concrete-surfacedness), длинноносость (long-nosedness), добросердечность (good-heartedness), тонкостенность (thin-walledness) по абстрактности ничем не отличаются от голубоглазости (blue-eyedness).

Язык для описания такой сущности-хозяина с его неотъемлемыми частями может считаться объектно-признаковым языком.

 

Об обязательности неотъемлемости

Отношение «иметь в качестве неотъемлемой части», задаваемое между единицами формализованного языка, характеризуется жесткой прагматичностью. Если вдуматься, мы прагматичны постоянно. Описывая любой предмет ограниченным числом признаков, мы огрубляем действительную картину мира.

Так и в нашем случае – часть человеческого тела мы считаем неотъемлемой (inalienable), а, скажем, 100 рублей – отъемлемой вещью   {Дополнение 7}.

При формализованном представлении терминов, несущих определенную долю образности {Дополнение 8}  и в которых между элементами мы усматриваем наличие метонимических пропастей/провалов (gaps, pits), мы предлагаем мостить (to bridge, bridging) эти пропасти c помощью примитивных предложений (примитивов), выражающих прямые парадигматические связи между терминоэлементами {Дополнение 9}. При формировании таких примитивов явление неотъемлемости приходится специально оговаривать.

 

Об одноглазости

(one-eyed «одноглазый»   one-eyedness или single-eyedness «одноглазость»).

Этот случай можно считать частным случаем голубоглазости. Для этого случая последнее трансформационное предложение будет иметь вид:

eye IS one, eye IS single (глаз есть один/единственный). Примеры:

a one-armed man «однорукий мужчина»,

a one-bedded room «одноместный номер гостиницы»,

a three-bladed propeller «трёхлопастный пропеллер, пропеллер с тремя лопастями»,

a four-engined aircraft «четырёхмоторный самолет».

 

О многоглазости

(many-eyed «многоглазый»   multi-eyedness «многогла-зость»)

Этот случай также можно считать частным случаем голубоглазости. Для этого случая последнее трансформационное предложение будет иметь вид:

eyes are many (глаз – много).

Примеры:

many-sided configuration «многосторонняя конфигурация»,

many-sided decision «многостороннее решение»,

many-storeyed  building «многоэтажное здание».

Покажем способ проверки терминоэлемента на неотъемлемую частичность.

 

Схема 7. Термин и его примитивы

 

Словосочетание

 

Проверочные трансформации

           (примитивы)

 

 

red-cheeked boy

краснощекий

мальчик

 

 

 

Boy   has    cheeks

                       

                     Cheeks   are   red

или

 

Boy “is=equipped=with” cheeks

                                           

                                     cheeks are red

 

 

 

Или трансформация (для плоскодонная лодка) может иметь такой вид:

 

If

  a boat has  a bottom

and if

   its bottom  is  flat  ,

then

  a  flat-bottomed boat

Если

    лодка  имеет  дно

и если

    ее  дно  есть  плоское,

тогда

     плоскодонная лодка

 

Примечание 2: Из многочисленных значений связки «есть» для данного случая (дно есть плоское, бумага есть белая) мы мыслим ее как приписывание некой определённости – в противоположность ее родовидовому значению (Иван есть человек) и ее значению тождества/равнозначности (Квадрат есть равносторонний прямоугольник).

 

В устной или письменной речи сам терминоэлемент со значением неотъемлемости нет надобности запоминать. Нужно лишь знать содержание данной процедуры вывода формы «голубоглазых» терминоэлементов. Иными словами, пользователь алгоритма становится похожим на того математика, который, забыв саму формулу, но, зная алгоритм её вывода, тут же эту формулу выводит.

Название «голубоглазый» нравится изучающим английский язык потому, что они впервые видят некую регулярность и стандартность в построении сложного слова, видят взаимосвязь между его компонентами. Они лишний раз убеждаются в том, что язык с помощью своих ограниченных средств формирует бесконечную речь, выражает беспредельность конкретности опыта. Это же следует знать и поисковому индексатору, описывающему смысл документа с помощью термина, несущего признак неотъемлемости.

Заключение

Исследуя линейную логико-синтаксическую структуру многословного термина, мы исходим из того, что эта структура возникла как результат деятельности лексической и грамматической систем естественного языка. Обе эти системы отражают особенности материальной действительности. Об определённой осмысленности термина Г.О. Винокур писал следующее: «Логическая осмысленность, присущая термину, как названию понятия, сказывается также в том, что не только лексический материал термина связан определенными взаимоотношениями с реальными качествами именуемого предмета и с той областью бытия, к которой этот предмет относится. Эта связь и обусловленность обнаруживается также и в грамматическом построении термина» [Винокур - 1939, с.8].

«Взвешивая» зна́чимость любого из выделенных нами семантических признаков, мы не можем не учитывать особенности человеческого труда, которые описаны еще К. Марксом. Он усматривал в труде следующие три момента: 1) целесообразная деятельность, или самый труд, 2) предмет, на который действует труд и 3) орудия, которыми он действует  {см. Карл Маркс. Капитал, т. 1. М., 1932, стр. 121 (цитата взята у Г.О. Винокура [Винокур - 1939,c.11])}.

Отсюда вытекает особая зна́чимость признаков субъект, действие, объект, а также инструментальность [Глумов - 2009].

Наблюдение над содержанием логико-синтаксических признаков может способствовать формулированию содержания понятия «терминоэлемент». Это понятие является опорным при описании любой терминосистемы, которая «должна быть составлена из наивозможно ме́ньшего числа отдельных терминоэлементов» [Лотте - 1940,с.94].

Вслед за Р.Г. Котовым [Котов - 1983], мы считаем, что объектами стандартизации могут быть семантические модели вида:

<инструментальность – действие>

(automatic processing “автоматическая обработка”, laser programming “лазерное программирование”),

<объектдействие>

(text processing “обработка текстов, текстовая обработка”, image recognition “распознавание изображений”),

<неотъемлемостьцелое>

(flat-bottomed boat «плоскодонная лодка», multi-sided configuration «многосторонняя конфигурация»)

и другие модели этого уровня абстракции.

Многоаспектное исследование терминов способствует разработке алгоритмов автоматического извлечения терминов из текста (term mining) и их автоматического классифицирования. Опуская многочисленные сферы применения терминов, отметим лишь, что исследования терминоструктуры совершенствуют научно-техническую речь. И более того – оптимально-построенный терминологический знак принесет еще бóльшие плоды, ибо «правильное название становится условием правильного мышления» [Винокур - 1939,с.7].

Литература

(Виноградов – 1972) В.В. Виноградов. Русский язык: Грамматическое учение о слове.– М.:Высшая  школа,1972. –614с.

(Винокур – 1939) Г.О. Винокур. О некоторых явлениях словообразования в русской технической терминологии. Труды Московского института истории, философии и литературы (МИФЛИ), Том 5. – Москва, 1939, с. 3-54.

(Глумов – 2009) В.И. Глумов. Роль триады и метонимии в семантической организации составного термина (с.134-160). В: Сборник трудов участников Пятой международной конференции «Горизонты прикладной лингвистики и лингвистических технологий» (MegaLing’2009), Киев, Украина. 21-26 сентября 2009 года. Изд-во ДОВИРА, Киев, Украина, 2009. – 528с. (info@megaling.org.ua) (http://www.rsuhnn.ru) (Также сайт

gloumov.com)


(Головин – 1972) Б.Н. Головин. О некоторых проблемах изучения терминов. Вестник Московского университета, 1972, № 5: Филология, с. 49-59.

(Головин – 1979) Б.Н. Головин. Как говорить правильно. Заметки о культуре речи. Изд. 2-е. Горький, Волго-Вятское изд-во, 1979. –160с.

(Котов – 1983) Р.Г. Котов. Развитие терминологии и информационные потребности современного общества. Проблемы разработки и упорядочения терминологии в Академиях наук союзных республик. – М.:Наука, 1983, с. 37-48.

(Лотте – 1940) Д.С. Лотте. Некоторые принципиальные вопросы отбора и построения научно-технических терминов//Изв. АН СССР. Отделение технических наук. 1940, №7, с.79-98.

(Потебня – 1958) А.А. Потебня. Из записок по русской грамматике. Том I-II. М.:Гос. уч.-педагог. изд-во Мин-ства просвещения РСФСР, 1958. –536с.

(Смирницкий – 1956) А.И. Смирницкий. Лексикология английского языка. – М.: изд-во лит-ры на ин.  языках, 1956. – 260с.

 

Дополнения

Дополнение 1 Особенности формализованного представления логико-грамматической структуры англо-русских вычислительных терминов описаны в нашем докладе на MegaLing’09 [Глумов – 2009,с. 134-160]. (Также см. сайт http://www.rsuhnn.ru и перс. сайт gloumov.com)

Дополнение 2 Такое ядро обозначено знаком * (звезда). Изменяя форму ядра, мы изменяем и формы соответствующих элементов обрабатываемого термина. Термин присутствует в экспериментальном массиве только один раз, т.е. перед обработкой очередного термина он проверяется на присутствие в исходном массиве уже отобранных терминов.

Дополнение 3 В русских вычислительных терминах мы обычно не указывали звездой грамматически главный элемент составного термина, т.е. ядро термина.  Там же, где мы намеренно выделяли ядро, мы хотели подчеркнуть трудность его ручного распознавания – не говоря об автоматическом его распознавании в будущем.  Примеры: “сверхбольшая *ИС”,  “*система, устойчивая против идиота”, “*список «последний пришёл – первым обслужен»”,  “послесчётный *дамп”, “ *сортировка «разделяй и властвуй»”  (отметим присутствие сочинительной связи в идентификаторе).  
В русских многословных терминах  ядро программно опознается куда легче, чем в английских  терминах.  Об этом говорят и наши результаты на рисунках 1 и 2. 

Дополнение 4 Более подробные сведения о многопризнаковом описании английской и русской поверхностных терминоструктур выложены на сайте http://www.rsuhnn.ru. и сайте gloumov.com.

Дополнение 5 Сравните у А.А. Потебни: “он носит меч”, “носящий меч”, “носитель меча”, “меченоситель”, “меченосец”, “меченоша”, «меченосный» [Потебня – 1958,c.72]. Приёмы трансформирования словосочетания в предложение исследованы также в работах Ф.Ф. Фортунатова, А.М. Пешковского. Укажем здесь лишь точку зрения В.В.Виноградова на то, что «комбинации знаменательных морфем в пределах слова в той или иной мере являются аналогами комбинаций слов в словосочетаниях или предложениях…» [Виноградов – 1972].

Дополнение 6 Во время предварительного редактирования извлечённых из текста терминов мы не разрушали этот словесный комплекс, потому что уже знали о содержании признака "неотъемлемой частичности". Иными словами, разбиение составного термина на элементы проводилось нами на логико-семантических основаниях, а не формально.

Дополнение 7 Вспомним ту «блоху» Чарлза Филлмора  (Charles J. Fillmore), которая, как он заметил в своей книге The Case for Case (1968) (Дело о падеже), у некоторых африканских племён считается частью неотъемлемой.

Дополнение 8 Примеры таких терминов:  binary control (двоичноеуправление),  binary arithmetic (двоичная арифметика)binarymemory (двоичная память)black memory (букв.чёрная память, т.е. машинная память, содержащая данные, описывающие чёрные образы/изображения) и т.п.

Дополнение 9 См. раздел «О метонимии и каскадировании» в [Глумов – 2009,с.152-154].

 

ИНФОРМАЦИЯ: 

В.И. Глумов (V.I. Gloumov) , к. филолог. н. (10.02.21 – структурная, прикладная и математическая лингвистика),  зав.  кафедрой  гуманитарных и социально-экономических  дисциплин Нижегородского филиала Российского Государственного Гуманитарного Университета (РГГУ, г. Москва).

 

Данная статья, опубликованная в 2011 году, выложена на сайт gloumov.com  30 августа 2015 года.

Скачать статью в pdf формате

Помощь для Joomla.