2014г. О формализованном представлении лексических значений: аспект автоматического понимания речи

Из: с. 62-68. Сборник статей по материалам XI Международной научной конференции «Мировоззренческая парадигма в философии: культура определения бытия и сущего» (Нижний Новгород, Нижегородский филиал Московского государственного университета экономики, статистики и информатики (МЭСИ), 12 февраля 2014 года). Изд. НФ МЭСИ, Нижний Новгород, 2014. – 350с.
О формализованном представлении лексических значений:
аспект автоматического понимания речи
В.И. Глумов
Нижегородский филиал Московского государственного университета экономики, статистики и информатики (МЭСИ), Нижний Новгород, Россия
About how to formally represent lexical meanings:
the aspect of automatic speech understanding
V.I. Gloumov
The Nizhny Novgorod branch of the MESI Moscow state university
for economy, statistics and computer science, Nizhny Novgorod, Russia
| Скачать статью в pdf формате |
Чтобы сформулировать наш подход к строительству некоего виртуального анализатора письменной речи, сопоставим три класса языков – язык интеллектуальных картографических систем (ГИС), язык программирования и естественный язык. Нечто общее в них позволяет назвать их одним и тем же словом. Можно сказать, что эти системы реализуют следующее методологическое положение: весь мир содержит лишь вещи и их качества. Вещь и её качества взаимообусловлены, но приоритет существования оставлен за вещью. “Вещь – это система качеств. Качество, свойство, признак при таком подходе есть отношение предмета к другому предмету.” [Уёмов - 1963, с.21]. Согласимся с таким взглядом В. Даля: “Всякая наука, каков бы ни был её предмет, изучает вещи, их свойства и отношения” [Уёмов - 1963, с.3]. Также В. Даль отмечал, что в широком смысле вещь – это всё то, что доступно чувствам [Уёмов - 1963, с.5] .
Линейную последовательность словоформ можно рассматривать как последовательность имён вещей и их признаков. Расположение словоформ определяется как законами языка, так и целью речи.
Вооружившись таким подходом, посмотрим на мир картографических предметов и межпредметных отношений. В ГИС формализованное отношение вида “мост – вода” позволяет системе правильно вычислять, скажем, площадь всей реки, прерываемой многочисленными мостами. Модель или «картина мира» содержит факт о том, что вода в реке присутствует и под мостом. Такого знания системе достаточно, чтобы она, вычисляя водное зеркало реки, не обращала внимания на мосты. Человек же тоже под рубашкой предполагает существование тела. Если в такой ГИС более детально описать лексические значения знаков, тогда система становится способной распознавать разнообразные сбои в своей “картине мира” – например, распознавать ошибочно поставленный в болоте условный знак корабля. Система толкует или понимает абсурдность отношения “корабль – болото” {См. Примечание 1 после раздела «Литература»}. Такое понимание возможно на основе предварительно построенного искусственного языка (ИЯ), в терминах которого были описаны отношения вида “корабль-вода”, “корабль-глубина моря” и другие многочисленные отношения, характеризующие данную предметную область.
Сведения о необходимой глубине моря для конкретного предмета оформляются в виде умозаключений-предложений. Такие предложения считаются фактами, описывающими “картину мира”. В [Глумов - 2009, с.146-48] мы назвали их примитивами. Опираясь на примитивы, система распознаёт неистинность утверждения вида “бомбардировщик сел на корабль”, “Иван съел быка”, “Иван съел ещё тарелочку” {Примечание 2} и т.п. Отношение между кораблём и минимально достаточной глубиной моря для плавания корабля в принципе ничем принципиальным не отличается от описания отношения между, скажем, человеком и его способностью “съесть быка”.
В языках программирования мы усматриваем такую же логику распознавания предметов и отношений: ЭВМ толкует одну цепочку символов как программную команду, а другую цепочку как данные; машина также опознаёт синтаксические и логические ошибки в программном тексте, а также “понимает” синтаксическую структуру предложения.
Огрубляя картину, можно утверждать, что и система естественного языка (ЕЯ) работает на основе все тех же принятых соглашений о соответствии смысла и выражающих его знаков. Конкретным грамматическим значениям и лексическим значениям поставлены в соответствие конкретные формы их внешних выражений. И в этой системе картина мира представлена предметами и межпредметными отношениями. В сообщенном факте вида “Иван перешагнул реку Волгу у Нижнего” картина микромира прозрачна: некий предмет (именованный “Иваном”) выполнил действие над другим предметом (“река Волга”) недалеко от предмета “Нижний Новгород”. По своей сложности грамматический образ, вызванный этим текстом, ничем принципиальным не отличается от образа, вызванного предложением Л. В. Щербы – «Гло́кая ку́здра ште́ко будлану́ла бо́кра …».
Вслед за грамматикой возникает вполне естественный вопрос: А что это за предметы: “Иван”, “перешагивать”, “Волга”, “Нижний”? Иными словами, нам следует очертить область лексического значения каждого слова и формально описать эти значения в терминах некоего искусственного языка (метаязыка).
В нашем сознании этот длинный лингвистический знак вызвал сложный образ или идею. Этот образ можно считать откликом или реакцией системы сознания на словесное раздражение. Какими признаками можно описать этот образ? Среди этих признаков должны быть и такие, с помощью которых можно было бы распознать истинность или ложность факта. Эти многочисленные признаки составляют область лексического значения слова?
Сколько признаков присутствует в образе, вызванном в нашем сознании словом “Волга”? Их может быть бездонное количество {Примечание 3}. Среди них есть и признак “ширина Волги у Нижнего” – вернее, признак “ширина”, получивший значение “ширина Волги у Нижнего” {Примечание 4}. О таких признаках школьник узнает из объяснений учителя, из дефиниции отраслевого термина, а также из мирового фонда документов и других многочисленных источников знаний.
Многозначный термин рождает и многогранную «картину мира», но этот образ все равно понятен профессионалу – на основе анализа ближайшего контекста, а, может быть, и контекста дальнего. Укажем семантическую размытость (fuzziness) термина вида air cooling (воздушное охлаждение). Он вызывает в нашем сознании три образа:
1) охлаждение воздухом [семантическая формула <действие+инструмент> {Примечание 5}];
2) охлаждение воздуха (формула <действие +объект>);
3) воздух, охлаждая (<деятель+действие>).
Контекстом синтаксическую многозначность здесь снять можно. Ломаются ли сами вещественные значения слов air и cooling при их многоразовой эксплуатации? Об их сохранности читаем у Б.Н. Головина [Головин - 1978]: «Дискретность знаков языка, как одно из фундаментальных их свойств, связана и с дискретностью семантики этих знаков, с дискретностью их значений. Именно поэтому значения знаков языка воспроизводимы, как и сами знаки в целом, и хотя эти воспроизводимые значения получают некоторое варьирование в речи, такое варьирование не устраняет устойчивых инвариантов каждого из значений (курсив – мой – В.Г.), чем и обеспечивается возможность взаимопонимания. Значения знаков языка (их семантика) не актуальны в текущих ситуациях общения, т.е. не подвергаются сиюминутным воздействиям этих ситуаций (курсив – мой – В.Г.)». Эту устойчивость вещественных значений в речи мы применим при формировании (нижеследующих) рядов “родственных” слов.
Как язык с помощью своих грамматических и лексических значений справляется со своими коммуникационными задачами? Иными словами, мы хотим ответить на принципиальный вопрос Р.И. Павилёниса «… что́ знает человек, когда он понимает выражение» языка? [Павилёнис - 1983, c.9]. В нашем случае, проектируя анализатор, мы спрашиваем себя: что в него надо встроить, чтобы он “понимал” текст – хотя бы на уровне начинающего школьника, т.е. примитивно и огрублено? Хватит ли анализатору абстрактности лингвистических значений?
Будем рассуждать так: если считается, что «чистых мыслей» не существует, и что любая возникшая мысль мгновенно «отягощается» словом, а слово – это уже представитель системы языка, то следует признать некое господство лингвистических значений – единственных инструментов, с помощью которых язык выражает весь мир и обеспечивает бесконечность речи. Складывается ощущение, что мы недооцениваем описательную мощь лексических значений, хотя часто говорим, что “слово – это весь мир”.
Высокую абстрактность и описательную силу лингвистических инструментов отмечали ещё классики. Вот как академик А.А. Шахматов определял, например, содержание категории дательного падежа: «дательный падеж означает признак, направляющийся к зависимой субстанции, но не достигшей её». А академик В.В. Виноградов очень красивым считал определение значения винительного падежа, предложенное немецким лингвистом Я. Гримом: «Accusativus обозначает самое полное, самое бесповоротное овладение предметом со стороны понятия, заключенного в глаголе …».
О структурировании значений. Для запоминания слов человеку свойственно классифицировать слова на том или ином основании. Происходит разбиение мира на группы или кластеры. Основанием разбиения могут быть родовидовые отношения, отношение «часть-целое», идея «инструментальности», «лошадность» (Платон), «русскость» и т.п. Проблема структурирования значений стала актуальной в связи с автоматизацией понимания научно-технической речи на основе искусственных Систем Знания, способных производить автоматический вывод (inference).
В нашем случае мы строим особые классы, а именно, логико-семантические ряды – каждый ряд содержит лишь тематически близкие или гомогенные предметы. Идея «сту́лости», скажем, объединяет слова-предметы стул, диван, кушетка, детский стул (в значении «мебель»). Будем считать, что предмет “стул” излучает не́кую “сту́лость” и эта же “сту́лость” излучается предметами “диван”, “кушетка” и другими членами ряда. Здесь логичен интересный вопрос: а что нужно отнять у стула, чтобы стул перестал называться стулом? Вопрос принципиально важен для теории распознавания: мед. «какие признаки нужно распознать, чтобы данную болезнь не считать «раком»?» или «какие признаки нужно потерять, чтобы «ру́сскость» перестала быть «ру́сскостью»? Иными словами, некую идею или образ мы описываем ее признаками, а затем пытаемся найти текстовые цепочки, где этот образ реализован. Цепочки, при этом, могут лексически совсем отличаться друг от друга. В качестве примера попытаемся найти общую идею, объединяющую, казалось бы, необъединяемое – попытаемся объединить понятия “лазерное программирование” и “полив хлопка”.
Примитивно и грубо опишем идею “лазерного программирования”: “Человек с помощью лазерного луча ломает стенки между отсеками некоторой камеры, создавая новую конфигурацию отсеков. Некая сущность теперь может перемещаться в камере по другому пути. (Подобно тому, как вы изменяете конфигурацию лабиринта для испытания интеллекта мышей. Теперь мышь бежит по иному пути.) Таким же образом выполняется распределение воды из арыка по участку, где выращивается хлопок. Человек ломает земляную запруду у растения и пропускает воду к данному растению, а вход к другому растению закрывает земляной дамбой. Этим он создает новую конфигурацию, по которой вода сегодня транспортируется к одному набору растений, а завтра к другому. Сегодняшние запруды он завтра разрушит, а к сегодняшним, получающим воду, растениям завтра поставит дамбы. Можно сказать, что такое сходство процессов позволяет создать особый ряд и его условно назвать “лазерным программированием” {Примечание 6}.
При строительстве рядов мы заимствуем идею Платона о лошадности {Примечание 7}. Распознается своеобразный инвариант, реализованный в, казалось бы, лексически далеких друг от друга словах. Создается возможность формировать образ шелковости пути (шелковый путь, *ситцевый путь, *пшеничный путь и т.п.), образ двоичности или десятичности (для вычислительных терминов), образ инструментальности, образ времени, образ пространственности и др. многочисленные ряды. Укажем лексическое наполнение некоторых рядов:
1) ряд двоичности: двоичная арифметика, десятичная арифметика, восьмеричная арифметика, двоичная ЭВМ, *десятичная ЭВМ и т.д.;
2) ряд родства: тёща, тесть, зять, сестра, отец, золовка и т.д.;
3) ряд сообщения информации: говорить, сообщать, информировать, кричать, базарить, горланить, хрипеть и т.п.;
4) ряд написа́ния: write (писа́ть), scrawl (цара́пать), print (печатать) и т.д. (Ч. Филлмор) [Fillmore - 1977];
5) ряд шёлковости/шёлковитости: шёлковый путь, *ситцевый путь, *пшеничный путь.
ПРИМЕЧАНИЕ: Звездой (*) обозначены лишь мнимые (т.е. воображаемые лексические единицы (imaginary lexical units), т.е. которые могут быть – при необходимости – построены на основании семантической структуры единиц данного ряда. Ряд, возглавляемый знаком “шёлковый путь”, реализует следующую логико-семантическую формулу: «Если предмет, названный путь, обладает признаками “местоположение”, “продольная и поперечная ось”, “протяженность” и по этому предмету перемещают другой предмет, имеющий признак “материал или быть материалом”, тогда данный предмет-перевозчик может быть назван шелковым путем, *шёлковой дорогой/тропой/маршрутом/магистралью. Ср. также мнимые лексические единицы *сахарный путь, *наркотная тропа и т.п. При строительстве таких лексических единиц мы должны быть готовы к разнообразным степеням метафоричности.
Ряды можно толковать как результат сцепления лексических значений, как действие закона наименьших усилий (least-effort law). Чтобы познать мир, человек интуитивно прибегает к классифицированию, группируя лексические единицы на основе их тяготения друг к другу – притягивающим или сцепляющим моментом (аттрактором) при этом является лексическое значение этих единиц, а точнее, центральная часть или ядро лексического значения слов данного ряда (инвариант ряда). Ряды помогают запоминать слова, ибо человек интуитивно чувствует родствò компонентов ряда. Количество рядов в системе языка значительно меньше всего количества лексических единиц, ибо лексические единицы разбежались по своим рядам.
О формализованном представлении лексического значения ряда. Ч. Филлмором предложено понятие «прототипного значения» глагола [Fillmore - 1977], т.е. способность глагола описывать некую деятельность – скажем, представлять процесс write (писа́ть) в виде сцены, как некто водит заостренным инструментом по какой-то поверхности, оставляя следы. Иными словами, описывается “сцена-прототип”, связанная с данным глаголом. Такая сцена “…. более или менее полно описывает то основное содержание, которое вкладывается в глагол, если при этом отсутствует какая-либо добавочная информация.” [Fillmore - 1977]. В нашем случае члены ряда “родствò” были организованы в виде семантической сети. Гомогенность или однородность участников сети позволяет ей производить автоматическое умозаключение вида «если …, то …». Если в текстах у одного из участников обнаружен новый признак, тогда этот признак могут наследовать и другие члены ряда. Семантическая сеть как бы обучается, наращивая свои знания о мире.
Заключая, скажем, что более углубленное моделирование лексических значений может помочь нам приблизиться к изучению вопроса о том, как «сказывается» (А.А. Потебня́) научно-техническая мысль.
Литература
(Глумов – 2009) В.И. Глумов. Роль триады и метонимии в семантической организации составного термина. (с. 134-160). В: Сборник трудов участников Пятой Международной конференции «Горизонты прикладной лингвистики и лингвистических технологий» (MegaLing’2009. Horizons of applied linguistics and linguistic technologies). Украина, Киев, 21-26 сентября 2009 года. Киев, Изд-во ДОВИРА, 2009. –528с. (Сайт онференции: info@megaling.org.ua). [См. также сайт rsuhnn.ru; mesi.ru]
(Головин – 1978) Б.Н. Головин. Проблемы семантики языковых знаков и ее типологии. (с. 3-В: Межвуз. Сборник «Термин и слово». Горький, 1978, вып. 1(7). – 165с.
(Платонова лошадность – 1975) В.Р. Келер. СЕРГЕЙ ВАВИЛОВ. – М.: Молодая гвардия, 1975. –320с.
(Павилёнис – 1983) Р.И. Павилёнис. Проблема смысла. Современный логико-философский анализ языка. – М.:Мысль, 1983. – 286с
(Уёмов – 1963) А.И. Уёмов. Вещи, свойства и отношения. – М.:изд-во АН СССР, 1963. –182с.
(Fillmore – 1977) Charles J. Fillmore. Topics in lexical semantics. – In: “Current issues in linguistic theory” (ed. By Roger W. Cole). 1977, pp. 76-138. Indiana Univ. Press, 1977.
(Oxford – 2005) Oxford advanced learner’s dictionary. A.S. Hornby. 7th edition. Oxford University Press, 2005. – 1780p.
{Примечания}
Примечание 1. Напомним совет Л.В. Щербы подставлять слова в словосочетание и смотреть, когда порождается новое истинное или ложное словосочетание. Так совершается “эксперимент”.
Примечание 2. Чтобы система поняла истинность утверждения, здесь нужно много предусмотреть: объяснить явление метонимии, а также жестко описать отношение “человек-кушать-тарелка” и т.п. Иными словами, возникает задача автоматического “понимания” идиоматических выражений, пословиц и т.п. единиц речи.
Примечание 3. О бездонности признаков и о многоаспектности взаимоотношений между предметами-вещами. Любой предмет бесконечен; понятию, описывающему данный предмет, порой посвящаются толстые книги. Предметы взаимодействуют между собой: одни притягиваются к другим, другие отталкиваются. Вспомним красивую теорию математиков о том, что “трепыхание бабочки” взаимосвязано с судьбами нашего мира. Здесь уместно вспомнить и утверждение, что “слово – это весь мир”. В наших описаниях отраслевого мира мы строим грубую отраслевую действительность, прибегая к намеренному примитивизму.
Примечание 4. Любую сущность можно попытаться описать четверкой параметров: “слово-предмет” + “имя признака” + ”конкретное значение признака”+ “единица измерения признака”.
Примечание 5. Лингвистический термин “формула” предложен А.И. Смирницким. В этой формуле производителя действия мы будем называть “деятелем” или “действователем” (А.А. Потебня). Термин “агент” (от популярного англ. agent) мы не будем использовать – он вызывает в нашем сознании побочные образы. Хотя его толкование нам очень нравится: “agent (grammar) = the person or thing that does an action (expressed as the subject of an active verb, or in a “by” phrase with a passive verb) – compare patient [Oxford - 2005, p. 29] . (А́генс = человек или вещь, выполняющие некоторое действие (человек/вещь выражены в виде подлежащего глагола действительного залога или в виде словосочетания предлог “by” + глагол страдательного залога – ср. пациенс/пациент/”страдалец” (А.А. Потебня)», т.е. «пациенс (patient) (в грамматике) – это человек или вещь, принявшие на себя воздействие со стороны глагола. В предложении «Я завел машину» страдальцем является машина. [Oxford - 2005, p. 1110] (перевод – мой - В.Г.).
Примечание 6. Также детская игра «тяни-толкай» по своей философии похожа на процесс разгона частиц в синхрофазотро́не, где подбегающую частицу вначале с большой скоростью притягивают, а потом с большой скоростью толкают дальше по маршруту. Возможен ряд «тяни-толкай».
Примечание 7.
В [Платонова лошадность - 1975] читаем слова Платона: «Лошадь увидеть всякий сумеет, а вот увидеть лошади́ность!» (То есть способность делать обобщения, видеть связь явлений, а не их изолированность.) Философы предпочитают термин «лоша́дность», а не «лошади́ность».
| Скачать статью в pdf формате |

