1979 год О ПОСТРОЕНИИ ИНФОРМАЦИОННО-ПОИСКОВОГО ЯЗЫКА ОАСНТИ-СМ

О ПОСТРОЕНИИ ИНФОРМАЦИОННО-ПОИСКОВОГО
ЯЗЫКА ОАСНТИ-СМ
УДК 666 : 002.5 : 681.5 : 800.89
ИЗ: Сборник трудов Всесоюзного научно-исследовательского института научно-технической информации и экономики промышленности строительных материалов (ВНИИЭСМ) Министерства промышленности строительных материалов СССР. Выпуск 21 "Совершенствование отраслевой системы научно-технической информации в промышленности строительных материалов" (с. 30-40). -М.: ВНИИЭСМ, 1979.
– 77с. Тираж 900 экз.
О ПОСТРОЕНИИ ИНФОРМАЦИОННО-ПОИСКОВОГО ЯЗЫКА ОАСНТИ-СМ
С. Н. Виноградов, В. И. Глумов, Н. Ю. Русова (ГГУ, Горький),
О. А. Ломакина, В. Р. Максимов (ВНИИЭСМ, Москва)
Одним из основных компонентов проектируемой отраслевой автоматизированной системы научно-технической информации промышленности строительных материалов (ОАСНТИ-СМ) является лингвистическое обеспечение (ЛО) ОАСНТИ-СМ [Дополнение 1, см. в конце статьи]. Согласно [ГАСНТИ – 1977], ЛО отраслевой системы включает отраслевой рубрикатор, информационно-поисковый язык (ИПЯ), задаваемый тезаурусом [Дополнение 2] и грамматическими средствами, нормативно-методические документы и рабочие словари.
Отраслевой рубрикатор представляет собой слабо-иерархическую классификацию тематики отрасли и выполняет следующие основные функции:
– определение тематической структуры отраслевого массива;
– формирование информационных массивов для передачи другим отраслевым АСНТИ;
– систематизация информационных массивов и изданий;
– нормативная функция для рубрикаторов локальных органов НТИ отрасли.
Рубрикатор должен быть совместимым с рубрикатором ГАСНТИ [ВИК – 1977].
ИПЯ отрасли — система знаков и отношений между ними, предназначенная для описания и поиска научно-технической информации. Проектируемый ИПЯ должен обеспечить эффективное индексирование многоаспектных документов (запросов) при проведении документального и документально-фактографического поиска [ТЗ – 1976] по постоянно действующим и разовым запросам. Он должен полностью отвечать требованиям ГОСТ 18383-73 [Гост – 1973].
Нормативно-методические документы дают рекомендации по составлению и ведению различных словарей, тезауруса, рубрикатора, а также содержат правила индексирования документов и поисковых запросов.
Рабочие словари представляют собой главным образом различные дополнения к тезаурусу: списки терминов — кандидатов в тезаурус, словари названий и кодов фирм (предприятий), нормативный указатель отраслевых объектов и др.
Для того чтобы охарактеризовать ИПЯ, необходимо прежде всего определить его место в системе средств ЛО, т.е. его связи и отношения с другими элементами ЛО. Укажем на связь ИПЯ с рубрикатором.
Перечисленные выше функции рубрикатора характеризуют его лишь как средство классификации документов. Можно сказать, что он является своеобразным языком, состоящим из перечисленных в определенном порядке названий (имён) рубрик. Эти рубрики соотнесены между собой предварительно, поэтому рубрикатор может быть назван предкоординированным языком. Такой тип языка позволяет относить документ (даже если он многотематический) лишь к одному месту перечня тем (классов). Дальнейшее дробление рубрик не позволит перечислить все темы, по которым существуют или в будущем могут существовать документы. В отличие от предкоординированных в посткоординированных языках классы, в которые входят документы, формируются в процессе индексирования. Принцип посткоординации реализуется, например, при координатном индексировании, когда документ не помешается в одну, и только одну рубрику, а описывается набором ключевых слов. Принципы посткоординации и предкоординацин не являются взаимоисключающими: они в той или иной степени одновременно присутствуют в разных ИПЯ. Однако дескрипторный ИПЯ, заданный тезаурусом, имеет смысл называть посткоординнированным, так как принцип построения поисковых образов документов (ПОДов) в процессе индексирования — важная особенность этого языка. Таким образом, поскольку упорядочение дескрипторов и упорядочение документов — две разные задачи, рубрикатор не обязательно должен совпадать с систематической частью отраслевого тезауруса. Можно возразить: понятие, обозначаемое дескриптором, и содержание документа в целом сражают часть отраслевой тематики, поэтому нет принципиальной разницы в том, что классифицировать — сами ли документы, или понятия, обозначаемые отдельными дескрипторами. Действительно, в некоторых случаях дескриптор может использоваться только в одной узкотематической области, т. е. однозначно обозначать узкое, конкретное понятие.
Однако в большинстве случаев дескрипторы не связаны с узкой тематической областью и могут использоваться в разных тематических областях, а это означает, что рубрикатор, выделяющий эти тематические области, недостаточно хорошо справляется со своей функцией —систематизировать дескрипторы. Это проявляется, например, в том, что в систематической части тезауруса, построенной по тематическому принципу, трудно найти место для вновь вводимого дескриптора. Например, в тезаурусе ЦИНИСа (Тезаурус – 1976] есть тематические области
«08. Организация и технология производства строительно-монтажных работ. Технология производства строительных материалов и изделий»
и
«09. Строительные машины, механизмы, оборудование и инструменты (характеристика и применение)».
В области 09 есть дескриптор 670 «Дробилки и мельницы». Однако дескриптор МЕЛЬНИЦА ДЛЯ ГАШЕНИЯ ИЗВЕСТИ включен в другую тематическую область, а именно 08, и подчиняется тем самым дескриптору ГАШЕНИЕ (ИЗВЕСТЬ), хотя есть основания подчинить его дескриптору ДРОБИЛКИ И МЕЛЬНИЦЫ. Это противоречие можно сгладить, проведя категорийный анализ терминологии и используя при построении систематической части список категорий (фасетов). Такая методика и принята при построении тезауруса ОАСНТИ-СМ (подробнее она будет описана ниже).
Рассмотрим конкретные черты разрабатываемого ИПЯ. При разработке приходится учитывать как общие требования, предъявляемые к ИПЯ, так и требования конкретной системы, в которой он будет функционировать. Основными компонентами дескрипторного ИПЯ являются:
1. Лексические единимы (ЛЕ). Как правило, базой для их построения является научно-техническая терминология соответствующей отрасли знания. В структурном отношении ЛЕ — слова и (или) словосочетания естественного языка (ЕЯ), причем почти исключительно номинативного характера.
2. Парадигматические отношения как внеконтекстные отношения лексических единиц ИПЯ, не зависящие от положения последних в ПОДе или в поисковом образе запроса (ПОЗе). К ним относятся отношения синонимии (условной эквивалентности), иерархические (родо-видовые и широкой иерархии) и ассоциативные. С помощью парадигматики ИПЯ фиксируются соотношения между понятиями, существующие независимо от контекста, в котором эти понятия встречаются. Например, если потребителю нужны сведения о ТЕПЛОВЫХ АГРЕГАТАХ, то его, по-видимому, будет интересовать также информация об АВТОКЛАВАХ и СТЕКЛОВАРЕННЫХ ПЕЧАХ (даже если в поисковом образе соответствующего документа нет дескриптора ТЕПЛОВЫЕ АГРЕГАТЫ). Именно поэтому отношения между дескрипторами ТЕПЛОВЫЕ АГРЕГАТЫ, СТЕКЛОВАРЕННЫЕ ПЕЧИ, АВТОКЛАВЫ должны быть зафиксированы в тезаурусе.
3. Синтагматические отношения как контекстные отношения между ЛЕ ИПЯ, возникающие в информационном сообщении. Например, в документе есть дескрипторы ИЗГОТОВЛЕНИЕ и СТЕКЛЯННАЯ ТАРА. Можно ли утверждать, что здесь идёт речь об изготовлении стеклянной тары, или документ сообщает об изготовлении чего-нибудь другого? Во многих случаях такую неопределённость помогают устранить синтагматические пометы, фиксирующие роль дескрипторов и их взаимоотношения в конкретном контексте. К распространённым средствам синтагматики ИПЯ относятся указатели роли (УР) и указатели связи (УС).
В настоящее время отраслевые ИПЯ системы ГАСНТИ являются дескрипторными. В таких ИПЯ лексические единицы и парадигматические отношения между ними задаются информационно-поисковым тезаурусом (ИПТ). Использование тезауруса позволяет достичь удовлетворительной полноты и точности выдачи информации (recallandprecision/accuracy), поскольку нормализованная лексика тезауруса уменьшает субъективизм при индексировании, т. е. возможность того, что одному и тому же понятию будут приписаны разные знаки.
Важнейшими узловыми моментами в разработке ИПЯ являются, на наш взгляд, следующие:
– структура дескриптора (какой грамматической конструкцией он выражается);
– способ организации дескрипторов в тезаурусе (методика установления парадигматических отношений);
– организация дескрипторов в поисковом образе (методика установления синтагматических отношений).
Чтобы обосновать принятые решения, следует рассматривать эти элементы системно. Под системным принципом здесь понимаются учёт взаимосвязи и взаимовлияния всех элементов и сторон ИПЯ. а также анализ работы средств ИПЯ на всех этапах функционирования ИПС.
Рассмотрим вначале структуру лексической единицы, включаемой в тезаурус в качестве дескриптора (ключевого слова).
Главная задача при разработке ИПЯ заключается в том. чтобы найти средства точной и полной фиксации содержания научно-технического документа в виде, удобном для сравнения с аналогично выполненными записями. Основное содержание документа, видимо, сводится к совокупности конкретных научно-технических понятий и их взаимосвязей. Научно-техническое понятие выражается и формируется с помощью термина — простого (однословного) или составного (многословного). В данной работе принято следующее определение термина: «Термин — это слово или словосочетание (образованное на базе подчинительных связей), имеющее профессиональное значение, выражающее и формирующее профессиональное понятие, которое применяется в процессе (и для) познания и освоения некоторого круга объектов и отношений между ними—под углом зрения определенной профессии» [Головин – 1972].
Очевидно, степень конкретности понятия находится в достаточно чёткой зависимости от сложности и разветвлённости структуры термина. Так, термин КОНСТРУКЦИЯ КРЕПЛЕНИЯ КОВШЕЙ К ЦЕПИ ЭЛЕВАТОРА гораздо точнее говорит о содержании документа, чем ряд терминов КОНСТРУКЦИЯ, КРЕПЛЕНИЕ, КОВШ. ЦЕПЬ ЭЛЕВАТОРА. Но можно ли включать такие составные термины в словарь? Практика показывает, что составные термины, фиксирующие предельно конкретные понятия документа, не могут служить лексическими единицами ИПЯ в силу широкой и многозначной вариантности своей структуры и очень большого количества, а также, как следствие, трудности установления парадигматических отношений (иерархических и ассоциативных). Поэтому решено включать в словарь только однословные термины (существительные) и составные термины достаточно простой структуры (существительные с зависимыми от них прилагательными и причастиями). Составные термины других структур вводятся в словарь в порядке исключения. Но тогда возникает вопрос: как сохранить структуру составного термина, который выражает конкретное понятие? Очевидно, в поисковом образе необходимо фиксировать отношения между частями составного термина. В различных ИПЯ это делается с помощью различных синтагматических средств. Введение таких синтагматических средств в известном смысле эквивалентно введению в поисковый образ составных терминов. В [Aitchison – Gilchrist – 1972] отмечается, что использование указателей роли в некоторой степени может быть заменено использованием предкоординированных (pre-coordinated) терминов (здесь под предкоординированным термином понимается составной термин более или менее сложной структуры, включенный в словарь). В проектируемом ИПЯ были выбраны простые синтагматические средства — указатели связи (УС), фиксирующие наиболее частотные грамматические структуры составных терминов, и указатели роли (УР), выделяющие термины, входящие в заголовок документа. Благодаря этому в поисковом образе частично сохраняется грамматическая структура составного термина, несмотря на то, что в тезаурус нередко включаются только элементы составного термина.
Можно привести и другие аргументы в пользу данного варианта ИПЯ. Структура лексической единицы достаточно проста для того, чтобы индексатор мог выделить данную ЛЕ из текста документа с минимальными затруднениями. Синтагматические средства этого ИПЯ также не требуют сложного смыслового анализа документа, так как основаны на определенных грамматических отношениях естественного языка (ЕЯ). Эти отношения легко опознаются любым носителем языка. Ориентация на лексические единицы простой структуры оправдана и с точки зрения математического обеспечения. Дело в том, что при использовании пакета прикладных программ (ППП) могут возникнуть определенные технические трудности, связанные с вводом «длинных» лексических единиц. Поэтому следует отдавать предпочтение ЛЕ небольшой длины. Простая структура ЛЕ и синтагматика ИПЯ в перспективе облегчат автоматизацию индексирования документов и запросов.
Рассмотрим методику установления парадигматических отношений.
Основой для установления парадигматических отношений между дескрипторами являются отношения между понятиями. Эти отношения задаются классификационной схемой понятий. Исходным пунктом составления классификационной схемы понятий является категорийный анализ — разбивка понятий по наиболее общим смысловым категориям. Категорийный анализ часто применяется при построении тезауруса. Например, в английском тезаурусе по строительству CIT[Roberts – Eve – Linn – 1975], выделены следующие категории (фасеты): ВРЕМЯ; МЕСТО; СВОЙСТВА И МЕРЫ; ЭЛЕМЕНТЫ СТРОИТЕЛЬНОГО ПРОИЗВОДСТВА (люди, документация, оборудование); ОПЕРАЦИИ И ПРОЦЕССЫ; МАТЕРИАЛЫ; ЧАСТИ СТРОИТЕЛЬНЫХ ОБЪЕКТОВ; СТРОИТЕЛЬНЫЕ ОБЪЕКТЫ. Такая категоризация позволяет достаточно чётко и непротиворечиво классифицировать дескрипторы.
Категорийный анализ ЛЕ проводится с целью упорядочения образования классов условной эквивалентности и установления парадигматических отношений [Иванов – 1976].
Особенности отраслевой терминологии позволяют выделить следующие категории (содержание каждой категории определяется описательно):
МАТЕРИАЛЫ (вещества, сырье, изделия промышленности строительных материалов, химические элементы и соединения, состояния вещества);
ПРОЦЕССЫ (интеллектуальные, физико-химические, технологические, вспомогательные и другие);
ОБОРУДОВАНИЕ (инструменты, машины, приборы, аппараты, станки и т. д.);
КАЧЕСТВА (СВОЙСТВА) (параметры, качества, характеристики, свойства, особенности материалов, оборудования и процессов) ;
ПРОЧИЕ КАТЕГОРИИ.
Названные категории основываются на общей структуре производства: всевозможные материалы подвергаются различным изменениям в результате некоторых технологических процессов, осуществляемых с помощью того или иного оборудования; все элементы и стадии производства имеют определенные свойства, характеристики, параметры. Опыт, показывает, что ЛЕ довольно легко соотносятся с той или иной категорией. В процессе составления тезауруса ПРОЧИЕ КАТЕГОРИИ могут быть детализированы.
Между ЛЕ, включенными в состав названных категорий, существуют следующие типы парадигматических отношений: условная эквивалентность и иерархия между ЛЕ одной и той же категории; ассоциативные отношения между ЛЕ как внутри отдельных категорий, так и на межкатегорийном уровне.
Итак, верхней частью классификационной схемы является список категорий. Однако этот список слишком общий и не даёт информации об отношениях между узкими понятиями. Поэтому следующим этапом построения классификационной схемы является иерархическая классификация понятий МАТЕРИАЛЫ, ПРОЦЕССЫ, ОБОРУДОВАНИЕ и т. д. Сформулируем общие логические требования к классификации.
Как известно, классификация — это объединение предметов в один класс на основании их сходства или разделение предметов на классы на основании их различия. Объединяются или разъединяются предметы на основании наиболее существенных отличительных признаков, т. е. таких признаков, без которых предмет перестаёт быть данным предметом. Совокупность существенных признаков выражает содержание понятия. Последовательное исключение существенных признаков позволяет осуществить постепенный переход от более общего понятия к менее общему, от родового к видовому. Деление родового понятия на видовые осуществляется с помощью классификационного признака «основание деления».
В процессе деления понятия обычно стремятся соблюдать следующие правила:
- деление должно быть соразмерным; например, если мы делим понятие ВЯЖУЩИЕ МАТЕРИАЛЫ, то среди понятий, получившихся в результате деления, должны быть все вяжущие материалы, и ни одна группа вяжущих не должна быть упущена;
- деление должно производиться по одному основанию; нельзя, например, делить ОБОРУДОВАНИЕ на вспомогательное и автоматическое, так как в первом случае принято основание деления «способ участия в производственном процессе», а во втором — «степень автоматизации»;
- члены деления должны исключать друг друга; иными словами, ни одно понятие не должно попадать более чем в один класс;
- деление должно быть непрерывным. Это значит, что при делении необходимо переходить к ближайшему низшему понятию. Например, при делении понятия ВЯЖУЩИЕ МАТЕРИАЛЫ, выделяя ЦЕМЕНТЫ, ГИПСЫ и т.п. , мы не должны наряду с этими понятиями выделять АРМИРОВАННЫЙ БЕТОН, ЛЕГКИЕ БЕТОНЫ, ОГНЕУПОРНЫЕ БЕТОНЫ и т. д. Сначала необходимо выделить понятие БЕТОН, а уже потом виды бетонов.
Сформулируем общие принципы построения классификационной схемы отраслевых понятий.
1. При составлении схемы необходимо, используя методические рекомендации по составлению ВИК и классификаторы, строить логическую классификацию предметной области. Следует по возможности чётко формулировать основания деления и давать определения понятиям, являющимся названиями классов, которые получились в результате деления.
- Необходимо следить, чтобы понятия, находящиеся в родовидовых отношениях, не оказались на одном уровне иерархии.
- Чем чаще данное понятие трактуется в документах и чем важнее оно для тематики отрасли, тем бóльшей должна быть степень его детализации.
- Родственные понятия, которые не очень важны для тематики отрасли, можно объединить в один класс.
Следует иметь в виду, что классификационная схема понятий отрасли — это не систематическая часть поискового тезауруса. Классификационная схема служит лишь руководством, исходным пунктом для построения систематической части. Классификационная схема строится заранее. Однако при составлении систематической части тезауруса происходит наполнение схемы дескрипторами; при этом неизбежна некоторая корректировка указанной схемы. Это связано с тем, что при анализе терминологии выявляются новые аспекты рассмотрения понятий, новые основания деления. Например, понятие СТЕКЛО (относящееся к категории МАТЕРИАЛЫ) может быть рассмотрено как с точки зрения технологии изготовления, так и с точки зрения свойств стекла. С точки зрения технологии стекло может быть листовым, литым, стекловолокнистым и т. п., а с точки зрения свойств — безопасным, жаростойким и т. п. Очевидно, необходимо делить понятие СТЕКЛО по разным основаниям. Понятия, получившиеся в результате одного деления, пересекаются с понятиями, получившимися в результате другого деления. Поэтому при построении тезауруса дескрипторы, обозначающие разновидности стекла, следует подчинить дескриптору СТЕКЛО, а дескрипторы, обозначающие пересекающиеся понятия, связать ассоциативными отсылками (а), например:
СТЕКЛО БЕЗОПАСНОЕ
а СТЕКЛО АВТОМОБИЛЬНОЕ.
Иногда правила логики могут быть нарушены в интересах прагматики поиска. Например, возможно подчинение дескриптора ЛИСТЫ СТЕКЛЯННЫЕ дескриптору СТЕКЛО, хотя стеклянные листы, строго говоря, не разновидность стекла. В любом случае априорное построение классификационной схемы отраслевых понятий необходимо, так как только на основе этой схемы можно выявить отношения между понятиями.
Рассмотрим ИПЯ с точки зрения возможности индексирования различных видов информации. Проектируемый язык должен иметь средства для индексирования всех видов информации, содержащейся в отраслевом документе: библиографических и других служебных данных, общего содержания самого текста реферата, а также некоторых конкретных понятий документа (типы оборудования, марки материалов и т. п.). Соответственно
можно условно разделить весь ПОД на три сегмента: библиографический образ (БИБ-образ), терминологический образ (ТЕРМ-образ) и фактографический образ (ФАКТ-образ). Такое деление позволяет показать дифференцированную обработку каждого названного образа конкретными языковыми средствами (БИБ-, ТЕРМ- и ФАКТ-средствами).
Выше уже были рассмотрены ТЕРМ-дескрипторы, позволяющие описывать основное смысловое содержание документов. Следующую группу составляют БИБ-дескрипторы, предназначенные для описания библиографической информации. Комплексность отдельных запросов абонентов ОАСНТИ-СМ, с одной стороны, и эффективность усилий на этапе предмашинной обработки документа, с другой, определяют минимально достаточное количество библиографических признаков любого отраслевого документа. Реализуемый в ОАСНТИ-СМ принцип однократной исчерпывающей обработки документа, его одноразового ввода в ОАСНТИ-СМ и последующего многократного использования заставляет учитывать все возможные имеющие смысл комбинации библиографических элементов. Выбор минимально достаточных БИБ-признаков документа способствует решению отраслью проблемы унификации и стандартизации предмашинной обработки документа, созданию единого формата библиографической записи.
Анализ документов отраслевого фонда показал, что библиографическое описание документа можно достаточно точно задать набором так называемых БИБ-дескрипторов. БИБ-дескриптор — это сочетание имени библиографического признака и соответствующего идентификатора, например:
|
Имена БИБ-признаков |
БИБ-дескрипторы |
| ИЗДАТЕЛЬСТВО | ИЗДАТЕЛЬСТВО Mс GrawHill |
|
СФЕРА ДЕЙСТВИЯ (патента) |
СФЕРА ДЕЙСТВИЯ |
| МКИ | МКИ G09 F5/90 |
| ЖУРНАЛ | ЖУРНАЛ Beton |
Присваивая имени библиографического признака (это имя заявляет класс понятий) конкретное вещественное значение с помощью идентификатора, получаем возможность обозначить конкретный объект для библиографического поиска.
В отраслевой терминологии также чётко выделяются ЛЕ, обозначающие конкретные единичные понятия. Согласно [Roberts – Eve – Linn – 1975], каждая такая ЛЕ имеет два компонента: дескриптор и идентификатор. Здесь «идентификатор – разновидность дескриптора, служащая для идентификации единичного (с точки зрения данного ИПЯ) объекта или понятия» [ГОСТ – 1973]. Например, дескриптор СТЕКЛОФОРМУЮЩАЯ МАШИНА, идентификатор IS-6-2-F.
По-видимому, под дескриптором здесь подразумевается ЛЕ, аналогичная указанному ТЕРМ-дескриптору.
Объектами, нуждающимися в подобных обозначениях, могут быть образцы промышленной продукции и оборудования, НИИ, промышленные предприятия, фирмы, программы и проекты НИР и ОКР, фамилии ведущих специалистов и т.п. [Кулик – 1977].
В принципе мы не видим существенной структурной разницы между ЛЕ вида
ИЗДАТЕЛЬСТВОMc Graw Hill, ФИРМАInternational data
и ЛЕ вида
МЕТОД JackalМ, АЛМАЗНАЯ ПИЛА Autoflow,
а также ЛЕ вида
ДЛИНА 105 км, СКОРОСТЬ СЧИТЫВАНИЯ 600 байт/с .
В целях частичной унификации лексики ИПЯ, по-видимому, имеет смысл ЛЕ типа ФИРМА (ЗАВОД), АЛМАЗНАЯ ПИЛА и т. п. считать ТЕРМ-дескрипторами, а конкретизирующие уточнители типа JackalМ, Autoflowи т.д. относить к идентификаторам; сочетания типа СТРАНА ФРГ, АВТОР BrownС.G. считать БИБ-дескрипторами, а типа ВМЕСТИМОСТЬ 1000 элементов/см2 — ФАКТ-дескрипторами.
Каждый из ТЕРМ-дескрипторов, входящих в составной ФАКТ- дескриптор, задает название всего класса однородных понятий (СТРАНА, ПИЛА, ВМЕСТИМОСТЬ); с помощью правого или левого идентификаторов объём этого класса сужается, а содержание расширяется до конкретного понятия-объекта. Правда, строго говоря, такая производная структура, как ОГНЕУПОР ПМ-48, обозначает скорее не единичность объекта, а набор объединенных в узкий вид объектов.
Идентификаторы при дескрипторах могут:
– не задаваться отдельными списками-указателями, ибо набор таких идентификаторов бесконечен (ДЛИНА 500 м, АВТОР ИВАНОВ);
– задаваться иерархически упорядоченными списками названий журналов, языков, стран, марок оборудования и материалов, фирм (предприятий) и т. п.
Принятые в ИПЯ ОАСНТИ-СМ виды лексических единиц, категорийный анализ лексики, синтагматические средства обеспечивают возможность совместимости языка со многими уже функционирующими ИПС, в частности с ИПС «Реферат». Предлагаемые структуры дескрипторов в принципе позволяют также соотносить один класс структур дескрипторов на русском языке с конкретными классами структур дескрипторов на английском языке – при возможном построении двуязычного тезауруса данной отрасли.
Кроме того, предполагается, что особенности данного ИПЯ позволят использовать его в других отраслях производства, так как в основе принятых решений лежат некоторые свойства научно-технического языкового стиля, который является универсальным средством общения в области науки, техники и производства.
Процесс построения тезауруса организуется следующим образом:
- на базе первой партии документов по какой-либо подотрасли строится так называемый «нулевой» машинный вариант тезауруса, который является словником дескрипторов;
- при помощи классификационной схемы отраслевых понятий между дескрипторами «нулевого» тезауруса устанавливаются парадигматические отношения, которые фиксируются в машинном тезаурусе;
- последующий ввод новых партий документов в ЭВМ пополняет тезаурус новыми дескрипторами, парадигматические связи между которыми устанавливаются при очередном редактировании.
Такой способ построения тезауруса позволяет автоматизировать некоторые трудоёмкие операции построения тезауруса ручным способом.
Проектируемый тезаурус будет иметь два уровня: базовый тезаурус и локальные тезаурусы. В базовом представлена единая для отрасли терминология, а в локальных — узкоотраслевая.
Предложенный метод построения тезауруса был опробован на массивах 500 документов подотрасли «СТЕКЛО» и 400 документов подотрасли «ВЯЖУЩИЕ» из РЖ ВНИИЭСМа за 1975-1976 гг. В результате было выделено 1729 ЛЕ по производству стекла и 1253 – по вяжущим. На 200 обработанных документов приходится в среднем 51% однословной, 40% двусловной и 8% трехсловной и более лексики. Этап отбора продолжается в настоящее время, в том числе и по другим подотраслям.
На первом этапе предполагается создание локальных тезаурусов «СТЕКЛО» и «ЦЕМЕНТ И АСБЕСТОЦЕМЕНТ» [ ].
ЛИТЕРАТУРА
(ВИК – 1977) Проект Всесоюзной информационной классификации (ВИК). -М., ВИНИТИ, 1977.
(ГАСНТИ – 1977) Концепция лингвистического обеспечения ГАСНТИ (11-я редакция). -М., ВИНИТИ, 1977.
(Головин – 1972) Б.Н. Головин. О некоторых проблемах изучения терминов. – Вестник МГУ, 1972, № 5.
(Гост – 1973) ГОСТ 18383-73 «Тезаурус информационно-поисковый. Общие положения. Форма представления».
(Иванов – 1976) П.П. Иванов. Редактирование синтезированных дескрипторных статей – финальная фаза разработки информационно-поискового тезауруса. – «Труды НИИУМС», вып. XIV. Пермь, 1976.
(Кулик – 1977) А.Н. Кулик. Информационные сети и языковая совместимость дескрипторных ИПС. Киев, «Техника», 1977.
(Тезаурус – 1976) Тезаурус по строительству и архитектуре ЦИНИС Госстроя СССР. Том II: «Систематический указатель дескрипторов». -М, ЦИНИС, 1976.
(ТЗ – 1976) Техническое задание на разработку и внедрение отраслевой автоматизированной системы научно-технической информации промышленности строительных материалов (ОАСНТИ-СМ). -М., ВНИИЭСМ, 1976.
(Aitchison – Gilchrist – 1972) Jean Aitchison and Alan Gilchrist. Thesaurus construction: a practical manual. 1972. 1st ed. London: Aslib.
(Roberts – Eve – Linn – 1975) T.J. Roberts , C.J. Eve, P.M. Linn. Construction IndustryThesaurus. London, 1975.
Список сокращений
ВИК – Всесоюзная информационная классификация
ВНИИЭСМ Всесоюзный научно-исследовательский институт экономики
строительных материалов Минстройматериалов СССР
ГАСНТИ – Государственная автоматизированная система научно-
технической информации
ГГУ – Горьковский государственный университет им. Н.И. Лобачевского
ГОСТ – государственный отраслевой стандарт
ИПС – информационно-поисковая система
ИПТ – информационно-поисковый тезаурус
ИПЯ – информационно-поисковый язык (дескрипторного типа)
ЛО – лингвистическое обеспечение ОАСНТИ-СМ
ПОД – поисковый образ документа
ПОЗ – поисковый образ запроса
ОАСНТИ-СМ – отраслевая автоматизированная система научно-
технической информации "Строительные материалы" (Министерства строительных материалов СССР)
УР указатель роли (грамматическое средство ИПЯ)
УС указатель связи (грамматическое средство ИПЯ)
ЦИНИС – центральный институт научной информации по строительству
и архитектуре Госстроя СССР
ДОПОЛНЕНИЯ
Дополнение 1.
Проектируемый тезаурус, хотя и ограниченный по размеру, должен быть семантически сильным, т.е. способным индексировать как многоаспектные, так и узкотематические сообщения. Построить тезаурус невозможно без участия отраслевых экспертов. В данной статье даётся характеристика особенностей ИПЯ для тех, кто будет участвовать в построении локальных тезаурусов подотраслей .
Дополнение 2. Отраслевой поисковый тезаурус содержит понятия всех перечисленных ниже восьми подотраслей. Подотраслями ОАСНТИ-СМ являются:
• цементная и асбестоцементная промышленность;
• промышленность автоклавных и местных вяжущих материалов;
• стекольная промышленность;
• промышленность нерудных и металлорудных материалов;
• промышленность полимерных, мягких кровельных, гидроизоляционных
и теплоизоляционных строительных материалов;
• керамическая промышленность;
• промышленность сборного железобетона;
• промышленность санитарно-технического оборудования.
{ [ См. также на этом сайте статью " Особенности лингвистического обеспечения отраслевой автоматизированной системы научно-технической информации промышленности строительных материалов (ОАСНТИ-СМ)" (1981).
