1981г. Особенности лингвистического обеспечения отраслевой автоматизированной системы научно-технической информации промышленности строительных материалов

УДК 025.4.036:801

ОСОБЕННОСТИ ЛИНГВИСТИЧЕСКОГО ОБЕСПЕЧЕНИЯ ОТРАСЛЕВОЙ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ НАУЧНО-ТЕХНИЧЕСКОЙ ИНФОРМАЦИИ ПРОМЫШЛЕННОСТИ СТРОИТЕЛЬНЫХ МАТЕРИАЛОВ

(ОАСНТИ-СМ)

С.Н. Виноградов (Горький), В.И. Глумов (Горький), О.А. Ломакина (Москва),

В.Р. Максимов (Москва), Н.Ю. Русова (Горький)

 

[Из: Сборник «Научно-техническая информация». Сер 2 «Информационно-поисковые системы», № 2, Москва, ВИНИТИ, 1981, стр. 11-15]

 

Specificities of Linguistic Facilities for the OASNTI-SM

Computer-based Information Retrieval System for the Building Material Industry

 

S.N. Vinogradov (Gorky), V.I. Gloumov (Gorky), O.A. Lomakina (Moscow),

V.R. Maximov (Moscow), N.Ju. Rousova (Gorky)

 

From:  The “Scientific and Engineering Information” Collection of papers, Series 2 “ Information Retrieval Systems”, No. 2. – Moscow, the VINITI All-Russia information institute, 1981. – pp. 11-15. (In Russian)

Скачать статью в pdf формате

При проектировании лингвистического обеспечения отраслевой автоматизированной системы научно-технической информации промышленности строительных материалов (ОАСНТИ-СМ) учитывались следующие факторы [13]:

  • необходимость достаточно простого и однозначного индексирования библиографической, текстовой (содержательной) и фактографической информации, содержащейся в документе;
  • комплексность информационных потребностей абонентов системы, обусловливающая необходимость поиска как в режиме ИРИ, так и в режиме РЕТРО;
  • наличие в отрасли большого числа относительно автономных по тематике промышленных подотраслей и в силу этого значительное разнообразие научно-технической терминологии;
  • требования совместимости с ГАСНТИ и объединением АСНТИ по строительству [7];
  • требования, предъявляемые математическим обеспечением АСНТИ, состоящим из пакета прикладных программ ПЕГАС (НИИУМС, г. Пермь).

Состав и структура лингвистического обеспечения ОАСНТИ – СМ определяются его функциями и назначением, а также видами циркулирующих в отрасли документов. Один из компонентов лингвистического обеспечения – отраслевой рубрикатор [14], главная функция которого сводится к формированию, систематизации и определению тематической структуры отраслевого массива документов. Структура рубрикатора – слабо иерархическая классификация терминов, состоящая из перечисленных в определенном порядке рубрик. Каждый, даже политематический, документ должен быть отнесен лишь к одной рубрике. Таким образом, рубрикатор не совпадает с систематическим указателем дескрипторов отраслевого тезауруса.

В ОАСНТИ-СМ функционируют несколько видов ИПЯ.

Средством индексирования основного текста документа, а также фактографической информации (сведения о конкретных марках, видах, типах материалов и оборудования, характеристики и их количественные значения), является дескрипторный ИПЯ, лексика и парадигматика которого задается с помощью отраслевого тезауруса и номенклатурных отраслевых словарей (словарей идентификаторов).  Данный ИПЯ имеет также синтагматические средства (грамматику) в виде указателей связи.

Библиографические признаки документа индексируются с помощью так называемых биб-меток, сосредоточенных в специальном списке [4]. Биб-метка представляет собой трехбуквенный код типа ЗОИ (автор документа), ЗГО (заглавие документа), ВДГ (год издания) и аналогичных. Количество индексируемых библиографических признаков зависит от жанра документа; так, авторское свидетельство СССР описывается с помощью 24 биб-меток, статья из отечественного журнала – с помощью 17 меток. Парадигматические отношения между биб-метками отсутствуют, а синтагматические связи определяются структурой реферативной карты документа.

Рассмотрим конкретные черты дескрипторного ИПЯ, используемого в ОАСНТИ-СМ. Но сначала несколько предварительных замечаний.

Статистическое исследование отраслевой терминологии, выполненное на массиве в 11 000 терминов из подотраслей, условно названных СТЕКЛО, ЦЕМЕНТ, КЕРАМИКА и ОРГАНИЗАЦИЯ ПРОИЗВОДСТВА, показало, что в составных терминах наиболее частотными грамматическими связями оказываются следующие:

1) связь существительного и прилагательного (ПС), а также существительного и причастия (ПчС) – 37,3 %  от общего числа грамматических связей в составе термина;

2) связь существительного и существительного в родительном падеже без предлога (ССр) – 42,5 % от общего числа грамматических связей в составе термина.

Именно цепочка составных терминов достаточно сложной структуры наилучшим образом передает содержание научно-технического документа [1,2]. Однако составные термины, фиксирующие предельно конкретные понятия, отраженные в документе (например, конструкция крепления ковшей к цепи элеватора), не могут служить лексическими единицами ИПЯ в силу широкой вариативности своей структуры и многословности, а также из-за трудностей установления парадигматических отношений. Поэтому структура составных терминов моделируется в процессе индексирования.

Поскольку прилагательных или причастий в цепочке вида ППС гораздо меньше, чем существительных в цепочке вида ССрСр, а также поскольку существительные – члены цепочки ССрСр – могут иметь при себе прилагательные и причастия, целесообразно встроить лексическую единицу ИПЯ только с одной высокочастотной грамматической связью – ПС, а другую высокочастотную связь, ССр, фиксировать в процессе индексирования с помощью традиционных синтагматических средств ИПЯ – указателей связи.

Лексическая система ИПЯ ОАСНТИ-СМ включает ключевые слова, а также алфавитно-цифровые и числовые идентификаторы, причем базой для построения лексической системы служит научно-техническая терминология и номенклатура продукции соответствующей отрасли.

Ключевые слова ИПЯ ОАСНТИ-СМ представляют собой однословные термины – существительные (печь, измерение)и составные термины достаточно простой структуры – существительные с зависимыми от них прилагательными и причастиями (стекло прокатное, материал влаговпитывающий, цемент быстротвердеющий пуццолановый). Составные термины другой грамматической структуры вводятся в словник ключевых слов (КС) в порядке исключения; это, в частности, неразложимые сочетания, как правило, имеющие аббревиатуры (коэффициент полезного действия), сочетания с собственными именами (модуль Юнга), а также сочетания типа сваи-стойки, торкрет-бетон. Кроме того, в словник КС вводятся химические формулы веществ и их словесные эквиваленты – Ba(PO3)2, метафосфат бария). Прилагательные и причастия размещаются в тезаурусе после ведущего существительного. Все КС вводятся в словник в именительном падеже единственного числа, за исключением ключевых слов, не имеющих формы единственного числа или в этой форме в терминологии данной отрасли не употребляющихся (отходы бытовые).

Нам представляется, что выбор в качестве КС словосочетаний определенной, фиксированной структуры должен значительно снизить субъективизм индексирования и облегчить выделение информативных КС из текста документа [3]. В процессе обработки словника КС формируются классы условно эквивалентных КС и среди них выбираются дескрипторы. Дескрипторы и недескрипторы функционируют в отраслевом тезаурусе {Дополнение  1}.

Некоторые КС в силу своей многозначности, неконкретности и малой информативности оказываются нецелесообразными для индексирования и поиска. Такие КС попадают в разряд запрещенных и оформляются  особым списком.

КС в тексте документа может иметь при себе идентификатор в виде:

  • алфавитно-цифрового обозначения марки, вида, типа оборудования или материала, а

также условного наименования объекта (предприятия, института): сталь Т-ЭМреспиратор ШБ-1 "ЛЕПЕСТОК", фирма "Siemens";

  • числа, обозначающего количественный параметр какого-либо процесса или характеристики: длина 5 м, скорость 500 оп/сек, температура плавления 800°.

Алфавитно-цифровые идентификаторы с соответствующими дескрипторами сосредоточены в номенклатурных отраслевых словарях [8]. Набор числовых идентификаторов бесконечен и в словаре не фиксируется, однако в особом списке указываются дескрипторы, которые могут иметь при себе числовые идентификаторы, вместе с соответствующей размерностью (которая по возможности совпадает с международной системой SI).

Парадигматические отношения вводятся в ИПЯ с целью увеличения полноты поиска, поэтому их содержание во многом определяется прагматическими соображениями. Для установления парадигматических отношений необходимо выявить систему понятий, используемых в отрасли, и одним из основных методических приемов здесь является категорийный анализ (построение фасетной классификации) лексического массива [11,12]. Фасетно-иерархическая классификация отличается от чисто иерархических классификаций своим акцентом на группировку лексических единиц по фасетам, или фундаментальным категориям. Другими словами, при построении фасетно-иерархической классификации понятийная область делится на широкие категории, а затем внутри категорий устанавливаются иерархические зависимости.

Понятийная область, соответствующая ОАСНТИ-СМ, делится на следующие категории:

МАТЕРИАЛЫ (вещества, сырье, изделия промышленности стройматериалов, химические элементы и соединения, агрегатные состояния вещества);

ПРОЦЕССЫ (интеллектуальные, физико-химические, технологические, вспомогательные и другие);

ОБОРУДОВАНИЕ (инструменты, машины, приборы, аппараты, станки, части и детали машин);

КАЧЕСТВА (СВОЙСТВА) (параметры, качества, характеристики, свойства, особенности материалов, оборудования и процессов);

ПРОЧЕЕ (личный состав отрасли, учреждения, географические названия, теоретические понятия и т.д.).

Опыт анализа отраслевой терминологии показывает, что дифференциация КС в соответствии с категориями осуществляется в основном достаточно четко. В отдельных случаях оказывается затруднительным отнести КС строго к одной категории, например, расход (газа) – и характеристика, и процесс, градуировка (шкалы) – и процесс, и нанесенные на шкалу линии или цифры. В таких случаях рекомендуется относить данное КС к обеим категориям, и в скобках давать соответствующую помету: градуировка (процесс).

Категоризация позволяет упорядочить процесс формирования парадигматических отношений и облегчает составление тезауруса.

Между лексическими единицами ИПЯ ОАСНТИ-СМ существуют следующие парадигматические отношения [16]:

Условная эквивалентность (синонимия). Чаще всего соединяет КС, выражающие понятия, значительно пересекающиеся по объему; устанавливается она между лексическими единицами одной и той же категории.

Все прочие виды парадигматических отношений устанавливаются между дескрипторами.

Иерархические отношения («выше-ниже») (сюда относятся связи типа "род-вид" и "часть-целое"); устанавливаются между дескрипторами одной и той же категории.

Ассоциативные отношения; дескрипторы, соединенные ассоциативной связью, относятся к разным иерархическим "деревьям".

При разработке синтагматического аппарата учитывались следующие положения:

1) основное предназначение синтагматических средств ИПЯ ОАСНТИ-СМ состоит в моделировании составного термина естественного языка;

2) синтагматические средства должны быть простыми и не требовать сложного смыслового анализа документа;

3) следует по возможности снижать субъективизм индексирования, т.е. уменьшать вероятность того, что одно и то же понятие будет обозначено разными дескрипторами [10].

На основе анализа статистических данных было принято решение фиксировать с помощью указателей связи вхождение КС в одну и ту же цепочку существительных, стоящих в родительном падеже (рп) без предлога (CCpCp): все КС, входящие в такую цепочку, имеют один указатель связи вида CN, где N – номер соответствующей цепочки. Например, составной термин механизмы отключения валков машины для вертикального вытягивания стекла индексируется следующим образом:

1) [механизм/С1] [отключение/С1] [валки/С1] [машина/С1]

2) [вытягивание вертикальное/С2] [стекло/С2].

Грамматическая категория родительного падежа оказывается достаточно универсальным средством фиксирования различных семантических отношений между КС, причем обозначение конкретного типа такого отношения не обязательно, так как о нем говорят сами значения КС. Например:

<качество-объект>:

вязкость бетона;

<принадлежность владельцу/изготовители»:

быстротвердеющие цементы фирмы IDEAL CEMENT;

<часть-целое>:

бассейны стекловаренных печей;

<процесс - объект процесса>:

производство стекла;

<процесс – субъект процесса>:

работа формующих машин.

 

Данный указатель связи не фиксирует порядка КС в цепочке беспредложных родительных падежей, однако в подавляющем большинстве случаев обозначать этот порядок нет необходимости, поскольку он определяется значениями КС, входящими в цепочку. В редких случаях, когда возможна перестановка КС в цепочке, смысловые отношения между КС, как правило, не меняются:

оптимальный состав стекла – стекло оптимального состава.

Ввод в ИПЯ синтагматических средств такого типа по существу эквивалентен вводу в словарь словосочетаний сложной структуры, и в системе практически становится возможным поиск по словосочетаниям, хотя в тезаурусе наличествуют лишь компоненты этих словосочетаний. Наконец, методика простановки данного указателя проста и не требует от индексатора специальных знаний в той или иной тематической области. Разумеется, некоторые семантические отношения между КС, весьма существенные для поиска, фиксируются в структуре составного термина иными грамматическими связями. Поэтому методика индексирования, принятая в ОАСНТИ-СМ, предусматривает несколько особых случаев использования указателей связи.

1. Термины типа американская фирма, горьковский завод, т.е. те, в которых прилагательное указывает на географическую или ведомственную принадлежность объекта, индексируются в виде сочетания двух КС, соединенных указателем связи, и идентификаторов, например:

американская фирма  => [фирма/С7] [страна/С7] США

     горьковский завод => [завод/С17] [город/С17] Горький

2. Конструкции, фиксирующие химический состав вещества, а также соотношения структурных компонентов в веществе (материале), индексируются с помощью дескриптора СОДЕРЖАНИЕ, идентификаторов и указателей связи, например:

1) в тексте документа или поискового запроса:

"стекло состава CdO 45-60%, SiO29-30%, B2O20-25%",

тогда в поисковом образе документа (ПОДе) или запроса (ПОЗе):

[стекло/С1] [содержание/С1] [CdO/С1] 45-60% [SiO2/С1] 29-30% [B2O3/С1] 20-25%

 

2) "сплав меди и серебра" или "сплав состоит из меди и серебра":

[сплав/С2] [содержание/С2] [медь/С2] [серебро/С2]

 

3) "химический состав шихты" или "компоненты шихты": CaO – 15 %, Cu – 20 %:

[шихта/СЗ] [содержание/СЗ] [CaO/СЗ] 15% [Cu/СЗ] 20%

 

3. Конструкции, описывающие режимы работы и характеристики процессов, например, время, скорость, температуру, индексируются с помощью соответствующих дескрипторов – время, скорость, температура – и соответствующих идентификаторов и указателей связи. (Размерность дескрипторов ВРЕМЯ, СКОРОСТЬ, ТЕМПЕРАТУРА дана согласно международной системе единиц SI). Например:

 

  1. 1)нагревание до 840 градусов в течение трех часов (10800 сек):

[время/С1/] 10800 [нагревание/С1] 840°

 

  1. 2)нагревание со скоростью 80°/час:

[скорость/С2] 0,22 °/сек [нагревание/С2]

 

  1. 3)нагревание при температуре 900 градусов:

[температура/СЗ] 900° [нагревание/СЗ]

 

Выбор указанных особых случаев применения указателей связи обусловлен высокой частотой встречаемости этих семантических отношений между КС, отражающими отраслевые понятия.

При построении тезауруса ОАСНТИ-СМ предполагается совмещение ручного и автоматического способов обработки информации, возможное при динамическом способе создания информационно-поискового тезауруса (ИПТ) [5,6]. Особенностью этого способа считается совмещение следующих процедур:

• выделение КС из документов и накопление массива ключевых слов;

• установление парадигматических отношений между КС;

• оформление информационно-поискового тезауруса;

• накопление массива документов;

• поиск информации в этом массиве.

При вводе в ЭВМ первой партии поисковых образов документов автоматически формируется машинный тезаурус, представляющий собой перечень дескрипторов, сопровождаемых ссылками на номера соответствующих документов. Этот тезаурус уже может использоваться для поиска, который, однако, не будет отличаться высокой полнотой, так как в тезаурусе не учитываются парадигматические отношения между КС. Чтобы зафиксировать эти отношения, формируются машинные словари синонимов и слов, находящихся с дескрипторами тезауруса в иерархических отношениях.

При вводе дальнейших партий документов любое очередное КС обрабатывается следующим образом:

• если КС уже присутствует в ИПТ в качестве дескриптора, то цепь номеров документов, приписанная данному дескриптору, пополняется номером вводимого документа и частота дескриптора возрастает на единицу;

• если данное КС отсутствует в ИПТ, то оно вводится туда в качестве дескриптора.

Таким образом, в результате ввода в ЭВМ очередной партии документов с помощью пакета прикладных программ ПЕГАС выдается информация обо всех введённых КС. Затем тезаурус корректируется, т.е. новые КС включаются в систему парадигматических отношений. Основные операции корректировки:

• ввод дескриптора;

• удаление дескриптора;

• замена одного числа дескрипторов на другое число дескрипторов;

• установление и разрушение синонимических, иерархических и ассоциативных связей между КС.

С точки зрения используемых приемов, корректировка тезауруса совпадает с его построением.

После ввода каждой новой партии ПОДов рекомендуется проводить экспериментальный поиск, так как его результаты – это основной фактор, определяющий целенаправленное редактирование и улучшение тезауруса.

После каждой введенной партии ПОДов (в каждой партии – несколько сотен поисковых образов) подсчитывается  полнота тезауруса  по формуле [5]:

 

где

Pполнота, изменяющаяся от 0 до 1;

Kколичество новых КС, появившихся в тезаурусе после ввода данной партии ПОДов;

Kp – количество различных КС в партии ПОДов, введенных в ЭВМ.

 

По достижении P= 0,95 - 0,98 накопление лексики тезауруса можно считать законченным, а сам тезаурус – готовым к эксплуатации. Дальнейшая корректировка тезауруса по мере ввода новых ПОДов сводится к отдельным изменениям в системе тезауруса.

При выборе организационной структуры отраслевого тезауруса были приняты во внимание следующие моменты:

1. Отрасль промышленности строительных материалов представлена в отраслевом рубрикаторе набором тематических областей, каждая из которых объединяет документы по конкретному производству (подотрасли). Такими подотраслями являются:

цементная и асбестоцементная промышленность { Дополнение 2];

промышленность автоклавных и местных вяжущих материалов;

стекольная промышленность;

промышленность нерудных и металлорудных материалов;

промышленность полимерных, мягких кровельных, гидроизоляционных и теплоизоляционных строительных материалов;

керамическая промышленность;

промышленность сборного железобетона { Дополнение 3};

промышленность санитарно-технического оборудования.

2. При всем разнообразии терминологии подотраслей имеется слой терминов, общих для всех подотраслей и существование которых обусловлено производственными взаимозави-симостями между подотраслями.

Было принято решение о двухуровневой организации отраслевого тезауруса, т.е. сначала строятся локальные тезаурусы подотраслей, а затем на их основе формируется базовый тезаурус отрасли, включающий лексические единицы, общие для всех локальных тезаурусов. При этом принципы организации лексики едины как в базовом, так и в локальных тезаурусах; любой локальный тезаурус включает общеотраслевые дескрипторы с необходимой степенью дробления родовых дескрипторов на видовые; помимо этого, он может иметь свои, присущие только ему дескрипторы.

Охарактеризуем общую схему функционирования лингвистического обеспечения ОАСНТИ-СМ. Из совокупности отраслевых первичных документов отбираются те, которые на этапе разработки системы будут входить в представительный массив документов, а на этапе функционирования системы, – в поисковый массив. Первичные документы реферируются. Массив вторичных документов (рефератов) и массив запросов покрывает тематику рубрик отраслевого рубрикатора, причем каждая рубрика представлена в массиве документов/запросов отдельной группой.

После семантического анализа содержания документа/запроса они индексируются. При индексировании документов по тезаурусу проверяются орфографическая форма КС, пометы при них и порядок следования определений. При индексировании запросов по ИПТ проверяется наличие соответствующих дескрипторов и запрос с помощью ассоциативных дескрипторов расширяется.

Результаты индексирования и кодирования документов и запросов оформляются на черновых реферативных картах документов и запросов.

Эти карты являются основной единицей поискового массива.

После перфорации и ввода в систему массива черновых реферативных карт организуется поиск в соответствии с заданными критериями выдачи; полученная выдача оценивается потребителем, при необходимости формулировка запроса корректируется и он повторно вводится в систему.

Рассмотрим подробнее стратегию поиска. Поиск в ОАСНТИ-СМ может вестись по библиографическим, содержательным и фактографическим признакам документа. В зависимости от информационной потребности абонента в запросе могут указываться библио-графические характеристики искомого документа (например, время и место издания, вид, язык, издательство и т.п.), содержательные признаки (основная тема запроса) и элементы факто-графической информации (т.е. конкретные марки, виды, типы материалов и оборудования, количественные значения характеристик и параметров, о которых должно говориться в релевантных документах).

Критерий выдачи, используемый в ОАСНТИ-СМ, основан на полном или частичном совпадении поискового предписания (ПП) и ПОДа и усиливается следующим образом:

1) применяются логические связки И (and), ИЛИ (or) и НЕ (not) [15].

Все дескрипторы, соединенные в ПП связкой И, должны одновременно присутствовать в поисковом образе релевантного документа. Дескрипторы, соединенные в ПП связкой ИЛИ, при поиске выступают независимо друг от друга, т.е. в поисковом образе релевантного документа должен присутствовать хотя бы один дескриптор, входящий в данную группу. Дескриптор, имеющий при себе в ПП отрицание НЕ, не должен присутствовать в поисковом образе релевантного документа. Логические связки используются также для соединения БИБ-меток, фиксирующих библиографические признаки искомого документа.

2) используются парадигматические отношения между дескрипторами.

Если потребитель запрашивает сведения о каких-либо материалах, процессах, оборудова-нии и т.д., то предполагается, что его интересуют также и их разновидности, поэтому выдаче подлежат документы, поисковые образы которых содержат синонимы дескрипторов запроса, или дескрипторы, видовые дескрипторам запроса. Иерархические отношения между отдельными дескрипторами заданы с помощью отраслевого ИПТ. Однако в ПОДе и ПП могут встречаться цепочки дескрипторов, которые с помощью принятых в ОАСНТИ-СМ указателей связи моделируют структуру наиболее распространенных составных терминов. В отраслевом ИПТ иерархические отношения между такими цепочками дескрипторов не заданы, тем не менее они существуют. Рассмотрим, как эти отношения участвуют в поиске; при этом следует учесть, что при расширении запроса видовыми дескрипторами каждый видовой "наследует" указатели связи, приписанные родовому.

Благодаря указателям связи множество дескрипторов документа и запроса разбивается на несколько подмножеств Mj, по числу дескрипторов, не имеющих указателей связи, и цепочек дескрипторов, соединенных одним указателем связи. Припишем каждому дескриптору каждого из подмножеств Mj дескрипторов запроса его нижестоящие дескрипторы. Получим совокупность множеств Mjk, где k – номер дескриптора в общей совокупности дескрипторов запроса, независимо от того, имеет ли данный дескриптор указатель связи.

Критерий соответствия ПОДа и ПП тогда формулируется следующим образом:

1) пересечение множества дескрипторов запроса с множеством дескрипторов документа непусто (разумеется, здесь следует учитывать действие логических связок И, ИЛИ, НЕ, но для простоты рассмотрим случай, когда все дескрипторы запроса соединены связкой И);

2) дескрипторы запроса, совпадающие с дескрипторами документа, также имеющими одинаковый , например, если дескрипторы запроса Д1 и Д2 имеют указатель связи С1 и совпадают с дескрипторами документа Д1' и Д2', тогда Д1' и Д2' должны иметь одинаковый указатель связи, все равно какой: С1, С2, СЗ и т.д.

Приведем пример. Пусть имеется запрос: прессование блюдец. Индексируем его:

[прессование/С7] [блюдце/С7].

С помощью тезауруса найдем видовые дескрипторы и расширим запрос:

[прессование/С1] [прессование горячее/С1]

[прессование полуавтоматическое/С1] [прессовыдувание/С1]

[блюдце прессованное/С1] [блюдце хрустальное/С1].

Таким образом, выдаче подлежат документы, в поисковых образах которых заиндексированы такие словосочетания:

прессование блюдец,

горячее прессование блюдец,

полуавтоматическое прессование блюдец,

прессовыдувание блюдец,

прессование прессованных блюдец,

полуавтоматическое прессование прессованных блюдец,

горячее прессование прессованных блюдец,

прессовыдувание прессованных блюдец,

прессование хрустальных блюдец, и т.д.

Возможно, что некоторые словосочетания из перечисленных выше не имеют смысла, но тогда они просто не встретятся в документах. Те сочетания, которые имеются в документах и верно заиндексированы, будут найдены.

Итак, имея в тезаурусе только семь дескрипторов, можно вести поиск так, как если бы в тезаурусе было много больше дескрипторов более сложной структуры. Простая координация лексических единиц здесь усиливается синтагматическими отношениями. В случае необходимости поиск проводится без указателей связи. Этот вариант сводится к обычному поиску по дескрипторам, включенным в тезаурус. Еще один вариант поиска возникает при учете ассоциативных отношений.

Стратегия поиска предусматривает 2-ступенчатую процедуру поиска информации. Вначале с помощью алфавитного списка дескрипторов производится инверсный поиск; в этом списке каждому дескриптору сопоставлен набор номеров документов, в поисковых образах которых присутствует данный дескриптор. В результате инверсного поиска выдается цепь номеров документов, поисковые образы которых содержат дескрипторы ПП, а также дескрипторы, видовые дескрипторам ПП; при этом учитывается логическая структура ПП.

Затем просматривается массив поисковых образов документов, номера которых получены на этапе инверсного поиска. При этом фиксируется совпадение ПОДа и ПП, и при совпадении БИБ-меток, идентификаторов и синтагматических связей отбираются релевантные документы. Критерий выдачи, применяемый в ОАСНТИ-СМ, разрешает гибкое эшелонирование выдачи на основе синтагматических средств, иерархических и  ассоциативных отношений.

В лингвистических средствах ОАСНТИ-СМ предусмотрены следующие возможности совместимости с ИПЯ других информационных систем [9]:

• совмещение рубрик нашего отраслевого рубрикатора с рубрикатором ГАСНТИ и рубрикатором АСНТИ по строительству (ЦИНИС); при этом совмещении возможен взаимный обмен массивами документов;

• категории материалы, процессы, оборудование, качества, применяемые в ОАСНТИ-СМ для разбиения лексики ИПЯ, в целом близки к тематическим областям тезауруса

АСНТИ-СиА (ЦИНИС), который рассматривается в качестве базового для проектируемого Объединения АСНТИ по строительству; это облегчает заимствование и обмен лексикой ИПЯ;

• принятая в ИПЯ ОАСНТИ-СМ структура лексической единицы не вступает в противоречие со структурой лексических единиц других языков систем Объединения АСНТИ по строительству; в случае необходимости могут быть заданы соответствия лексических единиц разных языков – табличным или иным способом. 

***

Анализ результатов экспериментального поиска позволяет наметить пути дальнейшего совершенствования ИПЯ ОАСНТИ-СМ:

• уточняется методика индексирования;

• дальнейшее развитие получают парадигматические отношения между лексическими единицами – важнейший фактор повышения полноты поиска;

• совершенствуется система идентификаторов – с целью развития фактографического поиска.

ЛИТЕРАТУРА

1)  Головин Б.Н. О некоторых проблемах изучения терминов. Вестник МГУ, 1972, № 5.

2)  Головин Б.Н. О некоторых доказательствах терминированности словосочетаний. – В кн.: Лексика. Терминология. Стили. – Горький, 1973.

3)  Иванкин В.В. Алгоритмическая оценка методов выбора ключевых слов при координатном индексировании. – НТИ, сер. 2, 1976, № 5.

4)  Иванов П.П. Редактирование синтезированных дескрипторных статей – финальная база разработки отраслевого информационно-поискового тезауруса. Труды НИИУМС. Вып. XIV. – Пермь: 19768) 

5)  Казаков Е.Н., Копылов В.А. Динамический способ построения автоматизированной ИПС. – НТИ, сер. 2, 1974, № 5.

6)  Казаков Е.Н., Копылов В.А. Экспериментальное исследование автоматизированных ИПС с применением ЭВМ. – НТИ, сер. 2, 1974, № 6.

7)  Концепция лингвистического обеспечения ГАСНТИ (2-я редакция). – М.:ВИНИТИ, 1977.

8)  Кулик А.Н., Нижник Н.С., Никитин Н.В. Разработка указателя номенклатурных наименований технических объектов как дополнение к информационно-поисковому тезаурусу. (Доклад на семинаре по теории и практике ИПЯ в ГК СМ СССР по науке и технике). – М., 1973.

9)  Кулик А.Н. Информационные сети и языковая совместимость дескрипторных ИПС. – М.: Сов. Радио, 1977. – 247с.

10)  Рубашкин В.Ш. О грамматических средствах информационных языков. – В кн.: Информационные языки. – М.: 1975.

11)  Соколов А.В. Принципы  построения фасетно-блочных тезаурусов тезаурусов // Информационные языки.  – М., 1975.  - С. 222-243.

12)  Соколов А.В. Об одном возможном подходе к обеспечению совместимости ИПТ (универсальная фабула информационно-поисковых тезаурусов) //  НТИ, сер. 2, 1977, №1.–С. 19-24.

13)  Флоря  Л.И., Цукерман Э.М. Рубрикатор как информационный язык. – НТИ, сер. 2, 1977, №7.

14)  Черный А.И. Введение в теорию информационного поиска. – М.: Наука, 1975.

15)  Шемакин Ю.И. Тезаурус в автоматизированных системах управления и обработки информации. – М.: Воениздат МО СССР, 1974. – 188с.

16)  Aitchison, Jean;  Gilchrist, Alan. Thesaurus construction. A practical manual. – London: Aslib, 1972.

 

Статья поступила в редакцию 21 сентября 1979 года.

ИНФОРМАЦИОННЫЕ ЯЗЫКИ. НТИ. ВИНИТИ. Сер. 2,  № 2 1981 (стр. 11-15).

Дополнения

Дополнение 1.

Позже  «недескриптор» в гостах был назван «адескриптором».

Дополнение 2.

Информационно-поисковый тезаурус промышленности строительных материалов

ОАСНТИ-СМ.  Раздел ЦЕМЕНТНАЯ ПРОМЫШЛЕННОСТЬ. Первая редакция.

Составители (по алфавиту):  Виноградов С.Н.*, Глумов В.И.*, д. филолог. н., профессор  Головин Б.Н.*,  к.т.н.  Грикевич Л.Н.**, к.э.н. Карелин В.С.**,  к.т.н. Ломакина О.А., к.т.н. Максимов В.Р. ***, к.т.н., доцент Матвеев Г.М.***,  к.т.н. Мешик Т.Г. **,  Рубцова Н.В.*, Русинова Л.И.*, к. филолог. н.  Русова Н.Ю.*.  – Москва, издание Всесоюзного научно-исследовательского института научно-технической информации и промышленности строительных материалов (ВНИИЭСМ) Министерства промышленности строительных материалов СССР.  1981. – 215с. Тираж 150 экз.

            Примечание:  звездой (*) отмечены сотрудники Горьковского государственного университета им. Н.И. Лобачевского,  двумя звездами (**)  – института «НИИцемент» (Москва), тремя звездами (***) – института «ВНИИЭСМ» (Москва).

Дополнение 3.

Информационно-поисковый тезаурус промышленности строительных материалов. Раздел БЕТОН И ЖЕЛЕЗОБЕТОН. Первая редакция.

Составители (по алфавиту):  к.т.н., ст. н. с. Архангельская М.П.** , ст. инж.  Глумов В.И.*, зав. кафедрой  современного русского языка и общего языкознания ГГУ,  д. филолог. н., профессор  Головин Б.Н.*,  к. филолог. н., м.н.с. Горшкова Т.М.*, к.т.н., ст. н. с.  Ломакина О.А.**, зав. отделом АСНТИ  ВНИИЭСМа,  к.т.н.  Максимов В.Р.**,  зам.  директора  ВНИИЭСМа, к.т.н. Матвеев Г.М.**, м.н.с. Ручина Л.И.*, к. филолог. н., м.н.с. Сергевнина В.М.*,  ст. инж. Школьник И.Н.**. – Москва, издание Всесоюзного научно-исследовательского института научно-технической информации и промышленности строительных материалов (ВНИИЭСМ)  Министерства промышленности строительных материалов СССР.  1981. – 223с. Тираж 100 экз.

            Примечание:  звездой (*) отмечены сотрудники Горьковского государственного университета им. Н.И. Лобачевского, двумя звездами (**)  – института  «ВНИИЭСМ» (Москва).

ИНФОРМАЦИЯ:

В данной статье, опубликованной в 1981 году,  введены  3  дополнения от 30 июля 2015 года  – в момент  размещения статьи на сайте gloumov.com

Скачать статью в pdf формате

 

Помощь для Joomla.