2009г. Документоведу и информационному технологу – об автоматизированном интеллектуальном поиске документов

ДОКУМЕНТОВЕДУ  И  ИНФОРМАЦИОННОМУ  ТЕХНОЛОГУ

 –  ОБ  АВТОМАТИЗИРОВАННОМ  ИНТЕЛЛЕКТУАЛЬНОМ

  ПОИСКЕ  ДОКУМЕНТОВ

 

В.И. Глумов

 

Зав. кафедрой гуманитарных и социально-экономических дисциплин

филиала РГГУ в г. Нижний Новгород

For a documentation officer  and an information technologist,

about computer-assisted intelligent information retrieval

 

Victor I. Gloumov

The head of the chair for the humanities and social-economic disciplines,

the Nizhny Novgorod Branch of the RGGU Moscow State University for the Humanities

 

Скачать статью в pdf формате

ИЗ: (с. 32-47; 1,0 п.л.) Материалы заочной межрегиональной научно-практической конференции «Региональная социальная и экономическая политика: итоги изучения и проблемы управления» (Нижний Новгород, Филиал Российского Государственного Гуманитарного Университета в г. Нижний Новгород, 15-16 декабря 2009 года). Изд. Филиала РГГУ в  г. Нижний Новгород, 2010. – 206с.

Содержание

О поиске документов
О библиографическом поиске
О формате MARC
О полноте и точности поиска
О частичной фактографии
Об автоматизации индексирования
О полнотекстовых системах
О прикладном терминоведении
Резюме
Литература
Дополнения
Информация

Можно сказать, что в содержание обязательной дисциплины «Информационные системы» [Стандарт - 2001, с.153-164] в учебной программе Российского государственного гуманитарного университета (РГГУ, г. Москва) отчетливо входят два направления исследований: «обработка больших массивов данных» и «автоматизированный поиск научно-технических документов».

Документовед и информационный технолог должны видеть особенности этих научных направлений, осознанно и активно участвовать в конкретных научно-практических разработках каждого направления.

Ниже мы хотели бы уточнить объем содержания второго направления – автоматизированного (computer-based) поиска многоязычных научно-технических документов [cross-language information retrieval (IR)] в мировом фонде документов.

Огромный рост мирового фонда документов, возросшие возможности вычислительной техники, большие описательные возможности языков программирования, высокоскоростные системы связи – эти моменты определяют возросшее внимание к проблемам автоматизированного {Дополнение 1}  поиска документов. Начинающему документоведу и информационному технологу следует понимать, что успехи машинного поиска документов зависят как от качества и эффективности искусственных языков индексирования смысла документа, так и от успехов терминоведения. Почему терминоведения? Потому, что дескриптор как специальная лексическая единица информационно-поискового языка (ИПЯ) часто имеет вид многословного термина (компаунда – compound). А чтобы сделать дескриптор ёмким и высоко информативным, нужно знать теорию и практику терминоведения, нужно изучить теорию формирования эффективного термина. Термин выражает узкоотраслевое понятие, а понятие – это уже сфера мышления. Отсюда и возникает интересная проблема – как мышление отражается в термине? Как неязыковое, экстралингвистическое, мыслительное отображается в лингвистическом знаке? Выявление связи экстралингвистического и лингвистического в терминологической единице – эта проблема остается принципиальной для всех тех, кто занимается автоматизацией обработки естественного научно-технического текста.

Теперь о так называемом «информационном поиске». Под этим термином традиционно понимается автоматизированный поиск самих документов, а не конкретных данных. Под документом здесь понимается текстовый документ. Соответственно, саму систему называют информационно-поисковой (ИПС) или документальной информационно-поисковой (ДИПС).

Теория и практика автоматизированного поиска документов уже существует свыше полувека. Понятия и терминология этой области знания уже устоялись. В мире существует широкий ряд  популярных отраслевых ДИПС, которые являются многоязычными, т.е. в ответ на поисковый запрос на одном рабочем языке ДИПС выдает релевантные документы

на 5-10-15 рабочих языках. Эти системы – гигантские монстры, «запитывающие» в себя ежемесячно огромные потоки документов. Например, система NEXUS обрабатывает миллионы документов ежемесячно [Rude - 1998]. В таких системах объектом обработки является документ, а не «факт» вида «грузоподъемность моста 100 тонн».

Вышеупомянутые ДИПС объединены в Международную систему информации.

Таким отраслевым ДИПС свойственно постоянное стремление повышать поисковую эффективность, а именно повышать полноту (recall) и точность (precision, accuracy) поиска – два фундаментальных параметра, принятые для оценки работы системы.

Одной из таких лидирующих систем является медицинская ДИПС MEDLINE (первоначальное название – MEDLARS). Эта многоязычная система существует свыше полувека, обслуживая (на платной основе) всех медиков мира [Aronson - 1998; Rindflesch-Aronson - 1993].

Широко известна и поисковая система в Библиотеке Конгресса США. Стандарт этой системы на машиночитаемые библиографические признаки (формат MARC) взят на вооружение почти всеми большими отраслевыми системами мира [MARC - 1970].

Во всех этих узкоотраслевых ДИПС реализован один и тот же подход – “координатное индексирование”. (Об ИПЯ  этих систем мы скажем ниже.)

В СССР в 70-80 годы прошлого века каждая отрасль обязана была иметь свою отраслевую автоматизированную систему научно-технической информации (ОАСНТИ). Все ОАСНТИ были объединены в единую Государственную Автоматизированную Систему Научно-Технической Информации (ГАСНТИ). ГАСНТИ входила в состав Международной системы информации.

В ГАСНТИ тоже был реализован подход «координатного индексирования»

Документовед и информационный технолог должны быть готовы участвовать в проектировании таких отраслевых систем. ОАСНТИ – это дорогостоящая и долгосрочная система. При проектировании такой огромной системы нет мелочей. Цель ОАСНТИ – своевременно и надежно обеспечивать релевантными документами всех сотрудников отрасли, т.е. конкурентоспособность их научно-технических решений. Причем, лингвистические средства такой ОАСНТИ должны учитывать и особенности будущей информационной потребности отрасли. То есть, будущие поисковые запросы не должны привносить кардинальных изменений в уже работающую поисковую стратегию системы. Лингвистические средства должны быть, поэтому, не жесткими, а гибкими, способными подлаживаться под изменяющиеся информационные потребности пользователей. В противном случае система может устареть, не успев родиться.

О ПОИСКЕ ДОКУМЕНТОВ

Современная ДИПС или ОАСНТИ в поисковом отраслевом массиве документов (в корпусе/коллекции) не способна обнаружить нужный нам объект. Она способна лишь обнаружить документы, которые тематически близки (релевантны – relevant) вашему поисковому запросу. Релевантность же обнаруженного документа оценивает сам автор поискового запроса. Он и оплачивает информационную услугу.

В автоматизированном документальном поиске приняты термины «релевантный» и «релевантность» – от англ. relevant «имеющий отношение к чему-либо, относящийся к чему-либо»; relevance – «тематическая соотнесенность, тематическая близость, релевантность».

Тематическая близость, смысловое подобие одного текста другому, степень совпадения содержаний двух сравниваемых текстов, какая сущность выбирается нами в качестве единицы сравнения – эти труднейшие логико-лингвистические проблемы современного поиска документов еще ждут своего решения. Здесь есть много научных проблем, которые могут стать темой научного исследования документоведа и информационного технолога. Надо помнить, что основное содержание текста мы условно выражаем всего лишь несколькими ключевыми словами (key words). Формы же этих слов в тексте различны {Дополнение 2}. Автоматизируя распознавание этих ключевых слов (КС), мы заранее должны перечислить все возможные формы данного слова-термина. Иными словами, перед нами возникает классическая проблема смысла и слова, проблема выражения экстралингвистического в лингвистическом знаке.

Чтобы осмыслить суть непростых проблем автоматизированного поиска документов, начнем наше обсуждение от простого к сложному.

О  БИБЛИОГРАФИЧЕСКОМ   ПОИСКЕ

Рассмотрим особенности представления любого объекта/вещи в обычном телефонном справочнике. Здесь – исходя из сегодняшней информационной потребности – объект предварительно и вручную описан весьма ограниченным набором признаков, где каждый признак принимает некие конкретные значения. Например:

 

Объект

Признаки

Принимаемые значения

признака

 

Полное название признака

Условное

обозначение

признака (индекс)

 

ИВАНОВ

Имя

            ИМЯ

Иван

 

Отчество

            ОТЧ

Петрович

 

Номер=телефона

            ТЕЛ

100-00-00

 

Район=города

            РАЙ

Нижегородский

 

Улица

            УЛЦ

Минина

 

Номер=дома

            ДОМ

17

 

Номер=квартиры

            КВР

01

 

Перед нами обычный объектно-признаковый язык. Такое описание объекта (а их могут быть миллионы) позволяет системе отвечать только на следующие поисковые запросы: Сколько человек с улицы такой-то имеют телефон? Сколько человек по имени Петр проживают на такой-то улице? Сколько улиц в таком-то районе? и т.п.

Для расширения и сужения поисковых запросов введем следующее тезаурусное дерево понятий:

РОССИЯ

 

   В результате мы создали возможность программно перемещаться по дереву, расширяя или ссужая содержание запроса. Теперь можно к справочнику обращаться с запросами, охватывающими все объекты всех уровней дерева.

 

Округ

Волго-Вятский

   

Область

Нижегородская

 

Парадигматические (экстралингвистические) отношениям между объектами позволяют формально выражать содержание сообщений

вида «американский завод», «русская

Город

Нижний Новгород

     

нефть», «Борский стеклозавод Нижегородской

области» и т.п. Дерево с такими административными

Район Нижегородский

   

объектами мы назвали «административным» [Глумов - 1979; 1980; 1981].

Вершину дерева можно нарастить, скажем, указав связь

между Россией и Европой и т.д.

Улица

Минина

 
 

Дом 3

Алфавитно-упорядоченные понятия-термины этого дерева составляют алфавитный указатель тезауруса. В таком указателе при понятии, например, Район Нижегородский, будет указано его родовое (верхнее) понятие Город Н. Новгород и также перечислены его видовые (т.е. нижележащие) понятия: Район Автозаводский, …, Район Нижегородский и т.д.

Если в первоначальном варианте телефонного справочника отношения между административными объектами лишь подразумевались, а поэтому программно не опознавались, то теперь введенный нами формализм привне́с прозрачность в парадигматические отношения между объектами внутри каждого уровня и в отношения между уровнями. Эти отношения теперь стали машиночитаемыми.

Возьмем иной объект – текстовый документ. Таким документом обычно считается книга, статья, диссертация, патент, ГОСТ, ОСТ, отчет о научной командировке, описание архивного документа, описание погибшего воина, история больного, описание детали на заводском складе и т.п.

Объект

Признаки

Рабочее поле, хранящее текущее значение признака

 

Полное название признака

Условное

обозначение

признака (индекс)

 

документ

Тип=документа

               ТИП

диссертация

 

Автор

               АВТ

Иванов И.П.

 

Титул=документа

               ТИТ

Применение терминов в робототехнике

 

Язык

             ЯЗК

Русский

 

Индекс УДК

             УДК

378

 

Место=защиты

             ЗАЩ

Санкт-Петербургский университет

 

Год=защиты

             ГОД

2009

 

Индекс=международной =классификации= па-тентов

            МКИ

 

Ключевые слова, пред-ставляющие содержа-ние документа

             КСЛ

термины, семантика терминов, формализованные языки, робототехника

 

Другие признаки

   

Как и в телефонном справочнике, список признаков здесь открытый, т.е. объекту – при необходимости – можно приписывать дополнительные признаки, например, сугубо локальные библиотечные признаки – стоимость книги, время получения книги, степень износа, частота использования данной книги и т.п. Этим создается возможность в будущем проводить программную сортировку всего отраслевого массива документов по этим признакам.

И в телефонном справочнике и в данном документе реализован один и тот же принцип библиографического описания. Справочник и документ отличаются лишь содержанием их библиографических признаков (биб-признаков). Список биб-признаков открыт, т.е. может наращиваться. Укажем биб-признаки, в рабочих полях которых хранятся фрагменты естественного текста. Этот текст может быть подвергнут сравнению с текстом поискового запроса. 1) Признак «титул» (т.е. название документа). В рабочем поле этого признака хранится естественный текст, т.е. титул документа. Титул обычно очень информативный, а поэтому в большинстве ДИПС всегда организуется сравнение текста запроса с титулом. Это автоматическое сравнение всегда выявляет все те характерные трудности, которые обычно возникают при сравнении естественных текстов произвольной длины. 2) Признак «Ключевые слова». Поле этого признака тоже очень информативное – ведь здесь хранятся ключевые слова, которые якобы выражают основное содержание документа. Эти слова назначаются или самим автором документа, или индексатором, подготавливающим документ к вводу в систему {Дополнение 3}.

3)Признак «Реферат». В поле этого признака лежит сам вторичный документ – гостированный реферат. Иногда здесь хранится лишь адрес хранения реферата в памяти компьютера.

4)Признак «Документ». В этом рабочем поле хранится адрес первичного документа. Документ может содержать сотни страниц текста, многочисленные чертежи и т.п. .

5)Признак «Литература». Здесь хранится список литературы (или ссылка на него), на которую автор ссылается в своем документе. Этот список принципиально важен, потому что в названиях публикаций может быть много информативных терминов. Кроме того, этот список часто используется для разнообразных исследований – учета цитируемости, научной значимости отдельного ученого, научного учреждения или научного направления, а также для выявления новизны и авторства и т.п. {Дополнение 4} .

Не следует надеяться, что простое автоматическое сравнение ключевых слов запроса с содержимым полей этих признаков будет успешным. Вероятность полного совпадения обычно очень мала. Что же может помочь увеличить это совпадение? Только одно – предварительно сформированный поисковый тезаурус, о котором мы скажем позже.

 

О ФОРМАТЕ MARC

Внесем бóльшую ясность в возможности этого стандарта. Этот стандарт на библиографическое описание содержания документа и поискового запроса торжественно шествует по всем странами мира уже много десятилетий. Изначально он был разработан для поисковой системы Библиотеки Конгресса США [MARC - 1970]. Этот стандарт (в своих многочисленных вариантах) – стандарт лишь библиографический. Так и сказано в первом предложении Главы 1. Введение: Format recognition is a technique designed for the computer analysis of bibliographic records. Библиографические признаки являются машиночитаемыми.

MARC – это большая методическая инструкция (объемом в 150 стр. и 151 стр. приложений) [MARC - 1970] и пакет прикладных программ (ППП). Формат позволяет автоматически строить разнообразные каталоги – каталог авторов, названий документов, названий стран и т.п. Аббревиатура MARC означает Machine-Readable Cataloging, т.е. построение каталогов (каталогизация) на основе машиночитаемых библиографических признаков.

Чем этот формат примечателен?

Во-первых, он предлагает вполне достаточное количество библиографических признаков с четко обозначенным содержанием. Алгоритм и программное обеспечение уже обкатано долгими десятилетиями. Он обеспечивает библиографическую совместимость системы с другими системами, эксплуатирующими этот формат.

Во-вторых, его использование устраняет ненужное дублирование ввода одного и того же документа. Пользователи этого формата (MARC-пользователи) объединены в единую сеть библиотек и организаций. Взаимодействие членов сети позволяет реализовать принцип: однажды обработанный документ затем используется всеми «многожды».

Вдумайтесь, с помощью этого формата описаны все библиотечные фонды государства. Весь фонд государства становится прозрачным, читабельным, доступным даже с вашего домашнего компьютера. Вот здесь и кроется огромная возможность повышения эффективности умственного труда.

В-третьих, MARC обеспечивает монотонность и устойчивость хотя бы на уровне библиографического описания, столь всегда желанных в автоматизированном документальном поиске.

В принципе в этом формате реализован все тот же объектно-признаковый язык, который мы видели и в телефонном справочнике. Но, разумеется, здесь налицо совсем иная  информационная потребность, а, следовательно, количество и содержание машиночитаемых биб-признаков совсем иные.

Библиографический поиск – это поиск неинтеллектуальный, но им нельзя пренебрегать. Этот вид поиска приобретает зна́чимость по мере того, как биб-признаки становятся все информативнее и информативнее. В настоящее время биб-признаком может стать как отцифрованное (digitized) изображение объекта (скажем, станка, животного, птицы, озера), а также и некое музыкальное произведение. (В информационном поле признака может храниться лишь ссылка на местоположение этих отцифрованных изображений).

ПРИМЕЧАНИЕ: В цифровой картографии при объекте могут также хранится его отцифрованные фото- и музыкальное изображения.

Чем шире набор биб-признаков, тем бóльшие возможности появляются для автоматического построения разнообразных сигнальных справочников текущих поступлений в библиотеку отрасли. Можно программно формировать также: общенациональные списки диссертаций, патентов, журналов и журнальных статей, авторов публикаций и т.п. Можно автоматически вести учет документов, тематически относящихся к той или иной предметной рубрике (subject heading) отраслевого рубрикатора, а также статистически наблюдать за расширением сферы английского или иного языка в публикациях, «взвешивать» научную зна́чимость того или иного университета, научного направления в мировой науке и т.п.

Возникает возможность автоматически приписывать входящий документ той или иной предметной рубрике рубрикатора. Для этого заранее содержание рубрики вручную описывается с помощью ключевых слов. Тогда ключевые слова вводимого документа можно программно сопоставлять с ключевыми словами рубрик. С рубрикой можно сопоставлять и сам титул документа, и даже сам текст реферата.

Безусловно, эти сравнения не всегда будут успешными, ибо мы сравниваем лишь формы слов или словосочетаний. Ключевые слова заранее не объединены в единую иерархическую систему – поисковый тезаурус, о котором мы скажем позже.

Простое увеличение биб-признаков не приносит принципиального качества в описание смысла документа. Также не привносит значительного улучшения качества поиска и описание смысла документа с помощью предметных рубрик отраслевого рубрикатора. 

Эти трудности и вызвали к жизни новый подход к индексированию смысла документа – подход «координатное индексирование». Повторяем, он возник не на пустом месте. В течение почти полувека поиск по биб-признакам, по рубрикам рубрикатора, по индексам библиотечных классификаций продемонстрировал свою неспособность удовлетворять все возрастающие информационные потребности. Поисковые запросы стали очень сложными. Сейчас опытного пользователя ДИПС интересует в первую очередь вопрос: Что в мировом фонде документов есть по моей тематике на английском, немецком, французском и т.п. языках? Такая информационная потребность и породила многоязычность поиска.

Такую сложную информационную потребность ведущие отраслевые многоязычные поисковые системы всего мира пытаются и решить с помощью «координатного индексирования». Библиографический поиск и поиск по рубрикам стали вспомогательными видами поиска.

ОБ ИНФОРМАЦИОННО-ПОИСКОВОМ ЯЗЫКЕ (ИПЯ)

Суть координатного индексирования (coordinate indexing) в том, что смысл/содержание документа/запроса описывается с помощью пересечения/умножения одного смысла-термина (координата ) на другой смысл-термин (координата ). Предварительно эти смыслы вручную зафиксированы в поисковых понятийных деревьях отраслевого тезауруса. Тезаурус – это «кладовая знаний», иерархически упорядоченных. В тезаурусе каждое понятие «определено», т.е. при нем указаны его условно эквивалентные понятия (строятся классы условной эквивалентности), определено́ его верхнее (т.е. родовое) понятие и нижние (т.е. видовые) понятия. Даны также и его ассоциативные понятия (ассоциация по противоположности, смежности и т.п.). Например, при понятии-процессе указано понятие-оборудование, реализующее этот процесс и наоборот  {Дополнение 5}.

В информационно-поисковом тезаурусе (ИПТ) понятия – а они могут быть выражены одно- и многословными терминами – обычно связаны между собой с помощью отношений вида “эквивалентное отношение”, “родо-видовое отношение”, “отношение целое-часть”, “ассоциативное отношение” и т.п. Эти отношения парадигматические, т.е. экстралингвистические, внетекстовые, «материальные».

Теперь нужно сказать о форме лексической единицы (ЛЕ) для тезауруса. Среди всех вариантов одного и того же термина проектировщик ИПЯ выбирает наиболее информативную форму термина и этот термин условно считается дескриптором (descriptor, to describe – описывать), а другие эквивалентные или условно-эквивалентные ему термины считаются недескрипторами/аскрипторами {Дополнение 6}. Дескриптор и его недескрипторы присутствуют в тезаурусе и все они применяются при индексировании. Почему и недескрипторы участвуют в индексировании? Потому что, каждый случай использования ЛЕ для индексирования документа или запроса программно фиксируется в специальном счетчике при ЛЕ, а затем накопленная частота анализируется [Глумов - 1979; 1980; 1981]. Часто случается, что более частотный недескриптор получает статус дескриптора, а пассивный дескриптор теряет статус и превращается в свою противоположность. Учет частоты служит одним из способов контроля над лексикой тезауруса [Глумов - 1979; 1980; 1981].

Формирование ИПЯ дескрипторного типа регулируется международными стандартами (см. один из первых международных методических документов [UNISIST - 1973]). Эти стандарты обеспечивают построение всемирной системы информации, а также обеспечивают совместимость между отраслевыми ДИПС.

Компонентами ОАСНТИ или отраслевой ДИПС являются: лингвистическое обеспечение (ЛО), техническое обеспечение (ТО) и программное обеспечение (ПО).

Программное обеспечение – это пакет прикладных программ (ППП), который отрасль или создавала сама, или покупала на стороне. Например, ОАСНТИ-СМ [Глумов - 1979; 1980; 1981] строилась на базе профессионально-сделанного пермского пакета «ПЕГАС», который отвечал требованиям ГАСНТИ. По желанию заказчика, Горьковский государственный университет им. Н.И. Лобачевского (в лице его кафедры современного русского языка и общего языкознания {Дополнение 7}, ответственной за подготовку «прикладных лингвистов»), как проектант лингвистического обеспечения, должен был «подогнать» лингвистику системы к условиям данного пакета.

Нужно знать, что за эффективность работы столь дорогой системы ответственно лишь лингвистическое обеспечение, а не иные виды обеспечения. Только лингвистика системы отвечает за требуемую полноту (recall) и точность (precision, accuracy) поиска. И это правило сохраняется независимо от того, полнотекстовая система перед нами или нет, система одноязычная или многоязычная (cross-language retrieval).

ЛО ОАСНТИ состоит из информационно-поискового языка (ИПЯ), который включает в себя информационно-поисковый тезаурус (ИПТ) и искусственные грамматические средства (указатель роли и указатель связи). Под ИПЯ подразумевается искусственный дескрипторный язык [ГОСТ - 2001; ГОСТ - 2007].

ИПТ имеет вид поисковых деревьев (систематическая часть тезауруса) и алфавитный перечень дескрипторов и недескрипторов (алфавитный указатель). В деревьях одно отраслевое понятие встречается лишь один раз. Дерево понятий позволяет программно путешествовать по дереву, т.е. автоматически расширять или ссужать содержание поискового запроса. Безусловно, представление всей понятийной системы отрасти в виде поисковых деревьев – это некоторое огрубление, на которое проектировщики ЛО идут сознательно. Степень тщательности проработки таких деревьев позволяет говорить о той или иной степени «интеллектуального» поиска.

Примечание: Вспоминая философию, можно сказать, что любой материальный объект бесконечен, т.е. его надо познавать и познавать. Иногда описание содержания одного понятия занимает несколько толстых томов. И, безусловно, описывая содержание документа 10-20 многословными терминами, мы огрубляем ситуацию сознательно.

Тезаурус является хорошим нормализующим инструментом, т.е. мы имеем возможность регулировать или управлять как внешними формами ключевого слова, так и отслеживать содержание этого слова. Вот почему ИПЯ иногда называют словарем регулируемой лексики (controlled vocabulary) или контролируемым языком индексирования. В ОАСНТИ есть такая операция – «ведение тезауруса» (maintenance), т.е. постоянное обновление понятий-терминов, замена устаревших новыми. В любой поисковой системе идет постоянная шлифовка поисковых деревьев, уточняются парадигматические отношения между дескрипторами. О программном отслеживании активности ЛЕ мы сказали ранее.

Теперь вы видите, как много усилий тратится на проектирование ОАСНТИ. Поисковые деревья формируются с участием ведущих экспертов отрасли  {Дополнение 8}. Нужно видеть, что построенные деревья демонстрируют конкретный прагматизм, т.е. мы сознательно огрубляем или утончаем отношения между понятиями, ибо хотим получить в будущем требуемую полноту и точность поиска.

Достойно упоминания и следующее.

Что мы делаем, сооружая поисковые деревья отраслевых понятий? Во-первых, мы стараемся жестко очертить объем содержания понятия, затем приписываемый ему конкретный отраслевой термин. Во-вторых, мы соотносим одно понятие с другим, фиксируя связь между понятиями, размещаем понятие в конкретном месте будущего поискового дерева.

Что нам даст такая организация понятий в будущем? А многое. Система тогда будет способна принимать такие решения: эта сравниваемая пара идей абсолютно подобна, а эта пара подобна наполовину, а третья пара тематически одинакова лишь на четверть. То есть мы хотим построить механизм взвешивания того, как один документ тяготеет по своему смыслу к другому документу. Иными словами, мы хотим отобрать близкие по смыслу документы в одну группу (кластер – cluster) [Lin-Pantel - 2001]. Заманчиво построить такой робот-программу, которая из всего потока документов будет отбирать документы в один кластер , а другие документы в другой кластер  и т.п. Безусловно, при этом ключевые слова будут программно сравниваться не по их внешним формам, а по их корневым морфемам (stemming) [Larkey - 1999; Salton - 1970; Swanson - 1960].

Как видите, здесь много интересных логико-лингвистических прикладных проблем. Их можно решить, если мы отчетливо видим конечную цель – формирование некоторого искусственного языка с ограниченными выразительными способностями.

Такое оценивание или взвешивание точности совпадения смыслов или содержаний может быть обеспечено лишь за счет ИПЯ. Работа «железа» (т.е. технического обеспечения) или работа программных средств – эти два компонента системы не влияют на «интеллект» системы. Лишь глубоко продуманные поисковые деревья и грамматика ИПЯ делают систему «интеллектуальной» или «глупой».

О ПОЛНОТЕ И ТОЧНОСТИ ПОИСКА

Полнота  ()  и точность () – самые принципиальные характеристики поисковой эффективности.

Полнота поиска (R) или коэффициент полноты (recall, recall ratio, recall coefficient) – отношение количества выданных документов, являющихся релевантными, к общему количеству релевантных документов в массиве (обнаруженных релевантных документов ко всем релевантным документам в поисковом корпусе [Ланкастер - 1972, с.83; Солтон - 1979, с. 238]).

Например, поисковая выдача составила 50 документов (т.е. эти документы считаются самой системой якобы релевантными), но в этом количестве пользователь или эксперт считают фактически релевантными лишь 10 документов (), а в действительности в поисковом массиве экспертами вручную обнаружено 250 релевантных документов. Тогда отношение 25/250 = 1/10 и будет поисковой полнотой. Если нужно, в процентах этот коэффициент будет 10 %.

Выявление действительного количества релевантных документов во всем поисковом  массиве документов выполняется или самим пользователем или специальной экспертной группой. Этот процесс иногда называют «прополкой» или фильтрацией второго порядка [Ланкастер - 1972, с.85]. Если массив большой, то релевантные документы вручную выявляются на основе специально организованных выборок документов.

Точность (P) поиска (precision, precision ration/coefficient, retrieval accuracy) – отношение количества «якобы релевантных» документов, обнаруженных системой в отраслевом поисковом массиве документов, к общему количеству документов в поисковой выдаче [Ланкастер - 1972, с.83].

 

Например, поисковая выдача системы составила 100 документов (т.е. это – по мнению системы якобы релевантные документы). В действительности же среди них (по мнению пользователя) фактически релевантных было обнаружено лишь 25 документов. Тогда коэффициент точности будет равен 25/100 = ¼, а в процентах он равен 25 %.

О ЧАСТИЧНОЙ ФАКТОГРАФИИ

Безусловно, если мы хотим сделать систему способной отвечать на некоторые фактографические запросы в конкретной предметной области, тогда некоторые объекты этой предметной области мы представляем более подробно, т.е. указываем при объекте его признаки, принимающие конкретные значения. Приведем ниже фрагмент нашей статьи о работе ОАСНТИ-СМ [Глумов - 1981]. Здесь C7, C1, C2 и т.д. обозначают искусственное грамматическое средство ИПЯ – указатель связи (УС). В нашем случае УС выражал связь родительного падежа. Один поисковый образ документа (ПОД) может иметь несколько цепочек дескрипторов, связанных указателем связи. Важно, чтобы в пределах одного и того же ПОДа номера цепочек не совпадали. Внутри же каждой цепочки каждый ее элемент-дескриптор имеет один и тот же номер цепочки. При программном сравнении ПОДов , цепочка одного ПОДа сравнивается с цепочкой другого ПОДа – стратегия сравнения задается заранее.

Фрагмент статьи:

« 2. Конструкции, фиксирующие химический состав вещества, а также соотношения структурных компонентов в веществе (материале), индексируются с помощью дескриптора содержание, идентификаторов и указателей связи, например:

1) в тексте документа или поискового запроса:

“стекло состава  CdO 45-60%, Si02 29-30%, B2O3 20-25% “ ,

тогда в поисковом образе документа (ПОДе) или запроса (ПОЗе):

[стекло/C1]  [содержание/C1] [CdO/C1] 45-60%  [SiO2/C1] 29-30%  [B2O3/C1]  20-25%

2) «сплав меди и серебра» или «сплав состоит из меди и серебра» :

[сплав /C2] [содержание /C2] [медь/C2] [серебро/C2] 3) «химический состав шихты» или «компоненты шихты»  CaO – 15%, Cu – 20% :

[шихта/C3] [содержание/C3] [CaO/C3] 15% [Cu/C3] 20% »

То есть вы видите, что отраслевым химикам нужны поиски конкретных объектов с конкретными значениями признаков. В результате была построена система с частичной фактографией.

 

ОБ АВТОМАТИЗАЦИИ ИНДЕКСИРОВАНИЯ

В отраслевой ДИПС индексатор – центральный сотрудник, которому поручено вручную выражать смысл документа или запроса с помощью ключевых слов, заданных в отраслевом поисковом тезаурусе. И хоть есть подробная инструкция по индексированию, но все равно индексатор – это человек и ему свойственна индивидуальность. Индексатор имеет дело с сопоставлением содержаний документов, с обсуждением проблем релевантности документа и запроса. Этим проблемам свойственна некая размытостью (fuzziness).

Это и обусловило возникновение автоматического индексирования и автоматического формирования тезауруса. Автомат производит индексирование монотонно и устойчиво. Индивидуальности у него нет. Поручить эту высоко интеллектуальную операцию машине –этот вопрос ученые начали обсуждать еще в 50-60-х годах прошлого века [Salton - 1968; 1970; 1972]. Экспоненциальный рост мирового фонда документов делает автоматическое индексирование очень актуальным.

Вспомним историю этого вопроса (the sate of the art). В начале 80-х годов прошлого века эффективность ручного и автоматического индексирования оценивалась с помощью специально построенной эталонной системы SMART (СМАРТ) [Salton - 1972]. Эта система выполняла роль полигона, где испытывалась эффективность ручного индексирования каждой отраслевой системы США. В 1979 году Дж. Солтон писал: « …опыт последних 10-15 лет показывает, что полностью автоматическое индексирование дает практически приемлемое качество – по сравнению с традиционным ручным индексированием содержания документа. Для сравнения качества ручного и автоматического индексирования была построена система СМАРТ, где смысл документа автоматически индексировался дескрипторами из автоматически-сформированного тезауруса. Автоматически-сформированный тезаурус и др. автоматические процедуры над документом и запросом давали полноту и точность на 15-30% бóльшими, чем ручное индексирование [Солтон - 1979, с.31; Salton - 1968; 1970; 1972].

На сегодня ручное индексирование остается все тем же основным способом индексирования смысла вводимых в систему документов и запросов.

 

О ПОЛНОТЕКСТОВЫХ СИСТЕМАХ

Обычно документальная информационно-поисковая система  в ответ на поисковый запрос выдает библиографическое описание релевантного документа. Компонентом этого описания является и вторичный документ, т.е. реферат документа. Реферат не обязательно должен хранится в самом библиографическом образе документа. В библиографическом образе может хранится лишь ссылка на реферат. Если система имеет и первичный документ (а он, кстати, может занимать сотни страниц), то библиографический образ может нести и ссылку на адрес хранения первичного документа в компьютере.

Имеет ДИПС первичный документ или не имеет – эта физическая возможность системы не характеризует ее поисковую эффективность. Если же ДИПС способна автоматически анализировать сам титул документа, сами ключевые слова, описывающие идею документа, сам реферат документа и сам полный текст первичного документа, то в этом случае надо говорить о возможностях самого текстового анализатора. А если такого анализатора нет, то факт полнотекстовости еще не определяет эффективность поиска [Журавлёв-Юдина - 1995, с.19]. Поисковый «интеллект» системы определяется лишь описательными способностями ее дескрипторного языка.

С полнотекстовостью целесообразно обращаться осторожно. Вспомним наше поведение в магазине: мы вначале пробуем продукт на зуб, осматриваем, обнюхиваем его, а потом покупаем. Так и при поиске: система предъявляет результат своего труда – вначале биб-описание обнаруженного ею документа. Если покупатель информационных услуг находит это описание интересным, он получает гостированный реферат этого документа, а уж затем может быть и более расширенный реферат. И крепко подумав, он просит сам первичный длиннющий документ.

Безусловно, это не значит, что ОАСНТИ не должна стремиться к полнотекстовости. Наоборот, система круглые сутки должна всасывать в себя все релевантные документы из мирового фонда документов (нисходящий поток), этим постоянно наращивая свой поисковый массив. Иначе она не будет способной обеспечить полноту поиска – принципиальнейшее требование к системе. Здесь как раз уместно вспомнить о роли информации в нашей жизни.

О ПРИКЛАДНОМ ТЕРМИНОВЕДЕНИИ

Автоматизированный поиск документов тесно связан с отраслевыми понятиями. Единственным же и надежным средством выражения, обозначения понятия является ключевое слово. Чаще всего ключевое слово имеет вид составного термина с пре- и поспозициями: двоичное управление, память с произвольной выборкой, бетонная взлетная полоса, самолет с изменяющейся геометрией крыла, первая космическая скорость, binary data, binary arithmetic, ROM read-only memory, RAM random-access memory unit, online time-sharing system. Составные термины встречаются в титуле документа, в реферате и в первичном документе – это значит, что ими нельзя пренебречь, система должна быть способной «понимать» такие фрагменты текста автоматически.

Можно ожидать, что дескрипторные языки еще долго будут применяться в формализованном описании смысла документа или запроса. Дескриптор обычно имеет вид составного термина, Иногда на длину дескриптора накладывается ограничение. И здесь возникает интересная терминологическая проблема: каков механизм сжатия и расширения линейно-организованной семантической структуры составного термина. Выявление этого механизма можно было бы применить для построения эффективных лексических единиц ИПЯ. Такой раздел терминоведения, где формализованное представление семантики термина организуется с ориентацией на внедрение полученных результатов в проектирование информационно-поисковых языков, я бы назвал прикладным терминоведением.

Моделирование структуры составного термина должно быть настолько многоаспектным и многосторонним, чтобы создавалась возможность представить в модели термина всю сложность парадигматических отношений между терминируемыми признаками и отражение этих отношений в терминознаке.

РЕЗЮМЕ

За частоколом звучных терминов вида «портал», «информационный ресурс», «контент» (content =содержание), «паттерн» (pattern = образ) и т.д. нужно видеть прямую зависимость эффективности поиска от выразительных средств искусственного дескрипторного языка. Уровень развития этого языка, т.е. понятийные деревья, содержание грамматических средств, содержание поискового предписания и т.п. – именно эти моменты и определяют уровень «интеллекта» ДИПС.

Возникшая многоязычность поиска еще больше усугубила проблему построения эффективных лингвистических средств для ДИПС.

Для выявления преимуществ и недостатков ручного и автоматического индексирования смысла документа в США была построена широко известная поисковая система SMART  (СМАРТ) [Salton - 1972], на которой формирование поискового тезауруса и индексирование выполнялось автоматически. СМАРТ играла роль полигона, на котором проходила обкатка и совершенствование лингвистического обеспечения конкретной отраслевой ДИПС. В результате устранялись причины поискового «шума», совершенствовалась лингвистика ДИПС [Cleverdon-Keen - 1966]. Почему нам тоже не исследовать причины порождения поискового шума?

На этом фоне значимости лингвистического обеспечения, в наших современных руководящих документах понятие и термин «лингвистическое обеспечение» почему-то игнорируются. При чтении таких документов не понятно, какой компонент ДИПС ответственен за качество поиска. «Железо» (hardware) и «софт» (software) эффективный поиск не принесут, за полноту и точность поиска документов ответственно лишь лингвистическое обеспечение. Именно с помощью лингвистических средств мы формально представляем содержание или смысл документа или запроса. Такое понимание назначения лингвистических средств присутствовало в первом советском учебнике информатики [Михайлов-Чёрный-Гиляревский - 1968].

В 60-х годах прошлого века был наработан большой опыт построения дескрипторных ОАСНТИ [Ланкастер 1972; Мидоу - 1970; Солтон - 1979; Cleverdon-Keen - 1966Salton-Lesk - 1968; Salton-1970; 1972; Swanson - 1960]. Созданы были десятки крупных отраслевых поисковых тезаурусов. Уже в 60-е годах анализу работы лингвистических средств в таких системах были посвящены специальные диссертационные исследования [Чёрный - 1968].

Сегодня на российском рынке нет отчетливо заявленных, больших и надежных ДИПС, приглашающих обращаться к ним с запросами прямо с домашнего компьютера. Большинство из присутствующих на рынке систем построено без изучения мирового опыта проектирования лингвистического обеспечения таких систем.

Ощущается острая потребность восстановить профессионализм проектировщиков больших ДИПС, объединить научные силы, модифицировать лингвистическое обеспечение и строить национальную ДИПС на прежних основаниях, резко наращивая многоязычность.

Повсеместно используемое координатное индексирование не исключает использование и иных подходов к представлению смысла документа. Эти подходы должны работать в пределах одной и той же системы, взаимно дополняя друг друга [Котов-Якушин - 1979]. Цель остается всегда одна – качество поисковых операций.

Поисковый язык может быть усилен специальными средствами для автоматизированного или автоматического анализа текста.

 

ЛИТЕРАТУРА 

[Виноградов – Глумов – Ломакина – Максимов – Русова – 1981] Особенности лингвистического обеспечения отраслевой автоматизированной системы научно-технической информации промышленности строительных материалов. С.Н. Виноградов, В.И. Глумов, О.А. Ломакина, В.Р. Максимов, Н.Ю. Русова// Журнал «Научно-техническая информация, Серия 2 «Информационные процессы и системы», 1981, № 2, с. 11-15.

[Глумов – 1979] В.И. Глумов. О построении информационно-поискового языка ОАСНТИ-СМ. – Сб. трудов Всесоюзного научно-исследовательского института научно-технической информации и экономики промышленности строительных материалов (ВНИИЭСМ) Министерства промышленности строительных материалов (МПСМ) СССР. – М., ВНИИЭСМ, 1979, вып. 21. (Соавторы: С.Н. Виноградов, Н.Ю. Русова, В.Р. Максимов, О.А. Ломакина).

[Глумов – 1980] В.И. Глумов. О функционировании лингвистических средств отраслевой автоматизированной системы ОАСНТИ-СМ//Уч. зап. ВНИИЭСМ МПСМ СССР.– М.:1980.-Вып. 23. – с.17-26. (Соавтор: О.А. Ломакина)

[Глумов – 1981] В.И. Глумов. Особенности лингвистического обеспечения отраслевой автоматизированной системы научно-технической информации промышленности строительных материалов//Журнал «Научно-техническая информация (НТИ),Серия 2 «Информационные процессы и системы», 1981, № 2, с. 11-15.
(Соавторы: С.Н. Виноградов., О.А. Ломакина, В.Р. Максимов, Н.Ю. Русова).

[ГОСТ – 1973] ГОСТ 7.25-2001. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления. (Взамен: ГОСТа 18383-73 Тезаурус информационно-поисковый. Общие положения. Форма представления.) Этот ГОСТ совместим с международным стандартом ISO 2788:1986. Guidelines for the establishment and development of monolingual thesauri.

[ГОСТ– 2007] ГОСТ 7.24-2007. Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению. (Взамен: ГОСТ 7.24-90 Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению.) Этот ГОСТ совместим с международным стандартом ISO 5964:1985. Guidelines for the establishment and development of multilingual thesauri.

[Ланкастер – 1972] Ф. Ланкастер. Информационно-поисковые системы. Характеристики, испытание и оценка. (Перев. с англ.). – М.: Мир, 1972, 308с. [F. W. Lancaster. (National Laboratory of Medicine), Information retrieval systems. Characteristics, Testing and Evaluation. John Wiley & Sons, Inc. New York-London-Sydney-Toronto, 1968] 

[Мидоу – 1970] Ч. Мидоу. Анализ информационно-поисковых систем. Введение для программистов. (Перев. с англ.) – М.: Мир, 1970. – 368c. [Meadow, Charles T. (Federal Systems Division); The Analysis of Information Systems. A Programmer’s Introduction to Information Retrieval. IBM, Second Printing, John Wiley and Sons, Inc., New York–London–Sydney, 1967] [Михайлов – Чёрный – Гиляревский – 1968] А.И. Михайлов, А.И. Черный, Р.С. Гиляревский. Основы информатики. М., НАУКА, 1968, 756с

[Солтон – 1979] Дж. Солтон. Динамические библиотечно-информационные системы. (Перев. с англ.) – М.: Мир, 1979, – 557c. [G. Salton (Department of Computer Science, Cornell University), Dynamic Information and Library Processing. Prentice-Hall, Inc. Englewood Cliffs, New Jersey, 1975] 

[Стандарт – 2001] Документоведение и документационное обеспечение управления. Специальность 350800: Государственный образовательный стандарт высшего профессионального образования и примерные программы дисциплин федерального компонента (циклы общепрофессиональных дисциплин и дисциплин специальности)/Отв. ред. В.В. Минаев. М.:РГГУ, 2001, 476с.

[Чёрный – 1968] А.И. Чёрный. Исследование общих принципов построения ИПС дескрипторного типа. Канд. диссертация, ВИНИТИ, 1968.

[Aronson – Rindflesch – 1998] Semantic Knowledge Representation Project. A Report to the Board of Scientific Counselors. May 14, 1998. Investigators: Alan R. Aronson (PhD); Thomas C. Rindflesch (PhD). Cognitive Science Branch, Lister Hill National Center for Biomedical Communications. [skr.nlm.gov/papers/index.shtml] [Cleverdon – Keen – 1966] C.W. Cleverdon, E.M. Keen. Factors Determining the Performance of Indexing Systems, Aslib-Cranfield Research Project Reports, Vols. 1 and 2, Cranfield (England), 1966.

[Larkey – 1999] Leah S. Larkey (Center for Intelligent Information Retrieval. Dept. of Computer Science. Univ. of Massachusetts. Amherst, Mass.). A Patent Search and Classification System. 1999. [larkey@cs,umass.edu] [Lin – Pantel – 2001] Induction of Semantic Classes from Natural Language text. Dekang Lin and Patric Pantel (Univ. of Alberta, Dept. of Computing Science, Edmonton, Alberta, Canada {lindek, ppantel}@cs.ualberta.ca}

[MARC – 1970] Format recognition process for MARC records. A logical design. Information Science and Automation Division, American Library Association, Chicago, 1970, 301p.

[Rindflesch – Aronson – 1993 ] Semantic Processing in Information Retrieval. Thomas C. Rindflesch (U.S. Dept. of Health and Human Services) and Alan R. Aronson (National Library of Medicine). Proc. Annual Symposium on Computer Application in Medical Care. February 1993.

[Rude – 1998] Gerta Rude (Computer Science, Technical University of Műnich). Automatic Detection of Thesaurus Relations for Information Retrieval Applications. 1998. Foundations of Computer Science: Potential – theory – cognition. Lecture notes in computer science, vol. LNCS, pp. 499-506. Springer Verlag.

[Salton – Lesk – 1968] G. Salton, M.E. Lesk. Computer Evaluation of Indexing and Text Processing, Journal of the Association for Computing Machinery, 15, No. 1 (Jan. 1968), 8-36.

[Salton – 1970] G. Salton. Automatic Text Analysis, Science, 168 (April 1970), 335-343.

[Salton – 1972] G. Salton. A New Comparison Between Conventional Indexing (MEDLARS) and Text Processing (SMART), J-l of the ASIS, 23, No. 2 (March –April 1972), 75-84.

[Swanson – 1960] D.R. Swanson. Searching Natural Language Text by Computer, Science,132, No. 21 (October 1960), 1099-1104.

[UNISIST – 1973] UNISIST: Guidelines for the Establishment and Development of Monolingual Thesauri. SC/WS/555, Paris, UNESCO, September 1973.

 

ДОПОЛНЕНИЯ

Дополнение 1.

И автоматического.

Дополнение 2.

Иногда на длину ключевого слова, т.е. дескриптора,  накладываются ограничения.

Дополнение 3.

Индексатор является важнейшим сотрудником системы. От его умения понять основной смысл длинного документа или поискового запроса  (на одном из рабочих языков ДИПС) и выразить этот смысл с помощью немногочисленных дескрипторов зависит будущий поиск, т.е. достижение  хорошей полноты и точности поиска.  Этап индексирования – это одна из точек, порождающих возможный «поисковый шум». Какой бы подробной ни была рабочая инструкция  по индексированию – все равно,  при индексаторе сохраняется  определенная доля  инициативы, т.е. процесс индексирования не получается столь монотонным и устойчивым, как  этого хотелось бы.  Вот почему возникает нужда в автоматизации индексирования, где автомат будет совершать работу монотонно и устойчиво, и если будет ошибаться, то будет ошибаться монотонно. Такую регулярно повторяемую ошибку человеку легче обнаружить и исправить. После этого автомат уже будет работать  «умнее».  Автоматизация индексирования – это одна из труднейших, и на сегодня нерешенных, проблем современного поиска.

Дополнение 4.

Одинаковость ссылочной литературы   может говорить о  сходстве содержаний  двух сопоставляемых документов, но этот признак  не может быть основным при определении релевантности двух документов. 

Дополнение 5.

В любой дескрипторной поисковой системе все отраслевые понятия-термины организованы в виде деревьев. Решение о содержании этих деревьев, т.е. решение об определении отношений между отраслевыми понятиями-терминами  принимается  экспертами данной  области знаний,  которые также хорошо понимают задачи поиска и истинное назначение поискового тезауруса.  Поисковый тезаурус – это не научная классификация понятий, а сугубо  прагматичная классификация, предназначенная для  расширения или сужения поиска релевантных документов.  Поисковый тезаурус  представлен в виде поисковых деревьев понятий-терминов (предметный указатель)  и в виде алфавитно-упорядоченных  терминов (дескрипторов и недескрипторов), которые составляют «алфавитный указатель».   Этот указатель позволяет быстрее отыскивать лексические единицы (ЛЕ) и видеть отношения между ЛЕ  в дескрипторной статье (descriptor entry).  В Примечании 5 дескрипторная   статья  «ОБРУДОВАНИЕ ПЫЛЕУЛАВЛИВАЮЩЕЕ» и недескрипторная статья «Аппараты пылеулавливающие»  являются своеобразными входами, через которые можно программно войти в тезаурус.

Дополнение 6.

Вначале  в советских ГОСТах  условно-эквивалентное  название при дескрипторе называлось недескриптором, позже  на смену этому названию пришло название аскриптор.  Укажем гостированную структуру  дескрипторной  статьи  тезауруса ОАСНТИ-СМ (т.е   информационно-поисковый тезаурус  промышленности строительных материалов  ОАСНТИ-СМ (ДИПС Всесоюзного  НИИ научно-технической информации и экономики промышленности строительных материалов , Раздел «ЦЕМЕНТНАЯ ПРОМЫШЛЕННОСТЬ». Издание ВНИИЭСМ Мин-ва промышленности строительных материалов СССР, 1981. – 215с.)

ОБОРУДОВАНИЕ ПЫЛЕУЛАВЛИВАЮЩЕЕ (с. 99 алфавитного указателя)

с   аппараты пылеулавливающие

     оборудование обеспыливающее

     пылеулавливатели

     установки   обеспыливающие

     установки пылеулавливающие

н   АППАРАТ ПЫЛЕУЛАВЛИВАЮЩИЙ ЗАПЕЧНЫЙ

     КАМЕРА ПЫЛЕОСАДОЧНАЯ

     ФИЛЬТР ЗЕРНИСТЫЙ

     ФИЛЬТР РУКАВНЫЙ

      ЦИКЛОН

а   ЭЛЕКТРОФИЛЬТР

 

Аппараты пылеулавливающие

см  ОБОРУДОВАНИЕ ПЫЛЕУЛАВЛИВАЮЩЕЕ

Дополнение 7.

Кафедрой  руководил доктор филологических наук, профессор, заслуженный  деятель науки РСФСР Борис  Николаевич Головин. 

Дополнение 8.

В [Виноградов – Глумов – Ломакина – Максимов – Русова – 1981] мы перечислили  относительно  тематически самостоятельные подотрасли промышленности стройматериалов, каждая из которых имела свой собственный поисковый тезаурус.  Укажем подотрасли:

1)  цементная и асбестоцементная промышленность;

2)  промышленность автоклавных и местных вяжущих материалов;

3)  стекольная промышленность;

4)  промышленность нерудных и металлорудных материалов;

5) промышленность полимерных, мягких кровельных, гидроизоляционных и теплоизоляционных строительных материалов;

6)  керамическая промышленность;

7) промышленность сборного железобетона;

8) промышленность санитарно-технического оборудования.

            Ниже, представляя 2 узко-тематических тезауруса данной отрасли, мы хотим подчеркнуть большую роль содружества прикладных лингвистов и отраслевых ученых в проектировании лингвистического обеспечения отраслевой автоматизированной системы научно-технической информации  промышленности стройматериалов (ОАСНТИ-СМ).

            Информационно-поисковый тезаурус промышленности строительных материалов

ОАСНТИ-СМ.  Раздел ЦЕМЕНТНАЯ ПРОМЫШЛЕННОСТЬ. Первая редакция. (Более 5000 терминов).

 Составители (по алфавиту):  Виноградов С.Н.*, Глумов В.И.*, д. филолог. н., профессор  Головин Б.Н.*,  к.т.н.  Грикевич Л.Н.***, к.э.н. Карелин В.С.***,  к.т.н. Ломакина О.А.**, к.т.н. Максимов В.Р. **, к.т.н., доцент Матвеев Г.М.**,  к.т.н. Мешик Т.Г. ***, Рубцова Н.В.*, Русинова Л.И.*, к. филолог. н.  Русова Н.Ю.*.  – Москва, издание Всесоюзного научно-исследовательского института научно-технической информации и промышленности строительных материалов (ВНИИЭСМ) Министерства промышленности строительных материалов СССР.  1981. – 215с. Тираж 150 экз.

            Информационно-поисковый тезаурус промышленности строительных материалов. Раздел БЕТОН И ЖЕЛЕЗОБЕТОН. Первая редакция.  (Около 4000 дескрипторов и около 700 недескрипторов)

            Составители (по алфавиту):  к.т.н., ст. н. с. Архангельская М.П.** , ст. инж.  Глумов В.И.*,  зав. кафедрой  современного русского языка и общего языкознания ГГУ,  д. филолог. н., профессор  Головин Б.Н.*,  к. филолог. н., м.н.с. Горшкова Т.М.*, к.т.н., ст. н. с.  Ломакина О.А.**, зав. отделом АСНТИ  ВНИИЭСМа, к.т.н.  Максимов В.Р.**,  зам.  директора  ВНИИЭСМа, к.т.н. Матвеев Г.М.**, м.н.с. Ручина Л.И.*,  к. филолог. н., м.н.с. Сергевнина В.М.*,  ст. инж. Школьник И.Н.**.  – Москва, издание Всесоюзного научно-исследовательского института научно-технической информации и промышленности строительных материалов (ВНИИЭСМ)  Министерства промышленности строительных материалов СССР.  1981. – 223с. Тираж 100 экз.

            Примечание:  звездой (*) отмечены сотрудники Горьковского государственного университета им. Н.И. Лобачевского, двумя звездами (**)  – института  «ВНИИЭСМ» (Москва),  двумя звездами (***)  – института «НИИцемент» (Москва).

ИНФОРМАЦИЯ:

В данной статье, опубликованной в 1981 году,  введены  8  дополнений от 15 августа  2015 года  – в момент  размещения статьи на сайте gloumov.com

Скачать статью в pdf формате

Помощь для Joomla.