2015г. Проблемы семантики в статистических наблюдениях над английскими научно-техническими текстами

 

Из: с. 90-101. «Актуальные вопросы модернизации: экономика, образование, управление и право». Материалы 3-ей международной научно-практической конференции (Нижний Новгород, Нижегородский филиал Московского государственного университета экономики, статистики и информатики (МЭСИ),  22 октября 2014 года). – Нижний Новгород, НФ МЭСИ, 2015. – 322с.

 

Виктор Игнатьевич Глумов

НФ МЭСИ, Нижний Новгород, Россия

 

Проблемы семантики в статистических наблюдениях

над английскими научно-техническими текстами

 

Скачать статью в pdf формате

В структуре английского составного термина (компаунда) часто присутствуют признаки вида “фамильность”, “инструментальность”, “место/пространство”, “время” и др. Для решения задач автоматического анализа и понимания научно-технических текстов важно иметь сведения об активности таких признаков. Существует многолетняя практика формирования частотных словников словоформ, но, тем не менее, трудности распознавания лексической единицы (ЛЕ) и представления её в словнике сохраняются до сих пор. Построение частотных словников на современных персональных компьютерах становится удобным в том плане, что словник по массиву текстов, скажем, объемом в 500-700 страниц строится очень быстро, появляется возможность быстро редактировать саму́ машинную программу (после анализа очередной выдачи словника), затем снова строить словник, анализировать выдачу – и цикл повторяется. Так корректируется подход, принятый нами  к статистическому наблюдению над естественными текстами.

Следует, однако, сказать и о трудностях, которые скорее являются логико-семантическими, чем техническими. Вышеуказанные семантические признаки выражаются многообразными способами, а это вынуждает нас строже формулировать наш подход к их распознаванию. Укажем особенности внешнего выражения таких признаков.

Примечание. Предварительно отметим, что описываемая нами машинная программа формирует словники с учетом требований, изложенных в специальном стоп-списке, где задаются составные термины, которые программе запрещается разрезать на части. Так как на формирование словника уходит всего несколько секунд, то становится возможным быстро вносить изменения в стоп-список (с помощью специальной подпрограммы) и снова запускать программу.

О фамильности. Этот признак может быть выражен как морфемно (H-data), так и словесно (Hollerith data) {Дополнение 1}. Чтобы программно извлечь признак “H-“, мы предварительно вводим термин H-data в наш стоп-список, указав при этом границу между терминоэлементами. Пусть термин будет иметь вид  “H-Hollerith”. После обработки терминов вида Hollerith strings, Hollerith code, Hollerith card  и H-Hollerith программа учтёт также и морфемное выражение данного признака. Для распознавания признака фамильность,  в стоп-списке содержаться фамилии знаменитых учёных данной предметной области. Можно сказать, что программа работает под управлением нашего стоп-списка  (stop-list-driven) {Дополнение 2}. Чем шире список, тем бо́льшее влияние он оказывает на работу программы.

О географическом признаке. В стоп-список предварительно внесены и названия городов, чтобы сохранить название города в сочетаниях вида New York university. Список также содержит и иерархическое дерево географических названий континентов, стран, столиц, областей/штатов/регионов, больших городов. В таком дереве, например, понятие-лексема «Нижний Новгород» (варианты внешнего выражения этой лексемы: Нижний Новгород; Н. Новгород; Nizhny Novgorod, N. Novgorod; NN; Nizhegorodsky и т.п.) занимает вполне определённое место. Предполагается, что с помощью этого дерева программа может “понять” смысл текстовых цепочек вида «Москва, Россия» и «Москва, штат Огайо, США”.

О признаке «время». Желательно, чтобы машинная программа «понимала» временно́й признак – а точнее,  предварительность {Дополнение 3} – в словосочетаниях, где этот признак может быть выражен как морфемно (синтетически), так и словесно (аналитически): preset (предварительно за́данный) и previously set (предварительно заданный), precomputed (предварительно вычисленный) и previously computed (предварительно вычисленный). Укажем выявленные  нами частоты этого признака:

previously 26 preexisting 3 preprocessing 2 predeclared 1
predetermined 16 preemptive 2 presuppose 1 prestated 1
predefined 12 prefixed 2 preprogrammed 1 presetable 1
precoded 3 preprocessed 2 preemptied 1 predetermination 1

 

О признаке "учреждение/организация".  Элементом составного термина (т.е. терминоэлементом) может быть название промышленного предприятия, университета, фирмы и других видов объединения работающих людей. В нашем случае блокирование ненужного разрезания таких многословных названий также осуществляется с помощью стоп-списка.

О других  особенностях стоп-списка. Из вышесказанного ясно, что стоп-список быстро растёт и роль его повышается. Ручной анализ каждого варианта словника, выдаваемого  программой, выявляет всё новые и новые словосочетания, которые хотелось бы хранить как неразрезаемые термины. Вдумаемся в существование такой несправедливости: если машинной программой не управлять, тогда она будет разрезать логически неразрезаемое: например, термин целеуказание программой пропускается в словник, а его же вариант «указание цели» не пропускается и разрезается. Термин коэффициент полезного действия, если его не защитить, будет разрезан, хотя в словник будет внесен его эквивалент – КПД или кпд. То же самое происходит и с термином  вида data-processing  (обработка данных), который может иметь  форму processing  data (обработка данных).

Такие случаи ненужного расщепления (splitting) составного термина на компоненты многочисленные, они убеждают в том, что при  членении терминоструктуры на компоненты полагаться лишь на типографский пробел между словоформами термина бесперспективно, нужно – вслед за человеком – руководствоваться смыслом, т.е. интуитивно различать некие словесные единства, выражающие единое понятие, и единства, выражающие отдельные признаки этого понятия. Возьмём, например,  служебное сочетание вида “in spite of” (несмотря на); если мы заблаговременно поместим его в стоп-список, да ещё укажем его синоним  despite, тогда создаётся возможность подсчитать частоту появления смысла «несмотря на, вопреки чему-то». (См. также  выше случай с  распознаванием  семантического признака "фамильность".)

Учёт частоты именно значений, а не словоформ, принципиально важен при проектировании дескрипторных языков для многоязычного информационного поиска.

В нашем случае мы рассматриваем стоп-список как некую примитивную искусственную Систему Знаний (artificial Knowledge System), сложность которой может  постепенно нарастать. Лексические единицы в таком списке, если нужно, могут подвергаться разнообразному классифицированию.

 

О частотном словнике словоформ. В нашем случае словник строился по массиву определений/дефиниций английских вычислительных терминов. Размер текста дефиниции варьируется от нескольких слов до нескольких страниц. Массив дефиниций наращивается по мере обнаружения дефиниций в текстах статей и книг – известно, что сфера фиксации терминов в словарях значительно отстаёт от сферы употребления.

Каждая дефиниция условно считается отдельным документом. Документ имеет маркер начала и конца, а также порядковый номер. Термин (entry), возглавляющий дефиницию, условно назовем заглавием/титулом документа. Заглавие также выделено специальными маркерами, что даёт возможность формировать списки заглавий-терминов. В случае формирования конкорданса для того или иного термина программа делает ссылку на номер документа.

Программно формируются два словника – частотный и алфавитный. Частотный словник имеет структуру:

ранг – найденная словоформа – частота этой словоформы.

Словоформы упорядочены по убыванию частоты. Структура алфавитного словника:

ранг – алфавитно-упорядоченная словоформа – её частота.

Время формирования  машинного словника по тексту в 650 страниц составляет несколько секунд.

Ниже (Таблица  1) предлагается фрагмент частотного словника. В нём видно, что после обычных высокочастотных  служебных слов (артиклей, предлогов, союзов) отраслевые однословные термины занимают ранги 15-60.

В столбце “F” указаны только фактические частоты, другие виды частот  будут указаны только после окончательной подготовки исходного корпуса документов и окончательного прогона программы.

Таблица 1

Частотный словник лексем
(Первые 70 рангов)

 

Ранг

 

Лексема

{Дополнение 4}

 

F

 

Cловоформы

 

1 the 21285

the 21284

THE 1

2 a 17047

a 14343

an 2701

AN 3

3 of 15845

of 15820

OF 25

4 be 15099

be 3582

is 7207

are 2890

was 591

been 361

being 289

were 157

am 12

IS 6

AM 3

wAs 1

amnt

arent

isnt

wasnt

werent 

(Словоформы без чисел  не были обнаружены)

5 to 8002

to 7999

TO 3

6 and 7366

and 7327

AND 39

7 in 7301

in 7293

IN 8

8 for 4375

for 4372

FOR 3

9 that 4193 that 4193
10 or 3541

or 3506

OR 35

11 by 2949 by 2949
12 it 2093

it 2080

IT 13

13 as 2683

as 2680

AS 3

14 see 2674

see(s) 2697

SEE 34

seen 28

seeing 3

saw 2

15 use 2510

use 585

used 1574

using 351

usage(s)

uses

16 system 2153

system  2100

systematic 25

SYSTEM(S) 12

system’s 10

systematically 5

systemic 1

17 on 1998

on 1931

onto 65

ON 2

18 can 1885

can 1558

could 109

able 97

capable 93

capability (-ties) 28

19 data 1844

data 1833

DATA 6

datum 5

20 program 1501

program(s) 1111  

programming 365

programmer(s) 47

programmable 32

programmed 23  

programme(s) 8

PROGRAM  6  

program’s  3

PROGRAMMER 1

PROGRAMMING 1

programmability 1

programmatic 1

21 process 1500

process(es) 939

processor(s) 270

processing 257

processed 31

PROCESSING 2

PROCESS 1

22 computer 1349

computer(s) 973

computing 147

computation(s) 79

computable 38

computed 31

computational 26

compute(s) 20

computability 17

computer’s 11

computationally 4

COMPUTER  2

COMPUTING 1

23 may 1290

may 1191

might 99

24 operate 1122

operate(s) 80

operation(s) 636

operating 214

operator(s) 133

operational 30

 operated 20

operationally 3

OPERATIONS 3

operator’s 2

operative 1

25 set 1065

set(s) 1046
setting(s) 18
SET 1

26 number 1000

number(s) 970

numeric 12

numbering 11

NUMBER(S) 4

numbered 3

27 form 905

form(s) 760

formed 74

formation(s) 50

forming 20

FORM 1

28 code 897

code(s) 575

coding(s) 114

encoding(s) 93

encoded 47

coded 29

encoder 22

encode(s) 9

coder 4

CODING 4

29 language 862

language(s) 242

LANGUAGE 2

linguistically 2

linguistic 1

linguistics 1

30 function 885

function  798

functional 57

functionality 16

functionally 9

functioning 3

FUNCTION 1

functions’ 1

31 set 880

set 879

SET 1

32 time 763

time(s) 718

timing(s) 29

TIME(S) 6

timed 5

timer 3

timely 1

timization 1

33 device 755

device  747

device’s 4

DEVICE 4

34 define 721

define 92

defined 394

definition(s) 123

defining(s) 69

definable 5

definite 5

definability 3

definite 2

definitely 2

definiteness 1

35 information 686

information(s) 619

informative 1

36 network 665

network(s) 623

networking 28

networked 9

NETWORK 4

network’s 1

37 logic 659

logic 482

logical 149

logically 12

logics 9

logician(s) 4

LOGICAL 3

38 term 626

term(s) 616

termed 10

39 memory 616

memory (-ies) 604

MEMORY 8

memoryless 4

40 store 602

store(s) 153

storage 300

stored 149

storing

41 control 595

control(s) 481

controlled 54

controller(s) 30

controlling 28

controllable 1

CONTROL 1

42 method 593

method(s) 590

METHOD 3

43 give 593

give(s)140

given 309

giving 44

gave

44 file 567

file(s) 553

filing 9

filed 3

file’s 2

45 signal 491

signal(s) 471

signaling 19

SIGNAL 1

46 bit 478 bit(s) 478
47 disk 472

disk(s) 457

DISK 12

disk’s 2

diskor 1

48 input 470

input(s)  467

INPUT 2

inputor 1

49 represent 447

represent(s) 142

representation(s) 139

represented 104

representing 51

representative 9

representable 2

50 design 441

design(s) 285

designed 136

designer(s) 18

DESIGN 2

designing

51 machine 426

machine(s) 421

machinery 3

MACHINE 1

machine’s 1

52 word 413

word(s) 408

WORD 4

word’s 1

53 call 409

call(s) 68

called 330

calling 7

caller(s) 3

CALL 1

54 represent 407

represent(s) 98

representation 129

represented 120

representing 60

55 model 399

model(s) 373

modeled 15

MODEL 10

modeler 1

56 output 397 output(s) 397
57 access 397

access(es) 320

accessed 36

accessible 21

accessing 10

ACCESS 5

accessibility 5

58 error 393 error(s) 393
59 digit 389

digit(s) 108

digital 252

digitized 8

digitally 7

digital’s 4

digitizer 3

digitizing 3

DIGITAL 1

digitization 1

DIGITIZER(S) 2

60 order 382

order(s) 285

ordered 52

ordering 43

orderor 1

ORDERING 1

61 apply 381

apply(ies) 100

applied 175

application(s) 106

62 address 380

address(es) 350

addressed 15

addressable 10

addressability 3

addressless 2

63 develop 376

developed 190

development 186

64 model 366

model(s) 366

modelling

65 point 363 point(s) 363
66 value 356

value(s) 339

VALUE 1

valuable 9

valuation 3

valued 2

valuator 2

67 image 318

image(s) 317

IMAGE 1

68 tape 278

tape(s) 277

TAPE 1

69 add 239

add(s) 28

addition 96

additional 54

additionally 2

adder 26

adding 19

additive 4

ADD 2

additively 1

70 binary 233

binary 231

BINARY 2

  Всего 58617  


 
 

Выводы по словнику

1) То, что высокочасто́тны артикли – это естественно. Высокая частота многозначных предлогов – тоже не редкость. Она лишний раз подтверждает необходимость формально описывать их семантику. Высокая частотность таких единиц, их высокая покрываемость текста говорит об их значимости, а это должно учитываться, скажем, при изучении английского языка. Более того, это следует учитывать и в системах интеллектуального поиска многоязычных документов.

2) Огромная частотность глагола be (быть) (ранг 4) подтверждает интуитивное ожидание популярности родо-видовых отношений между словами, отношений «часть-целое», «подобия/сходства».

3) В пределах от 15-го ранга до ранга 70 {Дополнение 5} налицо обилие профессиональных лексических единиц – исключение составляют: многозначный предлог on , модальные глаголы can (ранг 18) и may (23), а также и глагол give (42). Эта профессиональная лексика обладает высокой покрываемостью; такие ЛЕ часто входят в состав многословных терминов.

Думается, что такая активность отраслевой лексики обусловлена стилевыми особенностями текстов дефиниций. Тексты дефиниций обычно составляются опытными экспертами и их подбор терминов, точность определений могут служить примером выражения профессиональных мыслей.

О трудностях  и об алгоритме построения словника

Одной из основных трудностей является подготовка исходного массива/корпуса текстов, а именно, оцифровка текста и проверка качества оцифровки. Оформление математических знаков и формул, отслеживание правильного использование «дефиса» и «тире», устранение переносов и т.п. – все эти операции весьма трудоёмки.

Алгоритм формирования этих двух вариантов словника работает следующим образом: вначале текущая словоформа текста опознается на принадлежность её к лингвистическим предметам или предметам нелингвистическим (т.е. математический знак или формула и т.п.). Если обследуемый предмет является нелингвистическим, тогда его частота отмечается в его счетчике частоты и далее алгоритм переходит к обработке следующей словоформы. Если же текущая словоформа является лингвистическим предметом, тогда программа проверяет данный предмет по стоп-списку. С помощью указаний стоп-списка относительно данной словоформы программа продолжает дальнейший анализ этой словоформы. В точке распознавания «лингвистика-математика» программе приказано не спешить, а подольше «топтаться» около обследуемого предмета. Например, важная лексическая единица “3D”(трехмерный) оказалась в тексте разорванной, т.е. число отделено от буквы многочисленными пробелами. Программа обязана в этом случае игнорировать  многочисленные пробелы и признать цепочку 3D лексической единицей.

Ниже мы хотим показать, как с помощью алфавитно-упорядоченного словника возникает возможность сгруппировать словоформы, реализующие одну и ту же лексему – скажем, лексему  “-comput-“ или лексему “digit-“.

 

Таблица  2

22 computer 1349

computer(s) 973
         (вычислитель, вычислители, компьютер, компьютеры)

computing 147

         (вычисляя, вычисление)

computation(s) 79

         (вычисление, вычисления)

computable 38  

         (вычисляемый; исчислимый)

computed 31
         (вычислял, вычислил, вычисленный)

computational 26

         (вычислительный)

compute(s) 20  
         (вычислять, вычисляет)

computability 17
         (вычисляемость)

computer’s 11  
         (вычислителя, компьютера, вычислительный,  компьютерный)

computationally 4
         (с помощью вычислительной техники)

COMPUTER  2

COMPUTING 1

[Словоформа computerization (использование вычислительной техники/компьютеров; компьютеризация) ни разу не встретилась]

 
58 digit 389

digit(s) 108
         (
цифра)

digital 252 

         (цифровой)

digitized 8
         (оцифровывал, оцифрованный)

digitally 7
         (в виде цифр)

digital’s 4
         (цифровой)

digitizer 3
         (оцифровщик, дигитайзер)

digitizing 3
         (оцифровывание, оцифровка; оцифровывая)

digitization 1
         (оцифровывание, оцифровка)

DIGITAL 1 
DIGITIZER(S) 2

 

Заметим, что гнездование родственных словоформ, т.е. реализующих одну и ту же лексему (скажем, лексему “-comput-“ или “digit-“) – такой процесс помогает борьбе за чистоту русского научно-технического языка. Например, всмотритесь в словоформу «компьютер» и постарайтесь – вручную или автоматически – распознать/высечь/выявить/определить лексему “-вычисл-“, которую можно без особого труда распознать в формах вычислительвычисляявычислялвычисляливычислительныйвычисляющийпредвычислительный. Как вы видите, выразить идею действия с помощью лексемы вида “-компьют-“ нельзя. Имени действия «компьютить» в русском языке ещё нет, а уже популярным  словоформам  компьютеркомпьютерукомпьютерекомпьютерамикомпьютерныйкомпьютеризировать  мы не можем найти стержень/основу, объединяющую этот ряд словоформ. Лексема несёт некое центральное значение/идею, а все другие словоформы этого ряда это центральное значение выражают, прибавляя при этом некое дополнительное/коннотати́вное значение.

При формировании Системы Знаний, на основе которой мы хотели бы автоматически понимать текст, нам приходиться такие кальки (компьютер) тоже учитывать. Они проживают в такой Системе Знаний в роли «гадкого утенка». Сравните реакцию ребёнка на столь естественные пары «учить – учитель», «строить – строитель», «вычислять – вычислитель», и на таинственные пары вида «компьютить – компьютер», «дигитировать – дигитайзер». Поставьте вместо ребёнка робот, которого мы тоже должны обучать, и вы почувствуете, как обучение прервётся, ибо при построении слов нарушен принцип системности. Почему люди беспардонно порождают кальки? Потому, что нет дисциплины в использовании и строительстве новых терминов, не решаются проблемы нормирования и стандартизации терминологий.

Обсуждая процессы лексемизации, т.е. распознания лексем и формирования рядов родственных словоформ (формирование лексемного ряда), мы должны готовиться к выполнению очередной задачи – формализованному представлению самих лексических значений. Для этой задачи оптимальные статистические наблюдения над лексемами будут полезны.

 

О программировании

Пакет программ на языке С++ для построения частотного и алфавитного словников на персональных компьютерах (а также для ведения стоп-списка (stop-list maintenance) и выполнения других вспомогательных операций) написан Д. Н. Родионовым (технический директор ООО “Д’Мартин“); оцифровка и предмашинная обработка исходного массива текстов выполнены А. А. Швецовым (ст. преподаватель НГТУ), алгоритм и блок-схема программы разработаны В.И. Глумовым (доцент НФ МЭСИ).

Дополнения

Дополнение 1
Американский учёный Герман Холлерит (Herman Hollerith) известен как автор широко известного способа представления данных на перфокартах. В 1889 году им предложено алфавитно-цифровое кодирование статистических данных на перфокартах (с. 205 Computer dictionary and handbook. By Charles J. Sippl & Charles P. Sippl. 1972. Howard W. Sams & Co., Inc.; The Bobbs-Merrill Co., Inc. Indianopilis, Kansas City, New York. 778p.). С этим именем связаны термины: Hollerith strings (Холлеритовы цепочки), Hollerith code (Холлеритов код), Hollerith card (Холлеритова перфокарта).

Дополнение 2
В стоп-списке хранится и дополнительная информация о видных учёных данной предметной области. Эта информация может пригодиться нам в будущем.

Дополнение 3
Предварительность как частный случай признака время.

Дополнение  4
В столбце «Лексема» мы изображаем «лексемы» весьма условно. Строго говоря, словоформа, например,  “program” реализует лексему/слово-тип  “-program-“. Лексема “-program-“ программно распознаётся в следующих словоформахprogram, programs, programming, programmer, programmers, programmable, programmed, programme, programmes, program’s, programs’, programmatic, programmability(Этот  процесс мы называем лексемизацией или леммизацией.) Иными словами, нами принимается, что этот ряд словоформ выражает некую идею или значение, которые выражает лексема “-program-“; вернее, значение, скажем, словоформы programmer содержит опорное значение  (т.е. значение лексемы "-program-") и некое дополнительное значение.  Левый дефис в лексеме показывает, что в тексте возможна, скажем, словоформа вида “preprogrammed” (предварительно запрограммированный). Ручной анализ сформированного нами частотного словника словоформы (“preprogrammed”)  пока не выявил.

            Понимание лексемы как выразителя некоего кусочка смысла или выразителя некой части материальной действительности  для нас принципиально важно. Линейно-организованное  предложение  или  составной термин как компонент предложения можно представить в виде последовательности неких смыслов, описывающих или представляющих  некую материальную действительность (последовательность, скажем,   надувных разной формы и величины шаров). Эта последовательность похожа на поток  дискретных , т.е. отдельных, предметов. При автоматическом анализе этого потока, т.е. при разбиении этого потока на смыслонесущие компоненты/элементы, существенную помощь может оказать лексемный ряд, предварительно занесённый в память вычислительной машины. Важность заранее запастись лексемным рядом определяется в тех случаях, когда, скажем, отраслевая информационно-поисковая система (ИПС) начинает очередное  пополнение своего поискового корпуса документов  – система еженедельно или ежемесячно автоматически наращивает свой отраслевой поисковый корпус многоязычных документов из всемирного фонда документов. Очередной (похожий на релевантный)  документ ИПС пропускает через специальный фильтр, содержащий несколько ключевых слов, грубо описывающих  тематику отрасли. Система автоматически  и с огромной скоростью  отбирает документы, которые содержат, например,  хотя бы  2-3 отраслевых понятия. (Ср.  рыбацкий невод с мелкими/крупными  ячейками). Цель такого  фильтра – не пропустить документ, который по содержанию в малой или большой степени совпадает с тематикой отрасли. )

            Отобранные  таким образом документы в последующим будут пропущены через более жёсткие фильтры. Ложные документы в последующем не будут занесены в поисковый корпус. 

 

Дополнение  5
Лексемы “method”  и “give” делят один и тот же ранг 42.

 

ИНФОРМАЦИЯ:

1) В.И. Глумов, к. филолог. н. (10.02.21 – структурная, прикладная и математическая лингвистика),  доцент кафедры гуманитарных, социально-экономических  и юридических дисциплин  Нижегородского филиала  Московского государственного университета экономики, статистики и информатики ( НФ МЭСИ).

2) В данной статье  5 постраничных ссылок, присутствующих в исходном тексте статьи,  оформлены в виде 5 дополнений – согласно  требований организации  текста,  размещаемого на сайтах.

Статья размещена на персональном сайте  gloumov.com 30 июля 2015 года.

Скачать статью в pdf формате

 

 

Помощь для Joomla.