2015г. Проблемы семантики в статистических наблюдениях над английскими научно-техническими текстами

Из: с. 90-101. «Актуальные вопросы модернизации: экономика, образование, управление и право». Материалы 3-ей международной научно-практической конференции (Нижний Новгород, Нижегородский филиал Московского государственного университета экономики, статистики и информатики (МЭСИ), 22 октября 2014 года). – Нижний Новгород, НФ МЭСИ, 2015. – 322с.
Виктор Игнатьевич Глумов
НФ МЭСИ, Нижний Новгород, Россия
Проблемы семантики в статистических наблюдениях
над английскими научно-техническими текстами
| Скачать статью в pdf формате |
В структуре английского составного термина (компаунда) часто присутствуют признаки вида “фамильность”, “инструментальность”, “место/пространство”, “время” и др. Для решения задач автоматического анализа и понимания научно-технических текстов важно иметь сведения об активности таких признаков. Существует многолетняя практика формирования частотных словников словоформ, но, тем не менее, трудности распознавания лексической единицы (ЛЕ) и представления её в словнике сохраняются до сих пор. Построение частотных словников на современных персональных компьютерах становится удобным в том плане, что словник по массиву текстов, скажем, объемом в 500-700 страниц строится очень быстро, появляется возможность быстро редактировать саму́ машинную программу (после анализа очередной выдачи словника), затем снова строить словник, анализировать выдачу – и цикл повторяется. Так корректируется подход, принятый нами к статистическому наблюдению над естественными текстами.
Следует, однако, сказать и о трудностях, которые скорее являются логико-семантическими, чем техническими. Вышеуказанные семантические признаки выражаются многообразными способами, а это вынуждает нас строже формулировать наш подход к их распознаванию. Укажем особенности внешнего выражения таких признаков.
Примечание. Предварительно отметим, что описываемая нами машинная программа формирует словники с учетом требований, изложенных в специальном стоп-списке, где задаются составные термины, которые программе запрещается разрезать на части. Так как на формирование словника уходит всего несколько секунд, то становится возможным быстро вносить изменения в стоп-список (с помощью специальной подпрограммы) и снова запускать программу.
О фамильности. Этот признак может быть выражен как морфемно (H-data), так и словесно (Hollerith data) {Дополнение 1}. Чтобы программно извлечь признак “H-“, мы предварительно вводим термин H-data в наш стоп-список, указав при этом границу между терминоэлементами. Пусть термин будет иметь вид “H-Hollerith”. После обработки терминов вида Hollerith strings, Hollerith code, Hollerith card и H-Hollerith программа учтёт также и морфемное выражение данного признака. Для распознавания признака фамильность, в стоп-списке содержаться фамилии знаменитых учёных данной предметной области. Можно сказать, что программа работает под управлением нашего стоп-списка (stop-list-driven) {Дополнение 2}. Чем шире список, тем бо́льшее влияние он оказывает на работу программы.
О географическом признаке. В стоп-список предварительно внесены и названия городов, чтобы сохранить название города в сочетаниях вида New York university. Список также содержит и иерархическое дерево географических названий континентов, стран, столиц, областей/штатов/регионов, больших городов. В таком дереве, например, понятие-лексема «Нижний Новгород» (варианты внешнего выражения этой лексемы: Нижний Новгород; Н. Новгород; Nizhny Novgorod, N. Novgorod; NN; Nizhegorodsky и т.п.) занимает вполне определённое место. Предполагается, что с помощью этого дерева программа может “понять” смысл текстовых цепочек вида «Москва, Россия» и «Москва, штат Огайо, США”.
О признаке «время». Желательно, чтобы машинная программа «понимала» временно́й признак – а точнее, предварительность {Дополнение 3} – в словосочетаниях, где этот признак может быть выражен как морфемно (синтетически), так и словесно (аналитически): preset (предварительно за́данный) и previously set (предварительно заданный), precomputed (предварительно вычисленный) и previously computed (предварительно вычисленный). Укажем выявленные нами частоты этого признака:
| previously 26 | preexisting 3 | preprocessing 2 | predeclared 1 |
| predetermined 16 | preemptive 2 | presuppose 1 | prestated 1 |
| predefined 12 | prefixed 2 | preprogrammed 1 | presetable 1 |
| precoded 3 | preprocessed 2 | preemptied 1 | predetermination 1 |
О признаке "учреждение/организация". Элементом составного термина (т.е. терминоэлементом) может быть название промышленного предприятия, университета, фирмы и других видов объединения работающих людей. В нашем случае блокирование ненужного разрезания таких многословных названий также осуществляется с помощью стоп-списка.
О других особенностях стоп-списка. Из вышесказанного ясно, что стоп-список быстро растёт и роль его повышается. Ручной анализ каждого варианта словника, выдаваемого программой, выявляет всё новые и новые словосочетания, которые хотелось бы хранить как неразрезаемые термины. Вдумаемся в существование такой несправедливости: если машинной программой не управлять, тогда она будет разрезать логически неразрезаемое: например, термин целеуказание программой пропускается в словник, а его же вариант «указание цели» не пропускается и разрезается. Термин коэффициент полезного действия, если его не защитить, будет разрезан, хотя в словник будет внесен его эквивалент – КПД или кпд. То же самое происходит и с термином вида data-processing (обработка данных), который может иметь форму processing data (обработка данных).
Такие случаи ненужного расщепления (splitting) составного термина на компоненты многочисленные, они убеждают в том, что при членении терминоструктуры на компоненты полагаться лишь на типографский пробел между словоформами термина бесперспективно, нужно – вслед за человеком – руководствоваться смыслом, т.е. интуитивно различать некие словесные единства, выражающие единое понятие, и единства, выражающие отдельные признаки этого понятия. Возьмём, например, служебное сочетание вида “in spite of” (несмотря на); если мы заблаговременно поместим его в стоп-список, да ещё укажем его синоним despite, тогда создаётся возможность подсчитать частоту появления смысла «несмотря на, вопреки чему-то». (См. также выше случай с распознаванием семантического признака "фамильность".)
Учёт частоты именно значений, а не словоформ, принципиально важен при проектировании дескрипторных языков для многоязычного информационного поиска.
В нашем случае мы рассматриваем стоп-список как некую примитивную искусственную Систему Знаний (artificial Knowledge System), сложность которой может постепенно нарастать. Лексические единицы в таком списке, если нужно, могут подвергаться разнообразному классифицированию.
О частотном словнике словоформ. В нашем случае словник строился по массиву определений/дефиниций английских вычислительных терминов. Размер текста дефиниции варьируется от нескольких слов до нескольких страниц. Массив дефиниций наращивается по мере обнаружения дефиниций в текстах статей и книг – известно, что сфера фиксации терминов в словарях значительно отстаёт от сферы употребления.
Каждая дефиниция условно считается отдельным документом. Документ имеет маркер начала и конца, а также порядковый номер. Термин (entry), возглавляющий дефиницию, условно назовем заглавием/титулом документа. Заглавие также выделено специальными маркерами, что даёт возможность формировать списки заглавий-терминов. В случае формирования конкорданса для того или иного термина программа делает ссылку на номер документа.
Программно формируются два словника – частотный и алфавитный. Частотный словник имеет структуру:
ранг – найденная словоформа – частота этой словоформы.
Словоформы упорядочены по убыванию частоты. Структура алфавитного словника:
ранг – алфавитно-упорядоченная словоформа – её частота.
Время формирования машинного словника по тексту в 650 страниц составляет несколько секунд.
Ниже (Таблица 1) предлагается фрагмент частотного словника. В нём видно, что после обычных высокочастотных служебных слов (артиклей, предлогов, союзов) отраслевые однословные термины занимают ранги 15-60.
В столбце “F” указаны только фактические частоты, другие виды частот будут указаны только после окончательной подготовки исходного корпуса документов и окончательного прогона программы.
Таблица 1
Частотный словник лексем
(Первые 70 рангов)
|
Ранг |
Лексема {Дополнение 4} |
F |
Cловоформы
|
| 1 | the | 21285 |
the 21284 THE 1 |
| 2 | a | 17047 |
a 14343 an 2701 AN 3 |
| 3 | of | 15845 |
of 15820 OF 25 |
| 4 | be | 15099 |
be 3582 is 7207 are 2890 was 591 been 361 being 289 were 157 am 12 IS 6 AM 3 wAs 1 amn’t aren’t isn’t wasn’t weren’t (Словоформы без чисел не были обнаружены) |
| 5 | to | 8002 |
to 7999 TO 3 |
| 6 | and | 7366 |
and 7327 AND 39 |
| 7 | in | 7301 |
in 7293 IN 8 |
| 8 | for | 4375 |
for 4372 FOR 3 |
| 9 | that | 4193 | that 4193 |
| 10 | or | 3541 |
or 3506 OR 35 |
| 11 | by | 2949 | by 2949 |
| 12 | it | 2093 |
it 2080 IT 13 |
| 13 | as | 2683 |
as 2680 AS 3 |
| 14 | see | 2674 |
see(s) 2697 SEE 34 seen 28 seeing 3 saw 2 |
| 15 | use | 2510 |
use 585 used 1574 using 351 usage(s) uses |
| 16 | system | 2153 |
system 2100 systematic 25 SYSTEM(S) 12 system’s 10 systematically 5 systemic 1 |
| 17 | on | 1998 |
on 1931 onto 65 ON 2 |
| 18 | can | 1885 |
can 1558 could 109 able 97 capable 93 capability (-ties) 28 |
| 19 | data | 1844 |
data 1833 DATA 6 datum 5 |
| 20 | program | 1501 |
program(s) 1111 programming 365 programmer(s) 47 programmable 32 programmed 23 programme(s) 8 PROGRAM 6 program’s 3 PROGRAMMER 1 PROGRAMMING 1 programmability 1 programmatic 1 |
| 21 | process | 1500 |
process(es) 939 processor(s) 270 processing 257 processed 31 PROCESSING 2 PROCESS 1 |
| 22 | computer | 1349 |
computer(s) 973 computing 147 computation(s) 79 computable 38 computed 31 computational 26 compute(s) 20 computability 17 computer’s 11 computationally 4 COMPUTER 2 COMPUTING 1 |
| 23 | may | 1290 |
may 1191 might 99 |
| 24 | operate | 1122 |
operate(s) 80 operation(s) 636 operating 214 operator(s) 133 operational 30 operated 20 operationally 3 OPERATIONS 3 operator’s 2 operative 1 |
| 25 | set | 1065 |
set(s) 1046 |
| 26 | number | 1000 |
number(s) 970 numeric 12 numbering 11 NUMBER(S) 4 numbered 3 |
| 27 | form | 905 |
form(s) 760 formed 74 formation(s) 50 forming 20 FORM 1 |
| 28 | code | 897 |
code(s) 575 coding(s) 114 encoding(s) 93 encoded 47 coded 29 encoder 22 encode(s) 9 coder 4 CODING 4 |
| 29 | language | 862 |
language(s) 242 LANGUAGE 2 linguistically 2 linguistic 1 linguistics 1 |
| 30 | function | 885 |
function 798 functional 57 functionality 16 functionally 9 functioning 3 FUNCTION 1 functions’ 1 |
| 31 | set | 880 |
set 879 SET 1 |
| 32 | time | 763 |
time(s) 718 timing(s) 29 TIME(S) 6 timed 5 timer 3 timely 1 timization 1 |
| 33 | device | 755 |
device 747 device’s 4 DEVICE 4 |
| 34 | define | 721 |
define 92 defined 394 definition(s) 123 defining(s) 69 definable 5 definite 5 definability 3 definite 2 definitely 2 definiteness 1 |
| 35 | information | 686 |
information(s) 619 informative 1 |
| 36 | network | 665 |
network(s) 623 networking 28 networked 9 NETWORK 4 network’s 1 |
| 37 | logic | 659 |
logic 482 logical 149 logically 12 logics 9 logician(s) 4 LOGICAL 3 |
| 38 | term | 626 |
term(s) 616 termed 10 |
| 39 | memory | 616 |
memory (-ies) 604 MEMORY 8 memoryless 4 |
| 40 | store | 602 |
store(s) 153 storage 300 stored 149 storing |
| 41 | control | 595 |
control(s) 481 controlled 54 controller(s) 30 controlling 28 controllable 1 CONTROL 1 |
| 42 | method | 593 |
method(s) 590 METHOD 3 |
| 43 | give | 593 |
give(s)140 given 309 giving 44 gave |
| 44 | file | 567 |
file(s) 553 filing 9 filed 3 file’s 2 |
| 45 | signal | 491 |
signal(s) 471 signaling 19 SIGNAL 1 |
| 46 | bit | 478 | bit(s) 478 |
| 47 | disk | 472 |
disk(s) 457 DISK 12 disk’s 2 diskor 1 |
| 48 | input | 470 |
input(s) 467 INPUT 2 inputor 1 |
| 49 | represent | 447 |
represent(s) 142 representation(s) 139 represented 104 representing 51 representative 9 representable 2 |
| 50 | design | 441 |
design(s) 285 designed 136 designer(s) 18 DESIGN 2 designing |
| 51 | machine | 426 |
machine(s) 421 machinery 3 MACHINE 1 machine’s 1 |
| 52 | word | 413 |
word(s) 408 WORD 4 word’s 1 |
| 53 | call | 409 |
call(s) 68 called 330 calling 7 caller(s) 3 CALL 1 |
| 54 | represent | 407 |
represent(s) 98 representation 129 represented 120 representing 60 |
| 55 | model | 399 |
model(s) 373 modeled 15 MODEL 10 modeler 1 |
| 56 | output | 397 | output(s) 397 |
| 57 | access | 397 |
access(es) 320 accessed 36 accessible 21 accessing 10 ACCESS 5 accessibility 5 |
| 58 | error | 393 | error(s) 393 |
| 59 | digit | 389 |
digit(s) 108 digital 252 digitized 8 digitally 7 digital’s 4 digitizer 3 digitizing 3 DIGITAL 1 digitization 1 DIGITIZER(S) 2 |
| 60 | order | 382 |
order(s) 285 ordered 52 ordering 43 orderor 1 ORDERING 1 |
| 61 | apply | 381 |
apply(ies) 100 applied 175 application(s) 106 |
| 62 | address | 380 |
address(es) 350 addressed 15 addressable 10 addressability 3 addressless 2 |
| 63 | develop | 376 |
developed 190 development 186 |
| 64 | model | 366 |
model(s) 366 modelling |
| 65 | point | 363 | point(s) 363 |
| 66 | value | 356 |
value(s) 339 VALUE 1 valuable 9 valuation 3 valued 2 valuator 2 |
| 67 | image | 318 |
image(s) 317 IMAGE 1 |
| 68 | tape | 278 |
tape(s) 277 TAPE 1 |
| 69 | add | 239 |
add(s) 28 addition 96 additional 54 additionally 2 adder 26 adding 19 additive 4 ADD 2 additively 1 |
| 70 | binary | 233 |
binary 231 BINARY 2 |
| … | … | … | … |
| Всего | 58617 |
Выводы по словнику
1) То, что высокочасто́тны артикли – это естественно. Высокая частота многозначных предлогов – тоже не редкость. Она лишний раз подтверждает необходимость формально описывать их семантику. Высокая частотность таких единиц, их высокая покрываемость текста говорит об их значимости, а это должно учитываться, скажем, при изучении английского языка. Более того, это следует учитывать и в системах интеллектуального поиска многоязычных документов.
2) Огромная частотность глагола be (быть) (ранг 4) подтверждает интуитивное ожидание популярности родо-видовых отношений между словами, отношений «часть-целое», «подобия/сходства».
3) В пределах от 15-го ранга до ранга 70 {Дополнение 5} налицо обилие профессиональных лексических единиц – исключение составляют: многозначный предлог on , модальные глаголы can (ранг 18) и may (23), а также и глагол give (42). Эта профессиональная лексика обладает высокой покрываемостью; такие ЛЕ часто входят в состав многословных терминов.
Думается, что такая активность отраслевой лексики обусловлена стилевыми особенностями текстов дефиниций. Тексты дефиниций обычно составляются опытными экспертами и их подбор терминов, точность определений могут служить примером выражения профессиональных мыслей.
О трудностях и об алгоритме построения словника
Одной из основных трудностей является подготовка исходного массива/корпуса текстов, а именно, оцифровка текста и проверка качества оцифровки. Оформление математических знаков и формул, отслеживание правильного использование «дефиса» и «тире», устранение переносов и т.п. – все эти операции весьма трудоёмки.
Алгоритм формирования этих двух вариантов словника работает следующим образом: вначале текущая словоформа текста опознается на принадлежность её к лингвистическим предметам или предметам нелингвистическим (т.е. математический знак или формула и т.п.). Если обследуемый предмет является нелингвистическим, тогда его частота отмечается в его счетчике частоты и далее алгоритм переходит к обработке следующей словоформы. Если же текущая словоформа является лингвистическим предметом, тогда программа проверяет данный предмет по стоп-списку. С помощью указаний стоп-списка относительно данной словоформы программа продолжает дальнейший анализ этой словоформы. В точке распознавания «лингвистика-математика» программе приказано не спешить, а подольше «топтаться» около обследуемого предмета. Например, важная лексическая единица “3D”(трехмерный) оказалась в тексте разорванной, т.е. число отделено от буквы многочисленными пробелами. Программа обязана в этом случае игнорировать многочисленные пробелы и признать цепочку 3D лексической единицей.
Ниже мы хотим показать, как с помощью алфавитно-упорядоченного словника возникает возможность сгруппировать словоформы, реализующие одну и ту же лексему – скажем, лексему “-comput-“ или лексему “digit-“.
Таблица 2
| 22 | computer | 1349 |
computer(s) 973 computing 147 (вычисляя, вычисление) computation(s) 79 (вычисление, вычисления) computable 38 (вычисляемый; исчислимый) computed 31 computational 26 (вычислительный) compute(s) 20 computability 17 computer’s 11 computationally 4 COMPUTER 2 COMPUTING 1 [Словоформа computerization (использование вычислительной техники/компьютеров; компьютеризация) ни разу не встретилась] |
| … | … | … | |
| 58 | digit | 389 |
digit(s) 108 digital 252 (цифровой) digitized 8 digitally 7 digital’s 4 digitizer 3 digitizing 3 digitization 1 DIGITAL 1 |
Заметим, что гнездование родственных словоформ, т.е. реализующих одну и ту же лексему (скажем, лексему “-comput-“ или “digit-“) – такой процесс помогает борьбе за чистоту русского научно-технического языка. Например, всмотритесь в словоформу «компьютер» и постарайтесь – вручную или автоматически – распознать/высечь/выявить/определить лексему “-вычисл-“, которую можно без особого труда распознать в формах вычислитель, вычисляя, вычислял, вычисляли, вычислительный, вычисляющий, предвычислительный. Как вы видите, выразить идею действия с помощью лексемы вида “-компьют-“ нельзя. Имени действия «компьютить» в русском языке ещё нет, а уже популярным словоформам компьютер, компьютеру, компьютере, компьютерами, компьютерный, компьютеризировать мы не можем найти стержень/основу, объединяющую этот ряд словоформ. Лексема несёт некое центральное значение/идею, а все другие словоформы этого ряда это центральное значение выражают, прибавляя при этом некое дополнительное/коннотати́вное значение.
При формировании Системы Знаний, на основе которой мы хотели бы автоматически понимать текст, нам приходиться такие кальки (компьютер) тоже учитывать. Они проживают в такой Системе Знаний в роли «гадкого утенка». Сравните реакцию ребёнка на столь естественные пары «учить – учитель», «строить – строитель», «вычислять – вычислитель», и на таинственные пары вида «компьютить – компьютер», «дигитировать – дигитайзер». Поставьте вместо ребёнка робот, которого мы тоже должны обучать, и вы почувствуете, как обучение прервётся, ибо при построении слов нарушен принцип системности. Почему люди беспардонно порождают кальки? Потому, что нет дисциплины в использовании и строительстве новых терминов, не решаются проблемы нормирования и стандартизации терминологий.
Обсуждая процессы лексемизации, т.е. распознания лексем и формирования рядов родственных словоформ (формирование лексемного ряда), мы должны готовиться к выполнению очередной задачи – формализованному представлению самих лексических значений. Для этой задачи оптимальные статистические наблюдения над лексемами будут полезны.
О программировании
Пакет программ на языке С++ для построения частотного и алфавитного словников на персональных компьютерах (а также для ведения стоп-списка (stop-list maintenance) и выполнения других вспомогательных операций) написан Д. Н. Родионовым (технический директор ООО “Д’Мартин“); оцифровка и предмашинная обработка исходного массива текстов выполнены А. А. Швецовым (ст. преподаватель НГТУ), алгоритм и блок-схема программы разработаны В.И. Глумовым (доцент НФ МЭСИ).
Дополнения
Дополнение 1
Американский учёный Герман Холлерит (Herman Hollerith) известен как автор широко известного способа представления данных на перфокартах. В 1889 году им предложено алфавитно-цифровое кодирование статистических данных на перфокартах (с. 205 Computer dictionary and handbook. By Charles J. Sippl & Charles P. Sippl. 1972. Howard W. Sams & Co., Inc.; The Bobbs-Merrill Co., Inc. Indianopilis, Kansas City, New York. 778p.). С этим именем связаны термины: Hollerith strings (Холлеритовы цепочки), Hollerith code (Холлеритов код), Hollerith card (Холлеритова перфокарта).
Дополнение 2
В стоп-списке хранится и дополнительная информация о видных учёных данной предметной области. Эта информация может пригодиться нам в будущем.
Дополнение 3
Предварительность как частный случай признака время.
Дополнение 4
В столбце «Лексема» мы изображаем «лексемы» весьма условно. Строго говоря, словоформа, например, “program” реализует лексему/слово-тип “-program-“. Лексема “-program-“ программно распознаётся в следующих словоформах: program, programs, programming, programmer, programmers, programmable, programmed, programme, programmes, program’s, programs’, programmatic, programmability. (Этот процесс мы называем лексемизацией или леммизацией.) Иными словами, нами принимается, что этот ряд словоформ выражает некую идею или значение, которые выражает лексема “-program-“; вернее, значение, скажем, словоформы programmer содержит опорное значение (т.е. значение лексемы "-program-") и некое дополнительное значение. Левый дефис в лексеме показывает, что в тексте возможна, скажем, словоформа вида “preprogrammed” (предварительно запрограммированный). Ручной анализ сформированного нами частотного словника словоформы (“preprogrammed”) пока не выявил.
Понимание лексемы как выразителя некоего кусочка смысла или выразителя некой части материальной действительности для нас принципиально важно. Линейно-организованное предложение или составной термин как компонент предложения можно представить в виде последовательности неких смыслов, описывающих или представляющих некую материальную действительность (последовательность, скажем, надувных разной формы и величины шаров). Эта последовательность похожа на поток дискретных , т.е. отдельных, предметов. При автоматическом анализе этого потока, т.е. при разбиении этого потока на смыслонесущие компоненты/элементы, существенную помощь может оказать лексемный ряд, предварительно занесённый в память вычислительной машины. Важность заранее запастись лексемным рядом определяется в тех случаях, когда, скажем, отраслевая информационно-поисковая система (ИПС) начинает очередное пополнение своего поискового корпуса документов – система еженедельно или ежемесячно автоматически наращивает свой отраслевой поисковый корпус многоязычных документов из всемирного фонда документов. Очередной (похожий на релевантный) документ ИПС пропускает через специальный фильтр, содержащий несколько ключевых слов, грубо описывающих тематику отрасли. Система автоматически и с огромной скоростью отбирает документы, которые содержат, например, хотя бы 2-3 отраслевых понятия. (Ср. рыбацкий невод с мелкими/крупными ячейками). Цель такого фильтра – не пропустить документ, который по содержанию в малой или большой степени совпадает с тематикой отрасли. )
Отобранные таким образом документы в последующим будут пропущены через более жёсткие фильтры. Ложные документы в последующем не будут занесены в поисковый корпус.
Дополнение 5
Лексемы “method” и “give” делят один и тот же ранг 42.
ИНФОРМАЦИЯ:
1) В.И. Глумов, к. филолог. н. (10.02.21 – структурная, прикладная и математическая лингвистика), доцент кафедры гуманитарных, социально-экономических и юридических дисциплин Нижегородского филиала Московского государственного университета экономики, статистики и информатики ( НФ МЭСИ).
2) В данной статье 5 постраничных ссылок, присутствующих в исходном тексте статьи, оформлены в виде 5 дополнений – согласно требований организации текста, размещаемого на сайтах.
Статья размещена на персональном сайте gloumov.com 30 июля 2015 года.
| Скачать статью в pdf формате |

