1

Информация для...

МОНТАЖ ВНЕШНЕГО БЛОКА
Кронштейны
Установка на кронштейны
conditioners-121. Прежде всего, нужно установить кронштейны, на которых будет крепиться  внешний  блок.  Необходимо  помнить,  что  именно  им  вы  доверяете немалый вес наружного блока. Обычно это от 27 до 140 кг, хотя встречаются и более тяжелые экземпляры. Крепить столь весомый предмет на двух наспех сваренных ржавых уголках, по меньшей мере, опасно. Не  будем  подробно  обсуждать  ситуацию,  когда  сорвавшийся  внешний блок падает на прохожих. Гражданам, проводившим монтаж, это грозит тюремным  заключением,  а  самой  фирме –  отзывом  лицензии  и  очень большими   расходами.   Не   менее   «геморройной»   выглядит   ситуация, когда  наружный  блок  приземлится  в  багажник  припаркованного  рядом с  домом  «Мерседеса».  Уж  если  простая  сосулька  способна  причинить дорогой  иномарке  ущерб  на  $4000,  то  что  можно  говорить  о  внешних блоках, которые выступают в совершенно иной весовой категории.
Однако даже заводские кронштейны еще ничего не гарантируют. Необходимо обратить внимание как минимум на четыре вещи. Во-первых,  кронштейн  должен  быть  покрашен  порошковым  способом, так как обычная эмаль очень легко скалывается при транспортиров-
ке  и  монтаже.  Для  этого  достаточно  задеть  кронштейн  любым  тяжелым инструментом. Результат – ржавчина. Во-вторых,  отверстия  для  крепления  внешнего  блока  должны  быть  сделаны  ДО  того,  как  кронштейн прошел покраску. Учитывая разную глубину наружных устройств различных марок и мощностей, отверстия обычно делают овальной формы. Если высверливать их на месте, кустарным способом, то кронштейн может потерять прочность, а за места, свободные от краски, тут же зацепится ржавчина. В-третьих, кронштейн должен соответствовать весу внешнего блока. Почему? Думаем, что объяснять не надо. В-четвертых,  для  крепления  кронштейна  следует  использовать  только  качественный  крепеж, который  соответствует  весу  внешнего  блока  и  материалу,  из  которого  сделано  (облицовано)  здание.
Иначе беды не миновать. И действительно, стоит ли так рисковать ради экономии в $3-10? Ведь пара качественных заводских кронштейнов (с комплектом анкерных или дюбель-болтов) в зависимости от типоразмера обходится в $10-20. По-хорошему,  над  внешним  блоком  стоит  соорудить  небольшой  козырек,  который  защитит  его от  дождя,  снега  и  сосулек.  Но  особенно  это  пригодится  в  оттепель.  В  такое  время  в  незащищенный внешний  блок  будет  попадать  вода.  Ночью  она  замерзает  и  образуется  наледь,  о  которую  нередко ломаются лопасти вентилятора. Если же внешний блок висит низко, не помешает и защитная решетка. В некоторых регионах дикие бригады не утруждают себя закупкой запчастей, предпочитая снимать в глухих переулках то, что плохо висит.
2. Внешний блок устанавливается на кронштейны и надежно крепится к ним. Для снижения шума и вибрации внешний блок крепится к кронштейнам через виброизоляторы.
3. К внешнему блоку подсоединяются силовой и управляющий кабели. При этом необходимо организовать правильное подключение кабеля и заземление кондиционера. Для надежного и качественного соединения электрического кабеля концы проводов должны быть разделаны и оснащены наконечниками подходящего размера и формы. Для этого понадобится инструмент для разделки кабеля, комплект наконечников и инструмент для обжима наконечников.

 

СОЕДИНЕНИЕ БЛОКОВ
1. Далее следует присоединить трубопроводы к блокам кондиционера. Начинают всегда с внешнего блока. Трубу обрезают «в размер», с помощью риммера обрабатывают ее кромки, не забывая при этом надеть на трубу накидную гайку. После этого трубу вальцуют, и она готова для соединения.
Обычно  начинают  с  трубы  большего  диаметра.    Накидную  гайку  аккуратно,  вручную  накручивают  на штуцер.  Затем  ее  необходимо  затянуть  специальным  ключом  с  ограничением  по  крутящему  моменту.  Его предельная величина для труб различного диаметра должна быть известна заранее. К примеру, для труб 1/4 дюйма (6,35 мм) предельно допустимое усилие составляет 160 кг/см; 9,52 мм-300 кг/см; 1,27 мм-500 кг/см.
Затем те же операции необходимо проделать с внутренним блоком. Необходимо помнить, что при затяжке вальцовочного соединения на внутреннем блоке нужно обязательно придерживать штуцер вторым ключом! Если этого не сделать, можно свернуть присоединительный трубопровод внутреннего блока.
2.  Присоединение  управляющего  кабеля  к  внутреннему  блоку –  очень  ответственная  операция.
Ошибка при подключении может привести к выходу кондиционера из строя. Здесь также понадобится
инструмент для разделки кабеля, наконечники и инструмент для обжимки наконечников. Если кабель
не имеет цветовой маркировки или используется несколько кабелей с совпадающими цветами, то для
«прозвонки» кабеля понадобится тестер.
3. Третий этап – вакуумирование. Это удаление неконденсирующихся примесей, проще говоря, возду-
ха, из труб и внутреннего блока. Конечно, воздух и вода (вкупе с солнцем) – наши лучшие друзья, но, попадая
в холодильный контур, они становятся нашими злейшими врагами, от которых необходимо избавиться.
conditioners-13Вакуумный насос Манометрический коллектор с набором шлангов Во-первых, наличие воздуха в фреоновом контуре приведет к повышению давления в нем, увеличит нагрузку на компрессор. В итоге – снижение
холодопроизводительности кондиционера. Во-вторых,  влага,  всегда  содержащаяся  в  воздухе,  может  привести
к  образованию  кислоты  в  фреоновом  контуре,  снижению  сопротивления изоляции электродвигателя компрессора и ее повреждению, химическому разложению хладагента, и как итог – выходу кондиционера из строя. Вакуумирование  выполняют  с  помощью  специального  вакуумного насоса, который позволяет убрать из холодильного контура воздух и водяные пары.
Для  подключения  вакуумного  насоса  к  кондиционеру  и  контроля  над процессом используют манометрический коллектор с набором шлангов. Можно использовать манометрический коллектор с двумя манометрами (высокого и низкого давления), но для вакуумирования лучше иметь коллектор с мановакууметром, который измеряет разрежение в контуре. Цена деления этого прибора 10 милибар, что позволяет проводить более тонкие измерения и следить за процессом вакуумирования. Шланги, манометры и вентили манометрического коллектора обычно имеют цветовую маркировку. Синий цвет – цвет стороны низкого давления, красный – стороны высокого давления, желтый – дополнительных устройств (зарядного цилиндра, вакуумного насоса, баллона с хладагентом и. т. п.), вентиль черного цвета обычно отключает или подключает мановакууметр. Подключение вакуумного насоса производят так:
–  Проверяют, закрыты ли все вентили на манометрическом коллекторе.
–  Синий шланг подключают вначале к штуцеру манометрического коллектора, затем к штуцеру
сервисного порта кондиционера.
–  Отпирают синий вентиль манометрического коллектора и смотрят на стрелку синего мано-
метра.  Если  давление  равно  атмосферному,  то  желтым  шлангом  подключают  к  коллектору
вакуумный насос; если давление выше атмосферного, то предварительно стравливают избы-
точное давление, открыв желтый вентиль.
–  Отпирают вентиль мановакууметра, желтый вентиль и включают вакуумный насос в работу в
соответствии с инструкцией эксплуатации на насос.
Во  время  работы  вакуумного  насоса  наблюдают  за  поведением  стрелки  мановакууметра.  Она должна последовательно и без остановок приближаться к отметке «0». Когда стрелка достигнет отметки «0», нужно закрыть желтый вентиль, отключить насос и понаблюдать за «поведением» мановакууметра. Возможные варианты:
–  Стрелка отходит от нулевой отметки и движется в сторону отметки 1000 и достигает ее, это
значит, что контур, который мы вакуумируем, негерметичный. Необходимо приостановить ва-
куумирование, найти и устранить место неплотности, после чего работы по вакуумированию
можно продолжить.
–  Стрелка отходит от нулевой отметки и останавливается, не достигая отметки 1000. Скорее
всего, в контуре есть вода в жидком состоянии, пары которой и вызывают повышение дав-
ления. Чем быстрее и дальше отклоняется стрелка, тем больше воды в контуре. Предстоит
работа по ее удалению.
–  Стрелка остается на нулевой отметке в течение времени не менее 10-15 минут. Контур осво-
божден от воздуха и влаги, герметичен при проверке на вакуум.

Если негерметичность контура при вакуумировании не обнаружена, это вовсе еще не значит, что контур герметичен. Вальцовочные соединения под действием вакуума могут «присасываться» к штуцеру, не проявляя себя при проверке на вакуум, а при действии избыточного давления изнутри возможно возникновение утечки, поэтому после окончания вакуумирования желтый и черный вентили манометрического коллектора запирают и проверяют контур на отсутствие утечки под давлением Течеискатель Зарядный цилиндр Электронные весы
conditioners-144. Проверка на отсутствие утечек под  давлением. Для создания нужного  давления  используют  смесь  хладагента  и  осушенного  азота.  Хладагент используется как индикатор утечки, а азот для создания нужного давления. Вначале через желтый шланг в отвакуумированный контур запускают газообразный хладагент. Внимание! Следите, чтобы черный вентиль был  закрыт,  иначе  мановакууметр  будет  выведен  из  строя!
Затем с помощью течеискателя проверяют на утечку вальцовочные соединения наружного и внутреннего блоков. При обнаружении утечки соединения дополнительно протягивают до ее исчезновения. Затем к кондиционеру подключают  баллон  со  сжатым  сухим  азотом,  доводят  давление  до  18-20 бар  и  снова  проверяют  вальцовочные  соединения  на  утечку.  При  обнаружении утечки пытаются устранить ее протяжкой, при неудаче – стравливают газ в атмосферу и переделывают неудачное соединение.
5. Следующий шаг – удаление газа, использованного для проверки на утечку, из контура. Газ вначале стравливают в атмосферу, а остатки удаляют
вакуумированием.
6. Если трасса длиннее указанной в каталогах величины, кондиционер требует дозаправки, так как давление в холодильном контуре должно быть
строго  определенным!  Для  этого  понадобится  зарядный  цилиндр  или электронные весы. Если этого не сделать, компрессор быстро выйдет из
строя.Необходимо отметить, что для каждой группы фреонов необходим свой цилиндр.  Если  приходится  работать  с  несколькими  хладагентами,  нужно иметь и соответствующее количество зарядных цилиндров. Альтернатива – электронные весы. Так как они измеряют массу хладагента, а не его объем, они подходят для всех фреонов, правда, их стоимость существенно выше. Нужное количество хладагента заправляют в отвакуумированный контур  в  жидкой  фазе  «самотеком».  Для  этого  желтый  шланг  подключают  к жидкостному  вентилю  зарядного  цилиндра,  а  если  зарядка  производится из баллона, то его переворачивают, чтобы вентиль был внизу, и хладагент поступал жидким. Открывают вентили, и жидкий хладагент под действием вакуума всасывается.
7.   Заключительная   операция –   объединение   контуров   магистрали, внешнего  и  внутреннего  блока.  Чтобы  замкнуть  фреоновый  контур,  нужно с  помощью  шестигранных  ключей  открыть  вентили  на  наружном  блоке кондиционера. После этого кондиционер готов к пуску!
8.  Немаловажное  действие –  убрать  за  собой  мусор.  Оставленные обрезки труб, изоляции, части упаковки производят на заказчика не самое
приятное впечатление о стиле работы компании.

АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ ФАКТОВ ИЗ ТЕКСТОВ ДОСЬЕ: ОПЫТ УСТАНОВЛЕНИЯ АНАФОРИЧЕСКИХ СВЯЗЕЙ

AUTOMATICAL EXTRACTION OF FACTS FROM TEXT OF FILE: EXPIRIENCE IN ANAPHORA RESOLUTION


Доклад описывает опыт решения задачи автоматического извлечения фактов из текстовых документов особого стиля - досье. Описываются использованные для поиска фактов средства на основе синтаксического анализатора и синтактико-семантических шаблонов. Особое внимание уделяется закономерностям организации дискурса, использованным для установления анафорических связей.

Введение

Доклад посвящен задаче извлечения фактографической информации из текстовых документов особого стиля, к которому можно отнести биографии, протоколы, сводки и прочие документы, назначение которых состоит в лаконичной передаче совокупности фактов о некоторых объектах. В исследованном нами корпусе в фокусе внимания авторов всегда находилась персона или организация, вследствие чего этот класс документов наиболее точно характеризуется термином “досье”. Автору доклада не известны описания практических разработок в области анализа текста досье, равно как и лингвистические исследования особенностей текстов такого стиля.

Ключевой особенностью текста досье является высокая плотность таких связей между словами, которые не выражаются грамматическими средствами - анафорических связей. Большинство предложений в подобных текстах либо бессубъектно (Родился в 1958 году. Работает директором ООО “Ромашка”),  либо номинативно (1958 года рождения. Директор ООО “Ромашка”), либо разорвано в списках, каждый элемент которых в свою очередь представляет набор предложений – вложенное мини-досье  (Является совладельцем следующих предприятий:  - ООО “Одуванчик”, ИНН 500103819710, зарегистрировано в 2001 году. Заявленный вид деятельности – собаководство…. – ООО “Лютик”, ИНН 500204519555, основано в 2005 году. С 2006 года занимается… - ООО “Тюльпан”, ИНН …). В остальном текст является совершенно нормальным и мало чем отличается, скажем, от текстов СМИ - досье часто содержит  полные, достаточно сложные предложения, так что его машинный анализ представляет собой задачу, требующую привлечения  полного арсенала средств компьютерной лингвистики.

Постановка задачи компьютерного анализа текстов досье требует распознавания и классификации описанных в них фактов, извлечения участников–фигурантов фактов, с последующим преобразованием информации в записи БД в соответствии с требуемой схемой. На рисунке 1 представлена логическая схема организации тех фактографических данных, которые мы извлекали в соответствии с требованиями заказчика.

АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ ФАКТОВ ИЗ ТЕКСТОВ ДОСЬЕ: ОПЫТ УСТАНОВЛЕНИЯ АНАФОРИЧЕСКИХ СВЯЗЕЙ

Рис. 1. Логическая схема организации извлекаемых фактографических данных

Абстрагируясь от конечной схемы хранения фактов в БД, которая определяется утилитарными соображениями, мы считаем, что результаты анализа текста должны быть описаны фреймовой моделью: каждый факт формирует запись в соответствующей таблице, имя которой определяет тип факта (например, “дата рождения”, “владеет предприятием”), имена столбцов – роли фигурантов факта (“атрибут”, “владелец”, “собственность”), а значения в полях таблицы – имена участников-фигурантов факта в соответствующих ролях (12 мая 1962, Александр Иванович Корейко, ООО “Василек”).

Для решения поставленной задачи были использованы следующие средства:

1.      Модуль распознавания особых текстовых конструкций (паспортных и регистрационных данных, адресов, телефонов, дат) на основании шаблонов, написанных на специальном формальном языке [1];

2.      Синтаксический анализатор, определяющий лексико-грамматические характеристики элементов текста и преобразующий текст каждого предложения в семантическую сеть;

3.      Алгоритм выделения фактов на основе распознавания требуемой конфигурации синтаксических связей между именами фигурантов факта – поиск фрагментов сети, удовлетворяющих заданным шаблонам [2];

4.      Правила разрешения кореферентности имен собственных, в том числе анафорической, которые позволяют отождествить полные, краткие и местоименные обозначения персон и организаций [3];

5.      Правила установления анафорической связи между свободной синтаксической или семантической валентностью, соответствующей опущенному в предложении фигуранту факта, и упоминанием одного из возможных референтов.

Средства анализа текста (1)-(3) уже были реализованы нами в линейке программных продуктов RCO (http://www.rco.ru), в то время как алгоритмы (4) явились предметом нового исследования и разработки, вследствие чего оказались в центре внимания настоящего доклада.

Поиск описаний фактов на основе синтаксических связей

Результатом синтаксического анализа каждого предложения текста является сеть синтактико-семантических отношений – семантическая сеть, представленная на рисунке 2.

 

Рис. 2. Пример семантической сети, соответствующей предложению: В ноябре 2003 года Полыхаев совершил сделку по покупке акций ООО “Ромашка” у Корейко

Узлы и связи в сети имеют набор следующих основных атрибутов:

  • SpeechPart – часть речи слова, соответствующего узлу.
  • SemanticType – семантический разряд референта узла. Основные выделяемые разряды: именованная персона, организация, географическое место, артифакт, действие/состояние, предмет, одушевленный объект и пр.
  • Name - строка текста, соответствующего узлу, в нормальной форме. Для именных групп может иметь несколько значений, которые представляют все цельные словосочетания, образованные от ключевого существительного в узле, например: новый указ президента, указ президента, указ. Для именованных объектов соответствует стандартизованному имени: Корейко Александр Иванович, “Ромашка”.
  • RelationType – тип синтактико-семантической связи между узлами, например “аргумент”, “атрибут”, “принадлежность”, “обстоятельство”.
  • RelationCase, RelationConnector – семантический падеж и коннектор (предлог, союз), при помощи которых устанавливается связь. Комбинация условий RelationCase + RelationConnector представляет принятый нами способ указания семантическим ролей.

Представление содержания текста в форме семантической сети позволяет абстрагироваться от многих особенностей его коммуникативной организации. Такая сеть инвариантна к синтаксической структуре предложения и порядку слов с точностью до структуры пропозиции, выбранной автором для описания ситуации. Например, конструкциям “Корейко купил акции” и “акциях, купленных Корейко” будут соответствовать одинаковые сети. В то же время пропозициям вида  “Корейко становится покупателем акций” и “покупка акций – дело рук Корейко”  будут соответствовать иные сети. Вследствие этого наша семантическая сеть является промежуточным уровнем представления между собственно семантической схемой ситуации и ее языковым описанием.

АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ ФАКТОВ ИЗ ТЕКСТОВ ДОСЬЕ: ОПЫТ УСТАНОВЛЕНИЯ АНАФОРИЧЕСКИХ СВЯЗЕЙ

Рис. 3. Пример синтактико-семантического шаблона, распознающего факты, выраженные пропозицией вида “Покупатель совершает действие по приобретению у продавца акций предприятия”.

Для поиска конфигурации связанных слов, описывающей факт искомого типа, используется синтактико-семантический шаблон, который задается в виде сети, подобной искомой в тексте, но в ее узлах и связях при помощи логических выражений указываются условия, которым должны удовлетворять узлы и связи искомой сети (Рис. 3). Как правило, в некоторых узлах шаблона содержатся конкретные слова, которые должны присутствовать в описании искомого факта. Другие узлы, соответствующие искомым фигурантам, содержат метки, которые обозначают роли фигурантов. Такие узлы представляют   валентности шаблона, подлежащие заполнению – соответствующие слова будут извлечены из текста при нахождении фрагмента сети, изоморфного шаблону.

Так, на рисунке 3 узлы, обозначенные метками Buyer, Issuer и Seller, представляют возможных фигурантов факта “покупка акций” в ролях “покупатель”, “эмитент акций” и “продавец” соответственно. Светлые связи к фигурантам Buyer и Seller помечены как факультативные, так как соответствующие валентности могут оказаться свободными – референт Buyer’а может упоминаться ранее по тексту, а референт Seller’а может вообще не упоминаться в тексте.

В итоге, в результате анализа бессубъектной фразы “В ноябре 2003 года совершил сделку по покупке акций ООО “Ромашка” у Корейко” будет выделен факт типа “покупка акций” с фигурантами: Issuer = “Ромашка”, Seller = “Корейко”, Buyer = “?”. Для установления имени фигуранта в роли Buyer будут использованы алгоритмы анафорического связывания, описанные далее.

На завершающем этапе машинного анализа факт “покупка акций” может быть проинтерпретирован в соответствии с заданной схемой (рисунок 1), в результате чего в БД будут помещены два факта типа “владеет”, в которых владельцем предприятия-фигуранта Issuer будет выступать как Buyer, так и Seller, поскольку и покупатель, и продавец владели предприятием в определенные периоды времени.

Отметим, что в ряде случаев синтаксический анализатор не может установить связь между фигурантами факта, опираясь на заложенные в него общие правила русской грамматики (Соучредитель ООО “Ромашка” (20 %) – ЗАО “Сирень”). Чтобы решить такие проблемы, в семантическую сеть добавляются связи особого типа (RelationType = next), которые просто связывают в цепочку идущие друг за другом в предложении слова и знаки препинания, причем “перепрыгивая” через синтаксически подчиненные слова в именных группах, что позволяет писать шаблоны, инвариантные к длине словосочетаний. В итоге совокупность узлов сети всегда представляет собой полносвязный граф, что позволяет написать шаблон, который извлекает из приведенного примера как соучредителя, так и его долю.

Для настройки шаблонов используется модуль с графическим интерфейсом, который позволяет строить семантическую сеть на основе эталонных фраз, т.е. обучать программу на примерах. После построения программой структурной основы шаблона — узлов и связей — лингвисту остается проставить ограничения и метки в элементах сети.

Поиск анафорических связей

Рассмотрим механизмы поиска тех факультативных фигурантов факта, которые не были найдены в предложении в результате применения синтактико-семантического шаблона.

Не всякая факультативная валентность факта допускает заполнение на основании анафорической связи – в шаблоне, приведенном на рисунке 3, анафорическая связь для валентности Seller не допустима. Для указания на возможность анафорической связи и на ее тип шаблон снабжается информацией - определенным узлам могут быть присвоены дополнительные метки:

  • Оbject - маркирует факультативного фигуранта факта, который может упоминаться далее по тексту и с которым может быть установлена анафорическая связь. Так может быть маркирован фигурант Issuer в модификации рассматриваемого шаблона для пропозиции вида “приобретение акций следующих предприятий: элемент списка 1, … элемент списка k”, где референты для Issuer упоминаются далее в позициях тем в элементах списка, что и определяет сравнительно простой способ их поиска на практике.
  • Subject – маркирует факультативного фигуранта факта, который может упоминаться ранее по тексту и с которым может быть установлена анафорическая связь. Такую метку в рассматриваемом шаблоне получает фигурант в роли Buyer, поиск упоминания которого может оказаться не тривиальным и описывается далее.

Первым этапом установления анафорической связи между пустой валентностью Subject и упоминанием референтной персоны/организации является проверка того, выражено ли описание факта бессубъектной или номинативной синтаксической конструкцией. Для этого используется дополнительная пара меток в шаблоне:

  • Predicate – маркирует ключевой глагол в синтаксической конструкции, которая может быть бессубъектной (В 2003 совершал операции по покупке…). В шаблоне на рисунке 3 такая метка маркирует узел, описывающий синонимический ряд глаголов со значением “совершать”. Если соответствующий глагол найден и удовлетворяет требованиям бессубъектности (не имеет подлежащего и стоит в одной из допустимых грамматических форм), то упоминание референта для Subject следует искать в анафорической связи ранее по тексу.
  • KeyNoun - маркирует ключевое существительное, идентифицирующее факт в конструкции, которая может быть номинативной (2003 год – операции по покупке …). В шаблоне на рисунке 3 такая метка маркирует узел, описывающий синонимический ряд существительных со значением “операция”. Если соответствующее слово найдено и удовлетворяет требованиям номинативности (не подчинено другому слову и стоит в одной из допустимых грамматических форм), то упоминание референта для Subject следует искать в анафорической связи ранее по тексту.

Вторым этапом установления анафорической связи для валентности Subject является собственно поиск ближайшего по тексту упоминания (антецедента) подходящего референта из числа персон/организаций, удовлетворяющего тем законам построения дискурса, которые эмпирически были отобраны нами для текстов стиля “досье”:

1.      Позиция в предложении. Никакой из антецедентов в позиции однородных членов предложения не может быть анафорически связан с фактами. Антецедент, являющийся второстепенным членом предложения, не может иметь анафорической связи с фактами за пределами своей синтаксической клаузы.

2.      Тема предложения. За пределами своего предложения факт может быть связан только с антецедентом, входящим в тему предложения. В тему предложения включаются такие антецеденты, которые либо стоят в позиции подлежащего, если таковое найдено, либо не стоят после глагола и не стоят в скобках.

3.      Тема параграфа. Факт можно связать с антецедентом, являющимся темой ближайшего предыдущего параграфа, пропустив те параграфы, в которых не удалось обнаружить тему. Темой параграфа считается упоминание персоны/организации в теме его первого предложения.

4.      Скобки. Факты, излагающиеся внутри скобок, могут относиться только к антецеденту, стоящему в тех же скобках или непосредственно перед ними. К антецеденту, стоящему внутри скобок, могут относиться только факты, стоящие внутри этих же самых скобок.

5.      Списки. Факт не может быть анафорически связан с антецедентом из другого параграфа в случае, когда оба параграфа являются элементами списка.

Одна важная проблема связана со сложностью распознавания списков специфического вида, элементы которых начинаются с нормальных слов, например: Мать – Корейко Анна Захаровна…, и следующий элемент списка Отец – Корейко Иван Абрамович... Проблема усугубляется тем, что каждый элемент списка зачастую состоит из нескольких параграфов, то есть досье содержит вложенные мини-досье. Невозможность проверить нарушение закона (6) может привести к тому, что Корейко Иван Абрамович станет отцом Корейко Анны Захаровны.

Дополнительно в ходе извлечения фактов проверяются тривиальные прагматические правила, которые запрещают соотносить с одним референтом более одного факта определенного типа (дата рождения, ИНН, паспортные данные и т.п.).

Заключение

Закономерности построения дискурса в текстах стиля “досье”, описанные в докладе и прошедшие экспериментальную проверку, опираются исключительно на коммуникативные особенности построения текста автором, связанные с формированием или удержанием фокуса внимания читателя. Как оказалось, эти вполне прозрачные законы достаточно строго соблюдаются авторами досье, в то время как в исследованных нами ранее текстах СМИ [3] коммуникативные законы построения дискурса зачастую нарушались из-за того, что авторы использовали в качестве предполагаемой опоры для разрешения анафоры семантические и прагматические компоненты дискурса. Вследствие этого установление анафорической связи в текстах СМИ требовало от нас особо жесткой стратегии принятия решений – кореферентным мог быть признан только ближайший по тексту антецедент подходящего семантического разряда, для которого к тому же не нарушались  законы. Напротив, в текстах досье нам удается достоверно относить факты достаточно далеко – например, к такой персоне, от последнего упоминания которой факт отделяет упоминание десятка других персон.

Описанная в докладе схема выделения фактов из текстов досье воплощена в программном комплексе, который в настоящий момент проходит опытные испытания у заказчика. Мы ожидаем, что результаты будут признаны удовлетворительными и дальнейшая работа по улучшению и настройке алгоритмов будет продолжена. Основное направление работы – повышение полноты за счет написания новых шаблонов для фактов новых типов, а также для сравнительно редких способов выражения уже включенных фактов. Так, для извлечения фактографических данных в соответствии со схемой на рисунке 1 уже разработано более 100 шаблонов.

Список литературы 


1.      Ермаков А.Е., Плешко В.В., Митюнин В.А. RCO Pattern Extractor: компонент выделения особых объектов в тексте. // Информатизация и информационная безопасность правоохранительных органов: XII Международная научная конференция. Сборник трудов - Москва, 2003. - С. 312-317. (http://www.rco.ru/article.asp?ob_no=237)

2.      Киселев С.Л., Ермаков А.Е., Плешко В.В. Поиск фактов в тексте естественного языка на основе сетевых описаний // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог’2004. – Москва, Наука, 2004. – C. 282-285. (http://www.rco.ru/article.asp?ob_no=629)

3.     Ермаков А.Е. Референция обозначений персон и организаций в русскоязычных текстах СМИ: эмпирические закономерности для компьютерного анализа // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог’2005. – Москва, Наука, 2005. - C.131-135 (http://www.rco.ru/article.asp?ob_no=2339)