Что такое тезаурус словарь. Тезаурус русского языка для автоматической обработки больших текстовых коллекций

Все чаще в многочисленных проектах, книгах, брошюрах, интернет-ресурсах можно встретить понятие "тезаурус". Словно таинственное явление, оно пугает своей неизведанностью, ведь куда проще сказать "словарь", нежели использовать странное определение.

Тезаурус: что это? Чем он отличается от обычного словаря? Попытаемся изучить данные вопросы более подробно и доступно.

Трактовка термина

Первоначально понятие тезауруса рассматривалось с точки зрения словаря, представлявшего лексику языка с примерами употребления в тексте.

Ожегов трактует тезаурус как словарь конкретного языка, отражающий лексику в полной мере, в то время как Ефремова рассматривает данный феномен с точки зрения систематизированного набора данных в определенной области знания.

Наиболее конкретное определение используется в филологии, там под тезаурусом понимается компонент словарного типа, где все значения слов связаны семантическими отношениями между собой и отражают ключевые соотношения понятий в определенной предметной области.

Как мы видим, довольно сложно ответить на вопрос: "Тезаурус: что это?" однозначно. Для более узкого изучения термина рассмотрим историю возникновения, виды и отношения лексических единиц в словаре подобного типа.

История возникновения

Отцом-основателем тезаурусов считается английский физик Роже, именно он в 1852 г. систематизировал распределив ее по группам. При этом каждая группа была представлена названием понятия, а далее шли его синонимы по определенным частям речи, списки родственных наименований, а также отсылки к именам других категорий. Идея такой классификации была очень ценной, поскольку словарь считался самым естественным, описывал лексику языка в самой полной мере. При этом он мог быть применен в качестве быстрого поиска важных понятий. Со времен первого тезауруса и до сих пор происходит регулярная трансформация данного типа словаря, который применяется во многих областях знаний и пользуется широкой популярностью во всем мире. При этом изучение темы: «Тезаурус: что это?» актуально во многих учебных заведениях.

До настоящего времени тезаурусы остаются наиболее популярным способом описания знаний в любой области, необходимой для эффективного восприятия человеком.

Отношения слов в тезаурусе

Самыми распространенными отношениями в классическом тезаурусе считаются:

  1. Синонимия - явление, при котором связываются слова одной части речи, сходные по лексическому значению. Например: держава-отчизна, бригада-отряд, алый - красный и т.д.
  2. Антонимия - связь слов одной части речи, имеющих противоположное лексическое значение. Например: тишина - грохот, ласковый - грубый .
  3. Гиперонимия (гипонимия) - ключевые отношения с целью описания существительных. Гипероним имеет широкое лексическое значение, выражает родовое, общее наименование класса (множества) объектов, предметов, а именно его свойств и признаков. Гипоним обладает узким значением, он называет предмет (признак, свойство) как элемент конкретного множества или класса. Для того чтобы эти отношения стали понятными, приведем простейший пример. Слова зверь и тигр связаны между собой, при этом общее наименование - зверь - является гиперонимом по отношению к гипониму тигр.
  4. Меронимия (партонимия) - отношения для существительных, складываются по принципу «часть - целое». В качестве примера рассмотрим слова самолет, шасси , иллюминатор . В данном случае общее наименование транспорта - холоним (целое, имя), а его составные части - меронимы.
  5. Следствие (отношения между глаголами). Например, слова идти и прийти связаны процессом и его следствием (результатом).
  6. Причина (также допустимо только для глаголов). Рассмотрим пример таких отношений, возьмем слова: болеть - пропустить . В этом случае прослеживается причина - пропустить, потому что были проблемы со здоровьем.

Что тезаурус представляет собой, увидим из следующего примера.

Кровать - приспособление для сна.

[гипероним]: мебель
[мероним]: дом
[синоним]: лежанка, полати.

Это лишь классический пример тезауруса русского языка, однако все словари данного типа строятся именно по такому принципу.

Функции тезауруса

Словарь-тезаурус несет важные социальные, коммуникационные, научные и другие функции.

Он является:

  • источником специальных знаний в широкой либо узкой предметной области, способом упорядочения, описания терминов ;
  • инструментом поиска в информационном потоке;
  • инструментом ручного анализа документации в поисковых системах;
  • инструментом автоматического индексирования сложных текстов.

Виды тезаурусов

Многообразие словарей требует рассматривать не только вопрос: "Тезаурус: что это?", но и обращать внимание на виды. Это поможет нам лучше усвоить особенности данного типа словарей.


Заключение

Мы надеемся, что смогли доступным языком объяснить, что такое тезаурус. Благодаря примерам легко понять, чем он отличается от остальных словарей. Также мы осветили вопрос об информационно-поисковых тезаурусах, которые широко используются информационной системой для быстрого поиска и систематизации миллионов наименований.

Одним из новых основных понятий, появившихся в результате разработки машинных методов обработки информации, в частности, при переводе с одного языка на другой, поиска научно-технической информации и создания информационной модели предприятия в автоматизированных системах управления, явилось понятие тезауруса информационной системы. Термин «тезаурус» подразумевает совокупность знаний о внешнем мире - это так называемый тезаурус мира Т. Все понятия внешнего мира, выраженные с помощью естественного языка, составляют тезаурус, из которого можно выделить частные тезаурусы путем иерархического деления с учетом соподчинения отдельных понятий или путем выделения частей общего тезауруса мира. Тезаурус в информационно-поисковых системах играет важную роль в поиске нужного документа по ключевым словам. Поэтому построение тезауруса является сложной и ответственейшей задачей. Но эта задача также может быть автоматизирована.

Классификация в ее наиболее общем определении есть разбиение и упорядочение множеств. Ею называют распределение предметов по классам на основании общего признака, присущего данным явлениям или предметам и отличающего их от предметов и явлений, составляющих другие классы. При необходимости каждый класс может делиться на подклассы. Рубрикатор является особой разновидностью классификации . Поэтому они созданы на основе общих положений:
 научная основа построения классификации;
 отражение современного уровня развития науки;
 наличие системы ссылок и отсылок, а также ссылочно-справочного аппарата (ССА).

Однако рубрикатор является прагматической классификацией, создающейся на основе информационных потоков и потребностей специалистов . В этом его отличие от априорных классификаций, таких как УДК и МПК.

Основными функциями классификаций и, в частности, рубрикатора можно назвать следующие:
 тематическое разграничение информационных подсистем;
 формирование информационных массивов по любым признакам;
 систематизирование информационных материалов и изданий;
 текущий и ретроспективный поиск;
 индексирование документов и запросов;
 связь с другими классификационными схемами;
 нормативные функции.

Они строятся путем деления понятий - объектов классификации на основе установленных связей между признаками этих объектов в соответствии с определенными логическими принципами. Признак, по которому производится классификация, получил название основания деления классификации. В классификациях широко используются методы дедукции и индукции для фиксации групп, классов и выявления связей между ними. Это характерно для иерархических классификаций. Глубина классификации (количество уровней иерархии) может быть различной в зависимости от назначения. Одним из широко используемых рубрикаторов является государственный рубрикатор научно-технической информации (ГРНТИ).

Рубрикатор ГРНТИ разработан так, что возможно его совместное использование с другими классификациями типа УДК и МПК. Универсальная десятичная классификация (УДК) существует более 70 лет, но до сих пор не знает себе равных по широте распространения и используется во многих странах мира. УДК охватывает весь универсум знаний и успешно применяется для систематизации и последующего поиска самых разнообразных источников информации.

Помимо УДК на практике широко используется библиотечно-библиографическая классификация (ББК). ББК построена на принципах логической соподчиненности и представляет классификацию прикладного типа.
В Российской Федерации для классифицирования изобретений и систематизации отечественных фондов описаний изобретений используется международная патентная классификация - достаточно сложная многоаспектная классификация, построенная по функционально-отраслевому принципу. Одни и те же технические понятия могут находиться в МПК или специальных классах (по отраслевой принадлежности) или в функциональных классах (по принципу действия). Отраслевой принцип распределения понятий предполагает классифицирование объектов в зависимости от применения в той или иной исторически сложившейся отрасли техники, технологии.

Сравнительная характеристика рубрикатора ГРНТИ, УДК, ББК и МПК, приведена в таблице 1.

Таблица 1
Характеристика рубрикатора ГРНТИ, УДК, ББК и МПК

Наименование

Структура

Принцип расположения делений

Схема построения разделов

Иерархическая

Отраслевой

От общего к частному

Иерархическая

Тематический

Иерархическая

Функционально-отраслевой

От общего к частному

ББК для научных библиотек

Иерархическая

Отраслевой

От общего к частному, по видовому признаку


Таким образом, можно выделить главные отличительные особенности рубрикаторов и классификаторов:
 им свойственен прикладной характер и отраслевая направленность;
 это открытые системы, зависящие от развития науки и техники, потребностей и запросов специалистов;
 неорганичные системы, так как объекты возникают и развиваются в окружающей среде и из нее поступают в них. Элементы способны существовать самостоятельно вне системы. Эта черта тесно связана со второй особенностью;
 минимальным элементом является понятие, связанное со средой. Понятие представляет систему определений;
 между понятиями возникают связи как по «вертикали» (род-вид, целое-часть), так и по «горизонтали» (вид-вид, часть-часть), что свидетельствует об иерархичности систем.

Следовательно, структура и принципы организации классификаций и рубрикаторов делают возможным автоматизировать процесс построения тезаурусов предметной области, используя метод дедукции. Алгоритм построения тезауруса по методу дедукции приведен на рис. 1.

Основой для формирования тезауруса является поисковый образ документа, задание или заявка на поиск информации, заполняемая оператором. Следовательно, первым шагом становится исследование и анализ заявки. На первом этапе оператор указывает интересующую тему или проблему, возможные ключевые слова и их синонимы. В результате этого получаем поверхностное представление о предметной области.

Рис. 1. Алгоритм построения тезауруса по методу дедукции

Кроме того, формируется тезаурус ключевых слов КС по методу дедукции, для чего необходимы:
 массив КС, который задает сам пользователь, обозначенный на рисунке 1 как MP;
 массив КС, извлеченный из задания на поиск соответственно MZ.

Однако для более полного и глубинного представления о предметной области используем существующие рубрикаторы и классификационные схемы (ГРНТИ, УДК, ББК, МПК). С целью максимального охвата предметной области необходимо просмотреть все, имеющиеся в наличии. Массив рубрикаторов представляет MR. Алгоритм поиска по методу дедукции состоит из двух шагов:
1. Нахождение родовых понятий (рис. 2);
2. Нахождение внутри родовых понятий видовых терминов (рис. 3).


Рис. 2. Обработка родового понятия

Загружаем из массива первый рубрикатор и организуем цикл проверки наличия в рубрикаторах КС, введенных пользователем. Каждое КС ищется в рубрикаторе и сравнивается с родовым понятием или «гнездом», а затем проверяется условие - есть ли ссылка на видовые термины. Если такая ссылка имеется, то КС сравнивается с видовыми терминами. В случае если ссылки не обнаружено, переходим к следующему родовому понятию. Когда ключевые слова КС, введенные оператором, просмотрены, переходим к массиву КС, извлеченных из задания. Процедура проверки аналогична - ищем КС, соответствующие родовым понятиям, а затем их ссылки на видовые термины.


Рис. 3. Обработка видовых терминов

Отметим, внутри каждого родового понятия важно просмотреть все имеющиеся видовые термины с целью получения максимального представления о проблемной области. Результатом этих действий является формирование массива ключевых слов КС, представляющего собой полный тезаурус, соответствующего заданию на поиск информации или поисковому образу документа.

На базе полного набора поисковых образов документов (обозначим) можно создать отраслевые тезаурусы и единый классификатор библиотеки. Очевидно, что полный набор  сам представляет простейший тезаурус.

Однако, используя критерий отбора
, (1)
можем построить отраслевые тезаурусы. При этом множество всех отраслевых тезаурусов образует полный тезаурус
, (2)
разделы которого могут быть иерархически структурированы в соответствии с требованиями ГОСТов по основным классификаторам (ГРНТИ, УДК, ББК, МПК) или по внутреннему единому классификатору.

Автоматизация процесса построения тезауруса и классификации позволяет максимально облегчить труд оператора, работающего с распределенными информационными ресурсами.

Помимо построения тезауруса, на основе поискового образа документа предложенный подход можно использовать при автоматическом реферировании документа и кластеризации текстов.

Реферирование документов является одной из задач, направленных на обеспечение специалистов-экспертов достоверной информацией, необходимой для принятия управленческого решения о ценности полученных из сети Интернет документов. Реферированием называется процесс преобразования документальной информации, завершающийся составлением реферата, а реферат - это семантически адекватное изложение основного содержания первичного документа, отличающееся экономной знаковой оформленностью, постоянством лингвистических и структурных характеристик и предназначенное для выполнения разнообразных информационно-коммуникативных функций в системе научной коммуникации . Алгоритм реферирования документов представлен на рис. 4.


Рис. 4. Алгоритм реферирования документов

В общем случае алгоритм включает следующие основные этапы.
1. Производится выделение предложений из документа, закаченного из сети Интернет и находящегося в хранилище данных, путем выделения знаков препинания и сохраняем его в массиве.
2. Каждое предложение разбивается на слова путем выделения разделителей, и сохраняем их в массив, причем для каждого предложения массив разный.
3. Для каждого предложения, для каждого слова этого предложения считаем количество слов в других предложениях (до и после). Сумма повторов для каждого слова (до и после) и будет весом данного предложения.
4. Заданное число предложений с максимальным весовым коэффициентом и выбираем в реферат в порядке появления в тексте.

Предложенная модель построения тезауруса и тематических каталогов информационной системы представляет собой теоретическую основу для автоматизации смыслового поиска и позволяет специалисту-эксперту не только проводить поисковые работы, но и в автоматизированном режиме, реферировать документы, полученные в результате поиска в распределенных информационных системах сети Интернет.

Литература:
1. Барушкова Р.И. Классификационные схемы научно-технической информации. Учеб. пособие. - М., 1981. - 80с.
2. Барушкова Р.И. Рубрикатор как классификационная схема научно-технической информации. Методическое пособие. - М., 1980. - 38с.
3. Трусов А.В., Бабарыкин Е.П. Оценка границ области тематического информационного запроса в распределенных информационных системах. Материалы Всероссийской (с международным участием) конференции «Информация, инновации, инвестиции», 24-25 ноября 2004 года, г.Пермь /Пермский ЦНТИ. - Пермь, 2004. - С.76-79.
4. Яцко В.А. Логико-лингвистические проблемы анализа и реферирования научного текста. - Абакан: изд-во Хакасского гос. ун-та, 1996. - 128 с.

Раздел очень прост в использовании. В предложенное поле достаточно ввести нужное слово, и мы вам выдадим список его значений. Хочется отметить, что наш сайт предоставляет данные из разных источников – энциклопедического, толкового, словообразовательного словарей. Также здесь можно познакомиться с примерами употребления введенного вами слова.

Значение слова тезаурус

тезаурус в словаре кроссвордиста

Толковый словарь русского языка. С.И.Ожегов, Н.Ю.Шведова.

тезаурус

[тэ], -а, м. (спец.).

    Словарь языка, ставящий задачу полного отражения всей его лексики.

    Словарь или свод данных, полностью охватывающий термины, понятия какой-н. специальной сферы.

    прил. тезаурусный, -ая, -ое.

Новый толково-словообразовательный словарь русского языка, Т. Ф. Ефремова.

тезаурус

    Словарь какого-л. языка, представляющий его лексику в полном объеме.

    Полный систематизированный набор данных о какой-л. области знания, позволяющий человеку или вычислительной машине в ней ориентироваться (в информатике).

Энциклопедический словарь, 1998 г.

тезаурус

ТЕЗАУРУС (от греч. thesauros - сокровище)

    словарь, в котором максимально полно представлены слова языка с примерами их употребления в тексте (в полном объеме осуществим лишь для мертвых языков).

    Словарь, в котором слова, относящиеся к каким-либо области знания, расположены по тематическому принципу и показаны семантические отношения (родо-видовые, синонимические и др.) между лексическими единицами. В информационно-поисковых тезаурусах лексические единицы текста заменяются дескрипторами.

Тезаурус

(от греч. thesaurós ≈ сокровище, сокровищница), множество смысловыражающих единиц некоторого языка с заданной на нём системой семантических (см. Семантика) отношений. Т. фактически определяет семантику языка (национального языка, языка конкретной науки или формализованного языка для автоматизированной системы управления). Первоначально Т. рассматривали как одноязычный словарь, в котором семантические отношения определяются группировкой слов по тематическим рубрикам. Например, английский Т. (автор П. М. Роджет), изданный в 1962 (1-е издание 1852), содержит 1040 рубрик, по которым распределено около 240 000 слов. Указатель (ключ) к этому Т. содержит алфавитный перечень слов с указанием рубрик и подрубрик, к которым относится каждое слово. Существуют традиционные общеязыковые Т. (описания семантических систем отдельных языков) для английского, французского, испанского языков. К Т. весьма близки одноязычные словари, задающие выражения основных семантических параметров каждого слова, например словарь русского языка С. И. Ожегова.

В 70-х гг. 20 в. получили распространение информационно-поисковые Т. В этих Т. выделены специальные лексические единицы ≈ дескрипторы, по которым можно осуществлять автоматический поиск документальной информации. С каждым словом такого Т. сопоставляется синонимичный дескриптор (см. Синонимия), и для дескрипторов явным образом указываются семантические отношения: род ≈ вид, часть ≈ целое, цель ≈ средство и т. д. Обычно принято разделять родо-видовые (иерархические) и ассоциативные отношения. Так, «Информационно-поисковый тезаурус по информатике», изданный в СССР в 1973, для каждого дескриптора предусматривает словарную статью, где отдельно указаны синонимичные ключевые слова, родовые, видовые и ассоциативные дескрипторы. Для лучшей ориентации в ассоциативных связях между дескрипторами к этому Т. приложены семантические карты тематических классов. При автоматизированном информационном поиске ищутся документы, у которых индекс содержит не только дескрипторы запроса, но и те дескрипторы, которые находятся с ними в определённых семантических отношениях. Иногда бывает полезно выделять в Т. конкретные ассоциативные отношения, специфичные для данной тематической области: болезнь ≈ возбудитель, прибор ≈ назначение (или измеряемая величина) и т. п. Положение лексической единицы (слова, словосочетания) в Т. характеризует его смысл в языке; знание системы семантических отношений, в которые вступает данное слово (в том числе и рубрик, куда оно входит), позволяет судить о смысле этого слова.

В широком смысле Т. интерпретируют как описание системы знаний о действительности, которыми располагает индивидуальный носитель информации или группа носителей. Этот носитель может выполнять функции приёмника дополнительной информации, вследствие чего изменяется и его Т. Исходный Т. определяет при этом возможности приёмника при получении им семантической информации. В психологии и при изучении систем с искусственным интеллектом рассматривают свойства Т. индивидуумов, проявляющиеся при восприятии и понимании информации. В социологии и теории коммуникаций изучают свойства Т. индивидуумов и коллективов, обеспечивающие возможность взаимопонимания на основе общности Т. В этих ситуациях в Т. приходится включать сложные высказывания и их семантические связи, определяющие запас сведении, которыми располагает сложная система . Т. фактически содержит не только информацию о действительности, но и метаинформацию (сведения об информации), обеспечивающую возможность приёма новых сообщений.

Лит.: Черный А. И., Общая методика построения тезаурусов, «Научно-техническая информация. Сер. 2», 1968, ╧5; Варга Д., Методика подготовки информационных тезаурусов, пер. [с венг.], М., 1970; Шрейдер Ю. А., Тезаурусы в информатике и теоретической семантике, «Научно-техническая информация. Сер. 2», 1971, ╧ З.

Ю. А. Шрейдер.

Википедия

Тезаурус

Теза́урус , в общем смысле - специальная терминология , более строго и предметно - словарь, собрание сведений, корпус или свод, полномерно охватывающие понятия, определения и термины специальной области знаний или сферы деятельности, что должно способствовать правильной лексической, корпоративной коммуникации; в современной лингвистике - особая разновидность словарей, в которых указаны семантические отношения (синонимы , антонимы , паронимы , гипонимы, гиперонимы и т. п.) между лексическими единицами. Тезаурусы являются одним из действенных инструментов для описания отдельных предметных областей.

В отличие от толкового словаря, тезаурус позволяет выявить смысл не только с помощью определения, но и посредством соотнесения слова с другими понятиями и их группами, благодаря чему может использоваться для наполнения баз знаний систем искусственного интеллекта.

В прошлом термином тезаурус обозначались по преимуществу словари, с максимальной полнотой представлявшие лексику языка с примерами её употребления в текстах.

Также термин тезаурус употребляется в теории информации для обозначения совокупности всех сведений, которыми обладает субъект.

В психологии тезаурус индивидуума характеризуют восприятие и понимание информации. Теория коммуникации также рассматривает общий тезаурус сложной системы, благодаря которому взаимодействуют её элементы.

Тезаурус (значения)

Тезаурус :

  • Тезаурус - словарь, собрание сведений, охватывающие понятия, определения и термины специальной области знаний или сферы деятельности.
  • Тезаурус Роже - один из первых в истории и наиболее известных на сегодня идеографических словарей.

Примеры употребления слова тезаурус в литературе.

Для восприятия и сотворчества необходим некий оптимальный тезаурус , не малый, но и не слишком большой.

При неограниченно большом количестве поступающей информации, существенно превышающем тезаурус , ее ценность от этого количества не зависит и целиком определяется тезаурус ом.

Многосторонность, системность искусства приводит к неравномерности восприятия произведения в целом: для восприятия одних аспектов стиха тезаурус оптимален, для других-недостаточен или слишком велик.

Так как тезаурус растет и меняется, повторное знакомство с произведением может означать получение новой ценной информации.

Стремление ребенка многократно перечитывать полюбившуюся ему сказку понятно: его тезаурус быстро возрастает и его способность к сотворчеству, к ассоциативному фантазированию особенно велика.

Эта сторона дела более переменчива и субъективна, чем тезаурус , и в поисках объективной эстетической оценки произведения ее должно свести к минимуму.

Он проникает в тезаурус поэта и адресует перевод тезаурус у иноязычного читателя.

Это самое главное заключается в том, чтобы определить, насколько велик твой тезаурус , т.

Нет, просто его собственный багаж - мизерный, он неразвит, его тезаурус находится в зачаточном состоянии, и если он не поймет, что тезаурус должен быть увеличен, то, во всяком случае, этой женщине с ним придется несладко.

Богатый тезаурус , основанный на истинном знании, позволяет человеку в общении с другим человеком, в том числе и в самом близком общении с самым близким человеком, правильно реагировать на все, что ни случится.

Очевидно, что падение ценности информации с ростом тезауруса должно зависеть от отношения тезауруса к количеству получаемой информации.

Очевидно, что оптимальная ценность художественной информации соответствует близости тезауруса читателя и тезауруса поэта.

Можно сказать, что сотворчество, подобно творчеству, требует вдохновения, то есть включения тезауруса в широком смысле этого слова.

Такое внутреннее повторение яркой образности и яркого звучания, оставаясь в рамках имеющегося тезауруса , обогащает его тем же эстетическим моментом повтора.

В этом пункте тезауруса антиподами Платонова надо было бы считать Набокова и Пришвина, а сходным с ним можно признать Марину Цветаеву.

, антонимы , паронимы , гипонимы , гиперонимы и т. п.) между лексическими единицами. Тезаурусы являются одним из действенных инструментов для описания отдельных предметных областей.

В прошлом термином тезаурус обозначались по преимуществу словари, с максимальной полнотой представлявшие лексику языка с примерами её употребления в текстах.

Также термин тезаурус употребляется в теории информации для обозначения совокупности всех сведений, которыми обладает субъект.

В психологии тезаурус индивидуума характеризуют восприятие и понимание информации. Теория коммуникации также рассматривает общий тезаурус сложной системы, благодаря которому взаимодействуют её элементы .

История

Одним из первых тезаурусов называют «Словарь синонимов» Филона Библского . Более точное соответствие термину имеет Амара-коша , написанный на санскрите в стихотворной форме в VI веке. Первый современный английский тезаурус был создан Питером Марком Роже (англ.) в 1805 году. Он был опубликован в 1852 году и с тех пор используется без переизданий .

В 1970-е годы тезаурусы стали активно использоваться для информационно-поисковых задач. В таких тезаурусах слова сопоставляются с дескрипторами, через которые устанавливаются семантические связи .

Тезаурусы

См. также

Напишите отзыв о статье "Тезаурус"

Примечания

Отрывок, характеризующий Тезаурус

– Каким ты щеголем нынче! – оглядывая его новый ментик и вальтрап, сказал Несвицкий.
Денисов улыбнулся, достал из ташки платок, распространявший запах духов, и сунул в нос Несвицкому.
– Нельзя, в дело иду! выбг"ился, зубы вычистил и надушился.
Осанистая фигура Несвицкого, сопровождаемая казаком, и решительность Денисова, махавшего саблей и отчаянно кричавшего, подействовали так, что они протискались на ту сторону моста и остановили пехоту. Несвицкий нашел у выезда полковника, которому ему надо было передать приказание, и, исполнив свое поручение, поехал назад.
Расчистив дорогу, Денисов остановился у входа на мост. Небрежно сдерживая рвавшегося к своим и бившего ногой жеребца, он смотрел на двигавшийся ему навстречу эскадрон.
По доскам моста раздались прозрачные звуки копыт, как будто скакало несколько лошадей, и эскадрон, с офицерами впереди по четыре человека в ряд, растянулся по мосту и стал выходить на ту сторону.
Остановленные пехотные солдаты, толпясь в растоптанной у моста грязи, с тем особенным недоброжелательным чувством отчужденности и насмешки, с каким встречаются обыкновенно различные роды войск, смотрели на чистых, щеголеватых гусар, стройно проходивших мимо их.
– Нарядные ребята! Только бы на Подновинское!
– Что от них проку! Только напоказ и водят! – говорил другой.
– Пехота, не пыли! – шутил гусар, под которым лошадь, заиграв, брызнула грязью в пехотинца.
– Прогонял бы тебя с ранцем перехода два, шнурки то бы повытерлись, – обтирая рукавом грязь с лица, говорил пехотинец; – а то не человек, а птица сидит!
– То то бы тебя, Зикин, на коня посадить, ловок бы ты был, – шутил ефрейтор над худым, скрюченным от тяжести ранца солдатиком.
– Дубинку промеж ног возьми, вот тебе и конь буде, – отозвался гусар.

Остальная пехота поспешно проходила по мосту, спираясь воронкой у входа. Наконец повозки все прошли, давка стала меньше, и последний батальон вступил на мост. Одни гусары эскадрона Денисова оставались по ту сторону моста против неприятеля. Неприятель, вдалеке видный с противоположной горы, снизу, от моста, не был еще виден, так как из лощины, по которой текла река, горизонт оканчивался противоположным возвышением не дальше полуверсты. Впереди была пустыня, по которой кое где шевелились кучки наших разъездных казаков. Вдруг на противоположном возвышении дороги показались войска в синих капотах и артиллерия. Это были французы. Разъезд казаков рысью отошел под гору. Все офицеры и люди эскадрона Денисова, хотя и старались говорить о постороннем и смотреть по сторонам, не переставали думать только о том, что было там, на горе, и беспрестанно всё вглядывались в выходившие на горизонт пятна, которые они признавали за неприятельские войска. Погода после полудня опять прояснилась, солнце ярко спускалось над Дунаем и окружающими его темными горами. Было тихо, и с той горы изредка долетали звуки рожков и криков неприятеля. Между эскадроном и неприятелями уже никого не было, кроме мелких разъездов. Пустое пространство, саженей в триста, отделяло их от него. Неприятель перестал стрелять, и тем яснее чувствовалась та строгая, грозная, неприступная и неуловимая черта, которая разделяет два неприятельские войска.
«Один шаг за эту черту, напоминающую черту, отделяющую живых от мертвых, и – неизвестность страдания и смерть. И что там? кто там? там, за этим полем, и деревом, и крышей, освещенной солнцем? Никто не знает, и хочется знать; и страшно перейти эту черту, и хочется перейти ее; и знаешь, что рано или поздно придется перейти ее и узнать, что там, по той стороне черты, как и неизбежно узнать, что там, по ту сторону смерти. А сам силен, здоров, весел и раздражен и окружен такими здоровыми и раздраженно оживленными людьми». Так ежели и не думает, то чувствует всякий человек, находящийся в виду неприятеля, и чувство это придает особенный блеск и радостную резкость впечатлений всему происходящему в эти минуты.
На бугре у неприятеля показался дымок выстрела, и ядро, свистя, пролетело над головами гусарского эскадрона. Офицеры, стоявшие вместе, разъехались по местам. Гусары старательно стали выравнивать лошадей. В эскадроне всё замолкло. Все поглядывали вперед на неприятеля и на эскадронного командира, ожидая команды. Пролетело другое, третье ядро. Очевидно, что стреляли по гусарам; но ядро, равномерно быстро свистя, пролетало над головами гусар и ударялось где то сзади. Гусары не оглядывались, но при каждом звуке пролетающего ядра, будто по команде, весь эскадрон с своими однообразно разнообразными лицами, сдерживая дыханье, пока летело ядро, приподнимался на стременах и снова опускался. Солдаты, не поворачивая головы, косились друг на друга, с любопытством высматривая впечатление товарища. На каждом лице, от Денисова до горниста, показалась около губ и подбородка одна общая черта борьбы, раздраженности и волнения. Вахмистр хмурился, оглядывая солдат, как будто угрожая наказанием. Юнкер Миронов нагибался при каждом пролете ядра. Ростов, стоя на левом фланге на своем тронутом ногами, но видном Грачике, имел счастливый вид ученика, вызванного перед большою публикой к экзамену, в котором он уверен, что отличится. Он ясно и светло оглядывался на всех, как бы прося обратить внимание на то, как он спокойно стоит под ядрами. Но и в его лице та же черта чего то нового и строгого, против его воли, показывалась около рта.
– Кто там кланяется? Юнкег" Миг"онов! Hexoг"oшo, на меня смотг"ите! – закричал Денисов, которому не стоялось на месте и который вертелся на лошади перед эскадроном.
Курносое и черноволосатое лицо Васьки Денисова и вся его маленькая сбитая фигурка с его жилистою (с короткими пальцами, покрытыми волосами) кистью руки, в которой он держал ефес вынутой наголо сабли, было точно такое же, как и всегда, особенно к вечеру, после выпитых двух бутылок. Он был только более обыкновенного красен и, задрав свою мохнатую голову кверху, как птицы, когда они пьют, безжалостно вдавив своими маленькими ногами шпоры в бока доброго Бедуина, он, будто падая назад, поскакал к другому флангу эскадрона и хриплым голосом закричал, чтоб осмотрели пистолеты. Он подъехал к Кирстену. Штаб ротмистр, на широкой и степенной кобыле, шагом ехал навстречу Денисову. Штаб ротмистр, с своими длинными усами, был серьезен, как и всегда, только глаза его блестели больше обыкновенного.
– Да что? – сказал он Денисову, – не дойдет дело до драки. Вот увидишь, назад уйдем.
– Чог"т их знает, что делают – проворчал Денисов. – А! Г"остов! – крикнул он юнкеру, заметив его веселое лицо. – Ну, дождался.
И он улыбнулся одобрительно, видимо радуясь на юнкера.
Ростов почувствовал себя совершенно счастливым. В это время начальник показался на мосту. Денисов поскакал к нему.
– Ваше пг"евосходительство! позвольте атаковать! я их опг"окину.
– Какие тут атаки, – сказал начальник скучливым голосом, морщась, как от докучливой мухи. – И зачем вы тут стоите? Видите, фланкеры отступают. Ведите назад эскадрон.
Эскадрон перешел мост и вышел из под выстрелов, не потеряв ни одного человека. Вслед за ним перешел и второй эскадрон, бывший в цепи, и последние казаки очистили ту сторону.
Два эскадрона павлоградцев, перейдя мост, один за другим, пошли назад на гору. Полковой командир Карл Богданович Шуберт подъехал к эскадрону Денисова и ехал шагом недалеко от Ростова, не обращая на него никакого внимания, несмотря на то, что после бывшего столкновения за Телянина, они виделись теперь в первый раз. Ростов, чувствуя себя во фронте во власти человека, перед которым он теперь считал себя виноватым, не спускал глаз с атлетической спины, белокурого затылка и красной шеи полкового командира. Ростову то казалось, что Богданыч только притворяется невнимательным, и что вся цель его теперь состоит в том, чтоб испытать храбрость юнкера, и он выпрямлялся и весело оглядывался; то ему казалось, что Богданыч нарочно едет близко, чтобы показать Ростову свою храбрость. То ему думалось, что враг его теперь нарочно пошлет эскадрон в отчаянную атаку, чтобы наказать его, Ростова. То думалось, что после атаки он подойдет к нему и великодушно протянет ему, раненому, руку примирения.

Теза́урус (от греч.thesauros- сокровище) в современной лингвистике - особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и т.п.) между лексическими единицами. Таким образом, тезаурусы, особенно в электронном формате, являются одним из действенных инструментов для описания отдельных предметных областей.

В отличие от толкового словаря, тезаурус позволяет выявлять смысл не с только с помощью определения, но и посредством соотнесения слова с другими понятиями и их группами, благодаря чему может использоваться в системах искусственного интеллекта.

В прошлом термином тезаурус обозначались по преимуществу словари, с максимальной полнотой представлявшие лексику языка с примерами ее употребления в текстах.

Пароними́я - частичное звуковое сходство слов при их семантическом различии (полном или частичном). Паронимы часто являются источником речевых ошибок.

Примеры однокоренных паронимов: одеть - надеть, человеческий - человечный, оплатить - уплатить - заплатить.

Примеры совершенно неродственных паронимов: биология - бриология, бульон - брульон, компот - комплот, фактура - фрактура.

Однако тезаурус - это больше, чем инструмент информационного поиска. Тезаурус можно рассматривать как универсальную модель терминологической системы, а потому - как формальную систему знаний, содержащихся в языке конкретной научной области.

Тезаурус общего назначения

Тезаурус в наиболее общем определении - это словарь с семантическими связями между словарными единицами. С конца 50-х годов тезаурусы использовались в системах машинного перевода и информационно - поисковых системах (ИПС).

В отличие от семантических словарей, которые предназначены для подробного описания общей лексики, тезаурусы созданы для хранения и классификации предельно конкретных слов и словосочетаний. Например, слово вещество находится в словаре РОСС (Русский общесемантический словарь), а все названия химических соединений уже в тезаурусе.

Какие связи описываются в тезаурусе? Как правило:

    род-вид (AKO)

    часть-целое (POF)

    синонимия/антонимия

    ассоциативные.

Пример связи «род-вид»

Пример семантического разбора

Это парадигматические (устойчивые связи, существующие между словами в языке). И то не все.

Синтагматические (текстовые) связи в тезаурусе не представлены.

Пример: WORDNET - интеллектуальный компьютерный тезаурус

http://wordnet.princeton.edu/perl/webwn

Создан в Принстонском университете и свободно распространяется.

Основные особенности.

Слова в нем сгруппированы в синонимические группы (синсеты - synsets ). Они разбиты на 4 словаря - существительные, прилагательные, глаголы и наречия.

Синсеты объединены как в иерархические связи (гипонимы и гиперонимы), так и в отношение антонимии и также меронимии (быть частью чего-л или состоять из частей).

Решена также проблема морфологии - слово после обращения к WN возвращается в исходной форме.

Информационно-поисковый тезаурус

В области информационного поиска выигрыш от использования тезаурусов происходит за счет перехода от текста к дескрипторам, описывающим объект реального мира. Переход к дескрипторам позволяет осуществлять расширенное (избыточное) индексирование.

В информационно поисковом тезаурусе эксплицитно выражаются ПАРАДИГМАТИЧЕСКИЕ отношения между дескрипторами (не все, а те, которые чаще всего важны для повышения полноты информационного поиска). Экспериментально определено, что наиболее важными парадигматическими отношениями являются

    соподчинение

    сходство

    вид-род (род-вид)

    причина-следствие

    часть-целое.

Пример словарной статьи:

Сельскохозяйственные машины

Син. сельскохозяйственная техника, сельхозтехника,

Вид: картофелеуборочный комбайн, сеялка, etc.

Пример избыточного индексирования

Запрос "сельскохозяйственные машины"

Пример: Общественно-политический тезаурус русского языка Университетская информационная система РОССИЯ

http://www.cir.ru/index.jsp

Разработан Автономной некоммерческой организацией «Центр информационных исследований» (АНО ЦИИ)

Тезаурус - это терминологический ресурс, реализованный в виде словаря понятий и терминов со связями между ними. Основное назначение тезауруса - помощь при информационном поиске: на основе связей тезауруса происходит расширение запроса, навигация по связям тезауруса помогает четче сформулировать сам запрос.

Особенностью иерархии Тезауруса УИС «Россия» является множественность классификации, то есть для большинства понятий ищется не единственное классифицирующее понятие (связь ВЫШЕ - НИЖЕ), а описываются различные точки зрения на конкретное понятие, например, понятие МАГАЗИН может рассматриваться и как ЗДАНИЕ, и как ТОРГОВАЯ ОРГАНИЗАЦИЯ.

Тезаурус по общественно-политической тематике, включает более 26.000 понятий, 62.000 терминов, 100.000 прямых и 700.000 наследуемых отношений между понятиями. Существующая версия Тезауруса описывает терминологию, используемую в общественно-политической области, включая экономическую, политическую, военную, законодательную, социальную, международные отношения и другие сферы.

Полное название Тезауруса - Информационно-поисковый тезаурус по общественно-политической тематике для автоматического индексирования. Здесь все определения важны:

    ”информационно-поисковый” – так как разработан специально для использования в информационном поиске для помощи пользователю при формировании (уточнении) запроса и для автоматического расширения условий запроса при поиске;

    ”по общественно-политической тематике” – так как покрывает 95-99% лексики и терминологии русскоязычного текста общественно-политической тематики;

    ”для автоматического индексирования” – так как является основой для процесса автоматического определения тематики документов - группирования близких по иерархии тезауруса терминов в тематические узлы, автоматического рубрицирования и автоматического аннотирования.

Тезаурусы - заключение

Для многих известных тезаурусов (WordNet, Roget, EuroWordNet) большой проблемой остается автоматический вывод по связям тезауруса - когда расширение на ближайшую окрестность верно, но не полно, а попытки расширить окрестность ведут к ошибкам.