Семантический анализ

Изучение DATR

Автор: Ирина Даньшина на 16:09 . воскресенье, 24 октября 2010 г.

DATR - это метаязык для описания грамматических явлений естественных языков, реализующий функции языкового процессора. Это означает, что на основе указанных функций, исследователь, использующий DATR, может не только разрабатывать формально-лингвистические модели естественных языков (d-теории), но и легко проверять эти модели в автоматизированном режиме на их соответствие эмпирическим данным.
Такая возможность обусловлена тем, что вывод следствий из заложенных в d-теорию обобщений производится автоматически. Например, описав в среде DATR (в форме запроса к DATR-процессору) грамматические атрибуты некоторого лексического объекта, или класса таких объектов, при наличии соответствующей d-теории, можно получить список всех удовлетворяющих этому запросу лексем.
В стандартной терминологии архитектуры экспертных систем и баз знаний, на DATR можно смотреть как на среду представления лингвистических знаний, подобную семантической сети.
Ссылки:
1. веб-ресурс по DATR: http://www.ccl.kuleuven.be/LKR/html/datr.html
Тоже самое в pdf: http://www.aclweb.org/anthology-new/J/J96/J96-2002.pdf
2.http://www.nltg.brighton.ac.uk/nltg/downloads/datr/index.html
3. DATR Theories and DATR Models: http://www.aclweb.org/anthology-new/P/P95/P95-1008.pdf
4. Описание применения DATR на практике: http://fora.adygnet.ru/files/6/9.pdf
5. Реализация языка DATR, написанная на Python: http://pydatr.sourceforge.net/
6. http://portal.acm.org/results.cfm?coll=GUIDE&dl=GUIDE&CFID=110182256&CFTOKEN=64176893

Визуализация с помощью сводных таблиц

Автор: Ирина Даньшина на 14:07 . четверг, 21 октября 2010 г.

0 коммент.

Ярлыки: Визуализация, Сводные таблицы

Сводная таблица - это такая вспомогательная таблица, которая представляет собой сводку больших объемов данных.

Пользователь создает и изменяет струкуру сводной таблицы посредством захвата и перетаскивания графических элементов, изображающих поля сводной таблицы. Такая визуальная ротация графических элементов-полей стала основой для английского названия сводной таблицы - pivot table (глагол pivot в переводе означает вертеть, вращать, крутить).

Итак, для построения сводной таблицы я выбрала среду MS Excel 2010 и составила небольшую табличку со столбцами ГЛАС, БУКВА, КОД, ЗВУКИ, КОЛ-ВО:

Чтобы построить сводную таблицу надо выбрать пункт меню "Вставка->Сводная таблица" (в более ранних версиях "Данные->Сводная таблица"):

Далее выбираю какие столбцы у меня будут строками, какие столбцами, по какому столбцу считать сумму.

Чтобы итоговая таблицы стала более компактной, включаю фильтр по значениям (по столбцу БУКВА).

В итоге получаем очень интересную таблицу:

Потрясающий результат! сразу видно в каком гласе (столбцы) какие буквы (знамена) встретились, какими звуками кодируются знамена. Например, знамя под буквой Ы кодируется звуками B3,И1,П4,Р6, которым соответствуют коды 14, 8, 3, 18.

Общий итог считается как по строчкам, так и по столбцам :)

Ссылки:

http://chevalry.livejournal.com/142532.html

http://excel.szags.ru/All_sourse/Svodnie_tabl.htm

http://myooo.ru/content/view/95/58/ - построение сводных таблиц в OPENOFFICE

Обзор программ SemioStatistik и Semantic_Statistik

Автор: Ирина Даньшина на 12:08 .

0 коммент.

Ярлыки: Анализ

Исходный материал

Исследование проводится на материале Круга церковного древнего знаменного пения в шести частях (ОЛДП, под редакцией Д.В. Разумовского) — первого и единственного фундаментального собрания певческих книг русской церкви, полностью нотированных знаменами. В шести томах (частях) Круга содержится свыше тысячи пятисот песнопений. Первый том включает песнопения Октоиха. Второй и третий тома содержат обиходные песнопения, а в четвертом, пятом и шестом томе — песнопения певческих книг Праздники, Трезвон и Ирмологий.

Знаменный распев-это основной вид, старейшая и исконная форма русского богослужебного пения. Для записи песнопений используются специальные знаки безлинейной нотации-знамена, которые также иногда называют крюками.

Как вы видите, эта запись отличается от привычной нам 5-ти линейной формы способом записи мелодии, в которой нет четкого соответствия между знаменем и высотой и длительностью звука. Поэтому, перевод из крюковой нотации в линейную не является тривиальной задачей.

Для визуализации песнопений были разработаны специальные шрифты, которые использовались для ввода песнопений в таблицы Word.

Этапы анализа песнопений

Анализ песнопений включает 3 этапа:

1. Перевод исходного материала в специальный формат, который позволяет проводить различные исследования с помощью вычислительной техники.

2. Статистический анализ. Получение частотных таблиц по знаменам, комбинациям знамен.

3. Семантический анализ. На этом этапе исследуются связи между знаменами, гласы попарно сравниваются, выявляются «общие», а также уникальные знамена.

Перевод песнопения в новый формат

Каждая ячейка таблицы разбирается на элементы следующей структуры:

1) N: порядковый номер

2) S: символ

3) T: текст

4) St: стиль начертания ( жирный/курсив/обычный)

5) VPom: высотная помета

6) DPom: помета длительности

Программа SemioStatistik

Семантический анализ

Исследователи, которые изучают знаменные песнопения, сталкиваются с проблемой проведения ряда работ, связанных с тем или иным подсчетом частоты встречаемости различных символов (комбинаций символов), выявлением закономерностей и особенностей анализируемого текста. Такой тип работ требует постоянного внимания и занимает большое количество времени. Если данный этап автоматизировать, то исследователи смогут получать более точные результаты за меньшее количество времени и меньшие затраты человеческого труда.

Знаменная нотация является самостоятельным языком. Каждому знамени может соответствовать несколько нот, одно знамя может заменяться группой знамен, а значение знамени зависит от его контекста. Существуют специальные азбуки и учебники, по которым можно научиться делать примерный перевод песнопений в ноты, но данный процесс затрудняет наличие в каждом гласе так называемых ‘попевкок’- комбинаций знамен, в которых каждое знамя меняет свое значение, описанное в азбуке. Сложность заключается в том, что точный список этих ‘попевок’ неизвестен. Программа Semantic_Statistik автоматизирует процесс анализа песнопений и позволяет выявлять закономерности такого рода.

Представление знамен в программе

Каждому знамени сопоставляется определенный код (1, 2, …). Это делается исходя их следующих соображений:

1) Для корректного отображения знамен необходим специальный шрифт, иначе пользователь будет видеть латинские и русские буквы и невозможно будет отличить ‘А’ от ‘A’, ‘с’ от ‘c’ и т.д.

2) В том случае, если шрифт установлен, неподготовленному пользователю трудно ориентироваться в графических изображениях.

3) Более простое программное решение.

Возможность просматривать результаты работы программы с помощью шрифтов также реализована.

Построение таблицы 'Формула гласа’

Под ‘формулой гласа’ понимается закономерность следования знамен друг за другом. На рисунке 1 представлен фрагмент, построенный программой по первому гласу Октоиха (первая часть [Круг,1884-1885]).

В этой таблице показано какое знамя с каким сочетается. Например, для столбца, которому соответствует знамя с кодом 76, цифра 66 в третьей строке обозначает, что после этого знамени 66 раз встречается это же знамя, а знамя с кодом 77 (четвертая строка) встречается 5 раз. Нажав на ячейку с цифрой, можно посмотреть в каком контексте сочетаются эти знамена (они выделены красным цветом).

В верхней части формы ‘Формула гласа’ выводится информация о количестве различных знамен и количестве встретившихся сочетаний, список можно посмотреть нажав кнопку «конкордансы». Слева выводится конкорданс (сочетание знамен по 2), а справа ￚ его частота.

Таблицы можно сохранить в формате *.xls. В этом случае знамена будут представлены в своем исходном виде.

Разметка песнопения

Пользователь может задать определенные правила разметки гласа. Можно создавать группы знамен, которые будут выделяться в тексте другим цветом шрифта или фона.

Например, ввести список знамен с которых обычно начинаются, заканчиваются ‘попевки’, список уже известных ‘попевок’, какие-либо характерные знамена или слова.

Сравнение двух гласов

На этой форме показываются какие общие сочетания знамен у выбранных гласов, какие общие знамена, а какие характерны только для этого гласа.

Визуализация с помощью семантических сетей

Автор: Ирина Даньшина на 11:26 . среда, 20 октября 2010 г.

0 коммент.

Ярлыки: Визуализация, Семантические сети

Семантические сети - графические схемы с узлами, соединенными дугами. Узлы (вершины сети) представляют некоторые понятия (объекты, события, явления), а дуги – отношения между ними.
Формально сеть можно задать в следующем виде: H=(I,C,G), где:

I – множество информационных единиц;

C – множество типов связей между информационными единицами;

G – отображение, задающее конкретные отношения из имеющихся типов C между элементами I.

Семантическая сеть как модель наиболее часто используется для представления декларативных знаний. С помощью этой модели реализуются такие свойства системы знаний, как интерпретируемость и связность, в том числе по отношениям IS-A и PART-OF. За счет этих свойств семантическая сеть позволяет снизить объем хранимых данных, обеспечивает вывод умозаключений по ассоциативным связям.

Как правило, различают экстенсиональные и интенсиональные семантические сети. Экстенсиональная семантическая сеть описывает конкретные отношения данной ситуации. Интенсиональная – имена классов объектов, а не индивидуальные имена объектов. Связи в интенсиональной сети отражают те отношения, которые всегда присущи объектам данного класса.

Характерной особенностью некоторых семантических моделей является интегрированное описание процедурной семантики и статической семантики – допустимые операции над объектами определяются совместно с определением структур данных.

Наряду с достоинствами семантические модели обладают некоторыми недостатками. В семантических сетях нет специальных средств, позволяющих определить временные зависимости, поэтому временные значения и события трактуются как обычные понятия. Произвольная структура и различные типы вершин и связей усложняют процедуру обработки информации. Стремление устранить эти недостатки послужило причиной появления особых типов семантических сетей: синтагматические цепи, сценарии, фреймы и т.п.

Что нужно сделать:

1. Выделить объекты предметной области

2. Определить отношения между объектами

Наиболее широко используемые семантические отношения имеют сходство со списком категорий, например, с 10-ю знаменитыми аристотелевыми категориями: cодержание, количество, качество, отношение, где (место), когда (время), находящийся в положении (позиция), имеющий (состояние), делающий (действие), подвергнутый.

3. Провести исследование по выявлению программ, с помощью которых можно построить семантические сети, выделить их достоинства и недостатки.

4. Решить, есть ли необходимость разработать собственную программу визуализации.

Ссылки:

http://www.aiportal.ru/articles/knowledge-models/semantic-network.html

http://book.itep.ru/10/sem_net.htm

http://www.wikiznanie.ru/ru-wz/index.php/Семантическая_сеть

http://www.lnup.ru/development/semanticnet/

Как можно визуализировать семантическую информацию?

Автор: Ирина Даньшина на 13:15 . вторник, 19 октября 2010 г.

0 коммент.

Ярлыки: Визуализация

1. Семантические сети

2. Сводные таблицы

3. Нотация DATR (язык для представления лексических знаний - ( http://www.ccl.kuleuven.be/LKR/html/datr.html )

4. RDF - нотация для представления отношений между объектами ( http://ru.wikipedia.org/wiki/Resource_Description_Framework )

5. Темпоральная логика (?)

6. Что-то еще?

Интересные ссылки:

http://groups.csail.mit.edu/medg/ftp/psz/k-rep.html

http://ittc.ksu.ru/vol000/002/networks.htm

Методы визуализации полученной информации. Необходимость исследования.

Автор: Ирина Даньшина на 12:11 .

0 коммент.

Ярлыки: Визуализация

Сейчас результаты работы программы представляются в виде таблиц: какое знамя за каким следует, с какой частотой, в каком контексте. Это удобно если надо посмотреть информацию по нескольким отдельным знаменам, но просмотр общей "картины" по-прежнему затруднен. Необходимо провести исследование чтобы выявить наиболее эффективные способы наглядного представления информации.

Тематика блога

Автор: Ирина Даньшина на 09:40 . понедельник, 18 октября 2010 г.

0 коммент.

Ярлыки: Тематика

Данный блог отражает работу по проекту «Компьютерная семиография» в области семантического анализа. Цель проекта — расшифровка знаменных песнопений XII-XV века с использованием современных методов обработки информации. Эти методы затрагивают в основном этапы ввода информации и ее анализа.

Исследователи часто сталкиваются с проблемой проведения ряда работ, связанных с тем или иным подсчетом частоты встречаемости различных символов (комбинаций символов), выявлением закономерностей и особенностей анализируемого текста. Такой тип работ требует постоянного внимания и занимает большое количество времени. Если данный этап автоматизировать, то исследователи смогут получать более точные результаты за меньшее количество времени и меньшие затраты человеческого труда.

Знаменная нотация является самостоятельным языком. Каждому знамени может соответствовать несколько нот, одно знамя может заменяться группой знамен, а значение знамени зависит от его контекста. Существуют специальные азбуки и учебники, по которым можно научиться делать примерный перевод песнопений в ноты, но данный процесс затрудняет наличие в каждом гласе так называемых ‘попевкок’- комбинаций знамен, в которых каждое знамя меняет свое значение, описанное в азбуке. Сложность заключается в том, что точный список этих ‘попевок’ неизвестен. Мною разрабатывается программа Semantic_Statistik, которая автоматизирует процесс анализа песнопений и позволяет выявлять закономерности такого рода. В данном блоге будут представляться возможности программы.

Семантический анализ

Изучение DATR

Визуализация с помощью сводных таблиц

Обзор программ SemioStatistik и Semantic_Statistik

Визуализация с помощью семантических сетей

Как можно визуализировать семантическую информацию?

Методы визуализации полученной информации. Необходимость исследования.

Тематика блога

Обо мне

Labels

Blog Archive