6 лекции + 26 практикум + 8 кср




Скачать 46.86 Kb.
PDF просмотр
Название6 лекции + 26 практикум + 8 кср
Дата конвертации05.01.2013
Размер46.86 Kb.
ТипЛекции
Информационные 
технологии 
в химии 
Александр Антонович 
Рагойша 
Кафедра общей химии и методики 
преподавания химии
к. 501-а

Химия (научно-производственная деятельность)
 Химия (научно-педагогическая деятельность)
• 1-й семестр: 50 часов
(10 лекции + 32 практикум + 8 КСР)
Зачет
• 2-й семестр: 40 часов
(6 лекции + 26 практикум + 8 КСР)
Экзамен

ОСНОВНАЯ ЛИТЕРАТУРА 

А. А. Рагойша. Поиск химической информации в Интернете. 
Поисковые системы и тематические каталоги: Учеб. пособие 
для студентов хим. фак. – Мн.: БГУ, 2003.

А. А. Рагойша. Поиск химической информации в Интернете: 
научные публикации : учеб. пособие для студентов хим. фак. 
спец. 1-31 05 01. – Мн.: БГУ, 2007.

В. М. Потапов, Э. К. Кочетова. Химическая информация. Где и 
как искать химику нужные сведения. – М.: Химия, 1988.

А. А. Рагойша. Азбука веб-поиска для химиков. – Минск, БГУ, 
1999-2012. http://www.abc.chemistry.bsu.by.


http://www.abc.chemistry.bsu.by 

РЕКОМЕНДУЕМАЯ   ЛИТЕРАТУРА
(2 семестр) 

Chemoinformatics: A Textbook. Edited by Johann Gasteiger and 
Thomas Engel. – Wiley-VCH, 2003.

B. A. Bunin, B. Siesel, G. A. Morales, J. Bajorath. 
Chemoinformatics: Theory, Practice, & Products. – Springer, 
2007. 

ДОПОЛНИТЕЛЬНАЯ  ЛИТЕРАТУРА 

Рагойша, А. А. Текстовый поиск научной химической 
информации в Интернете — Мн.: БГУ, 2012. 
http://elib.bsu.by/handle/123456789/14599

Andrew R. Leach, Valerie J. Gil et. An Introduction to 
Chemoinformatics. – Springer, 2007.

Е. А. Устинова. Формулы изобретения на химические 
объекты. – М.:  ИНФРА-М, 1997.

Руководства пользователя к прикладным программам.

И. Г. Захарова. Информационные технологии в 
образовании: учеб. пособие для студ. высш. учеб. 
заведений. М.: Академия, 2005.             --- (науч.-пед.) ---



История
• Paul Baran
(1926 г., Гродно, - 2011)
1960-е гг.: распределенная 
компьютерная сеть, пакеты данных
• Tim Berners-Lee
1989 г.: гипертекст + протокол TCP + 
система доменных имен = 
= World Wide Web; 
браузер, веб-сервер, W3C

1. Терминология

WWW
• Интернет 
— (inter — меж- + net — сеть) — 
сеть, объединяющая много компьютерных сетей. 
• World Wide Web 
(WWW, Web, W3, Всемирная паутина, веб) — 
система взаимосвязанных между собой документов, 
доступных через Интернет.
    Документ — любой целостный автономный 
информационный массив, не только текстовый, но и, 
например, видео-, аудио- и т. д.


Гипертекст
• Протокол — набор правил. 
• HTTP (Hypertext Transfer Protocol) 
 — протокол передачи гипертекста.
• Гипертекст — «текст ветвящийся 
или выполняющий действия по 
запросу» (Тед Нельсон, 1965). 
• Гиперссылка (ссылка, link) – 
часть гипертекстового документа, 
указывающая на другую часть этого 
документа или на другой документ. 

Домен
• IP-адрес  —
числовой идентификатор компьютера(ов) в сети.
Пример: 
217.21.43.222 
• Доменное имя — 
буквенно-числовой идентификатор узлов сети и 
ресурсов, расположенных на узлах. 
Иерархическая структура
Примеры:  www.abc.chemistry.bsu.by 
www.cam.ac.uk 
www.google.com 

Домен верхнего уровня
• Общий домен верхнего уровня
без регистрационных ограничений 
com, net, org, info
с ограничениями («спонсируемые»)
gov, int, mil, edu, museum, biz, ...
• Национальный домен верхнего уровня
by, uk, ru, de, ..., eu
tv, fm, la
 (... и за пределами страны) 
рф

Структура
• Сайт  (веб-сайт, website, ...) —
информационный массив, находящийся на сервере и 
доступный внешним пользователям.
Единый стиль
Структура может быть иерархичной
• Веб-страница (страница, webpage, page) — 
документ, который можно получить в ходе одного 
обращения к серверу. 
Веб-страницы: статические, динамические

Адрес
•  Адрес (URL, Uniform Resource Locator) -
стандартизированный указатель местонахождения 
информации и способа ее получения. 
http://www.abc.chemistry.bsu.by/current/bdu.htm
http://www.bl.uk/eresources/jnls/ejournals.html#free
http://www.bsu.by/ru/main.aspx?guid=4681
http://scout-unimib.cilea.it/links/SPT--Ful Record.php?
ResourceId=491&PHPSESSID=d666f9f88fe19ef1
http://ru.wikipedia.org/wiki/%D0%91%D0%93%D0%A3
(http://ru.wikipedia.org/wiki/БГУ)
ftp://ftp.netscape.com/robots.txt 

Сайт 
• Главная страница (Первая, Home Page, 
Main Page, …) — 
титульная веб-страница информационного массива.
страница по умолчанию (default page)
     www.abc.chemistry.bsu.by
http://www.abc.chemistry.bsu.by/
http://www.abc.chemistry.bsu.by/default.htm
    http://www.12345.org/
default.htm 
index.htm
default.html 
index.html 
index.php

Исчезла страница?  
   www.1abc.2def.org/mmm/nnn/ppp.htm?id=222
www.1abc.2def.org/mmm/nnn/ppp.htm
   www.1abc.2def.org/mmm/nnn/
www.1abc.2def.org/mmm/
   www.1abc.2def.org/
www.2def.org/
1abc.2def.org/

Поисковая система   
 (Search engine)
• робот (паук)
• индекс (база данных)
• поисковая программа, веб-интерфейс
Универсальные поисковые системы: 
Google, Yahoo!, Bing, Яндекс, …
Специализированные (вертикальный поиск) 


Тематический каталог
Каталог (Directory)
Раздел (Category) 

Еще указатели веб-ресурсов:  
• Метапоисковая система 
использует индексы нескольких иных поисковых 
систем
• Специализированная база данных
(робот отсутствует)
• Метасайт -
небольшой по объему сборник ссылок на веб-
страницы 
• Портал - 
многопрофильный сайт, предлагающий  широкий 
спектр информационных услуг 


Видимый веб
http://www.worldwidewebsize.com/
10-50 млрд. страниц (2012 г.)

Скрытый веб    
Скрытый веб (глубокий, невидимый, темный) 
-онлайновые ресурсы, не попавшие в индексы 
универсальных поисковых систем.
• Информация в базах данных
• Защищенная паролями и т.п.
• Запрещенная к индексированию владельцами
• Страницы, формируемые динамически
• Информация в нетекстовых файлах
• (Свежая, поэтому еще не проиндексированная) 
 
Скрытого в сотни раз больше, чем видимого

Web 2.0, Web 3.0   
• (Web 1.0) — условный термин; 
       “автор пишет, читатель читает”
• Web 2.0 — интерактивные сайты, где пользователи 
изменяют содержание; социальные сети; вики; блоги; 
онлайновые прикладные программы.
• Web 3.0 — предполагаемая следующая стадия 
развития, включающая «семантический веб» 
Семантический веб будет основан на 
компьютеризованном распознавании смысла 
информации в документах. 

Browse — Search    
Два метода работы с онлайновыми ресурсами:
• Browse (перелистывание) — 
движение по ссылкам.
• Search (поиск) — 
целенаправленное извлечение с помощью программы.
Браузер (browser) — прикладная программа, 
предназначенная для работы с веб-ресурсами.
MS Internet Explorer (Обозреватель), 
Mozil a Firefox

Opera, 
Google Chrome

О достоверности информации 
Традиционная vs. онлайновая  
• Печатная литература 
автор известен
контроль со стороны издателя
• Научная литература
система рецензирования (peer review)
• Веб-источники
анонимность, отсутствие контроля – почти норма
Достоверность информации лежит в широких пределах: 
от объективной - до субъективной,
от полностью достоверной  - до ложной 
     и до намеренно сфальсифицированной 

Оценка ресурса 
   В основе оценки онлайнового источника 
лежат известные критерии оценки 
печатных источников:  
Репутация автора; 
Контроль качества;
Объективность изложения;
Актуальность;
Охват.

Плюс веб-специфика: 
• Рекламные блоки могут казаться частью документа.
• Отсканированный и оптически распознанный 
текстовый материал редко выверяется корректорами. 
• Содержание веб-страницы может быть изменено 
несанкционированно 
(атака хакера, прихоть администратора).
• Проблемы авторства особенно остро проявляются в 
форумах и блогах.

Стиль 
Лингвистика
Явные признаки низкокачественного ресурса:
• Обилие опечаток и грамматических ошибок.
• Развязный стиль изложения. 
Дизайн
Эксперт тщательно оценивает содержание, 
а обычный потребитель больше доверяет 
внешнему виду страницы. 

Формальный анализ URL 
Доменное имя
достоверность выше:
.gov .edu
.ac.uk .
ac.jp
достоверность ниже:
narod.ru
Папки 
повысить бдительность:
 ~... 
private, 
members 

Предпочтительны
Сайты: 
• университетов, 
• научных обществ, 
• научных издательств,
• официальных патентных бюро,
• авторитетных коммерческих организаций, 
• персональные сайты ученых.  

Желательно:
• иметь свою голову, 
• включать при работе свой мозг,
• извлекать информацию
из авторитетных источников,
• стремиться работать
с первоисточниками. 

Текстовые   базы данных
• База данных (database) - 
упорядоченный информационный массив, 
состоящий из стандартных блоков.
Классификация по типу содержимого: 
текстовые, 
числовые, 
формульные, 
...


Структура базы данных
(с точки зрения пользователя) 
• Запись (record) - 
стандартный
блок информации
• Поле (field) -
смысловой
фрагмент
записи
   Поля:
текстовые,
числовые
и др.
Запись в каталоге библиотеки

 
• Поисковая программа 
(search and retrieval software)
имеет страницу с поисковым бланком, 
предназначенным для формулирования 
запроса
• Запрос (query) -
поисковое задание, содержащее поисковые термины
и инструкцию по их интерпретации программой



Пример з  
апроса:
натрий
Заполняем 
поисковый бланк:
Поисковая программа ищет в своей базе данных те 
записи, в которых присутствует слово     натрий
Список 
обнаруженных 
записей 
выводится на 
экран
Поиск - не по смыслу, а по факту наличия термина!

Синтаксис запроса 
в текстовых базах данных

Нет стандартного синтаксиса запроса. 
У каждой программы свои правила.
Иногда правила совпадают
 (но необязательно, что полностью).
Бывает, что некоторые элементы 
разными поисковыми программами 
воспринимаются с точностью до наоборот.

Логические (Булевы) операторы  
• AND
& , ...
натрий AND калий
варианты 
• OR
|   , ...
обозначений
натрий OR калий
• NOT
- , (andnot, and not, but not)
натрий NOT калий 
Оператор по умолчанию (default operator)
Пример: Обе записи равнозначны, если  AND – по умолчанию:
натрий AND калий
натрий калий

Порядок выполнения операций  
• Сначала: NOT и AND, затем: OR
• Если нужно, порядок меняют круглыми скобками 
Пример:
    Найти записи, в которых: 
    обязательно присутствует натрий или калий и
    обязательно присутствует фосфат или силикат
Правильно:
(натрий OR калий) AND (фосфат OR силикат)
Неправильно:
натрий OR калий AND фосфат OR силикат

Операторы расстояния - 1 
• Кавычки
 Пример:  "фосфат натрия"
два алгоритма:
фраза из 2 слов   или
строка из 13 символов
 "фосфат_натрия"   ≠   "фосфат_ _натрия"
(символом подчеркивания обозначен пробел)

Операторы расстояния - 2 
• WITH/n  ,   NEAR/n        (W/n, N/n, WITH, ...)
 
Пример: 
ааа WITH/3 ббб
ааа ббб
    (1)
     извлекаются
ааа ввв ббб
    (2)
ааа ввв ггг ббб
    (3)
не извлекаются
ааа ввв ггг ддд ббб    (4)
Пример: 
ааа W/1 ббб
извлекается 
ааа ббб
не извлекается     
ббб ааа 
ааа N/1 ббб 
 
извлекаются 
ааа ббб
 
ббб ааа 

Шаблон - 1
*   ("звездочка")  
заменяет любое число символов ( в т. ч. нулевое)
Примеры: 
фосфат*
фосфат, фосфатами,   фосфатирование, ...
хлор*
 хлор, хлорид, ...                   но:    
хлорофилл
         *фосфат
фосфат, дифосфат, полифосфат, ...
Wildcard. Truncation (right-hand, left-hand) - Усечение

Шаблон - 2 
?   (вопросительный знак),      # (решетка)
 заменяет один символ
Пример: 
бут?н
бутан,  бутен,  бутин, 
бутон
Как правило:
При шаблоне оставлять не менее трех букв.
Не использовать шаблон внутри кавычек.
Шаблон увеличивает количество 
информационного мусора в результатах поиска

Stemming 
• Stemming –
режим работы поисковой программы, при котором 
происходит учет грамматических форм терминов
(учет морфологии, учет словоформ)
Пример: 
фосфат
фосфат, фосфатами, фосфатный, ... (полифосфат - ?)
Пример: 
write
write, writes, writing, wrote
Не проводить stemming:
"фосфатами"

Пример:   Ткип(СН4) = ? 
Варианты в тексте:
... температура кипения метана ...
... Метан. Температура кипения: ...
 ... с метаном, характеризующимся 
                следующей температурой кипения ...
Варианты в запросе:
• stemming отсутствует  
"температура кипения метана"
температур*    кипения    метан*
W/1
N/4
• stemming включен  
температура  "кипения"   метана

Стоп- слова 
• Стоп-слова (stopwords) -  
слова, которые при поиске не учитываются.
Это слова, не несущие самостоятельной 
смысловой нагрузки, но особенно часто 
встречающиеся в тексте: 
предлоги, союзы, артикли и т. п.
Пример: 
 The Analyst
Включить стоп-слово в поиск:
"The Analyst"

Регистр букв 
• Абсолютное большинство поисковых программ 
нечувствительно к регистру букв – для них 
строчные и заглавные буквы в запросе 
равнозначны.
Пример: 
фосфат AND силикат
фосфат and силикат
фОсФаТ aNd СиЛиКаТ

годится любой вариант

Указание поля поиска 
• Поиск можно сделать более эффективным, если 
проводить его не по записям в целом, а только по 
избранным полям.
Для этого в запросе рядом с поисковым термином 
указывают код соответствующего поля.
Коды полей в разных базах данных – разные.
Примеры: 
in/black and ttl/phosphate
in/black and phosphate
фосфат filetype:pdf




Поисковый бланк - 1
•   Простейший, Basic, Quick, Simple
•   Расширенный, Advanced, Expert
Классификация условна – в рамках определенной 
базы данных.
Обычно такие бланки
называют Quick Search


Поисковый бланк - 2
Пример бланка  Quick Search:
Поиск по двум разным полям; использование 
булевых операторов; выбор временного интервала.


Поисковый бланк - 3
Пример бланка  Advanced Search:

Элементы бланка 
• Графа бланка 
(редактируемая графа, редактируемое поле).
• Список.
• Меню (выпадающий список).
• Переключатель.
• Выключатель.
• Текстовые пояснения.
• Ссылка на иной бланк.
• Ссылка на блок инструкций.
• Кнопка начала поиска.



Список результатов поиска 
Пользователь получает результаты поиска в форме 
списка обнаруженных документов.
Список может быть сформирован:
-   по алфавиту,
-   в хронологическом порядке 
(прямом или обратном),
-   по релевантности.

Релевантность
Релевантность документа – 
степень соответствия его поисковому заданию.
При расчете релевантности учитываются:
• количество поисковых терминов в документе, 
• расстояние между ними в тексте,
• число упоминаний каждого из них,
• их плотность,
• их порядок расположения,
• их место – в начале записи или в конце,
• и др. 

Особенности работы поисковых систем 
Предназначены для широкой публики
      Упростить взаимодействие с системой
Синтаксис упрощен (особенно внешне)
Нечеткость запроса (и это обоснованно
 
Избыточность извлекаемой информации
Огромный список результатов поиска 
Главное – не величина списка, а качество сортировки

Релевантность - 2
Расчет ранга веб-страницы – т.е. ее авторитетности
Сколько ссылок с других страниц на данную?
Каков ранг ссылающихся страниц?
Расчет релевантности:
         Вклад 1: поисковые термины на странице
+
         Вклад 2: ранг страницы
       
  Релевантность страницы в списке результатов поиска




PageRank
• PageRank – алгоритм 
поисковой системы Google, 
приписывающий численный 
вес каждому элементу 
гипертекстового массива.
    (Детали не разглашаются)
http://en.wikipedia.org/wiki/Pagerank

Визуализация в 
логарифмической 
шкале 
от 0/10 до 10/10

(Google Toolbar)


Бланки 
• Простейший – Усложненный
Простейший – одна графа
• На простейшем бланке:
предполагается, что запрос – 
перечень слов, разделенных пробелами
• Оператор по умолчанию:
AND – чаще всего
OR   – редко

Логические операторы 
• Операторы отображать ЗАГЛАВНЫМИ буквами
          (если строчными – стоп-слово)
• AND, + , & 
натрий AND калий
 Обычно достаточно
натрий & калий 
   натрий калий 
 
натрий +калий 
 
• OR,   |   , ...
натрий OR калий
натрий | калий
без 
• NOT, - 
пробела!
натрий NOT калий 
натрий -калий

 Регистр букв
• Нечувствительны к регистру -
большинство 
• Частичная чувствительность –
иногда 
Пример – Яндекс
• при запросе 
азот
извлекаются все документы
• при запросе 
!Азот
извлекаются документы со словом азот
начинающимся с Заглавной буквы

 Поиск по полям документов
• Возможен, но полезность ограниченна
основная часть информации на веб-странице 
находится в одном самом большом поле
• Синтаксис у разных систем - разный
Пример: 
найти документы, содержащие слово 
фосфат в своем названии
     Запрос:
allintitle:фосфат  Google 
title [фосфат] 
Яндекс 



Google: поиск по полям - 1
• intitle:БГУ
• intitle:БГУ химфак
 
• intitle:БГУ intitle:химфак
allintitle:БГУ химфак


Google: поиск по полям - 2
• site:bsu.by
• site:bsu.by кислород


Google: поиск по полям - 3
• filetype:pdf                       ext:pdf 
            filetype:pdf intitle:БГУ химический факультет



Google: поиск по полям - 4
• inurl:bsu.by
inurl:bsu inurl:chemistry

Усложненный бланк 
+
• Несколько граф
• Выключатели, переключатели и т. д. 
для назначения параметров поиска
• Наглядность при формулировании заданий 
средней и выше чем средней сложности
-
• На усложненном бланке можно реализовать 
не все синтаксические возможности данной 
поисковой программы


Google
www.google.com/advanced_search


Google
www.google.com/advanced_search


yandex.ru/search/advanced

Document Outline

  • Slide 1
  • Slide 2
  • Slide 3
  • Slide 4
  • Slide 5
  • Slide 6
  • Slide 7
  • Slide 8
  • Slide 9
  • Slide 10
  • Slide 11
  • Slide 12
  • Slide 13
  • Slide 14
  • Slide 15
  • Slide 16
  • Slide 17
  • Slide 18
  • Slide 19
  • Slide 20
  • Slide 21
  • Slide 22
  • Slide 23
  • Slide 24
  • Slide 25
  • Slide 26
  • Slide 27
  • Slide 28
  • Slide 29
  • Slide 30
  • Slide 31
  • Slide 32
  • Slide 33
  • Slide 34
  • Slide 35
  • Slide 36
  • Slide 37
  • Slide 38
  • Slide 39
  • Slide 40
  • Slide 41
  • Slide 42
  • Slide 43
  • Slide 44
  • Slide 45
  • Slide 46
  • Slide 47
  • Slide 48
  • Slide 49
  • Slide 50
  • Slide 51
  • Slide 52
  • Slide 53
  • Slide 54
  • Slide 55
  • Slide 56
  • Slide 57
  • Slide 58
  • Slide 59
  • Slide 60
  • Slide 61
  • Slide 62
  • Slide 63
  • Slide 64
  • Slide 65
  • Slide 66
  • Slide 67
  • Slide 68
  • Slide 69


Похожие:

6 лекции + 26 практикум + 8 кср icon6 лекции + 26 практикум + 8 кср
Поисковые системы и тематические каталоги: Учеб. пособие  для студентов хим. фак. - Мн.: Бгу, 2003
6 лекции + 26 практикум + 8 кср iconПрактикум № Обработка текстовой информации
Данный практикум познакомит Вас с двумя текстовыми редакторами, их возможностями, особенностями их использования. Практикум покажет...
6 лекции + 26 практикум + 8 кср iconЛекции 1,2,3  - Панарина Л. В.   Лекция 4 - Пронина С. И.   Лекции  5, 6 - Костина Т. Н.   Лекции 7, 8 - Смирнова Ю. Л  Лекция 9 - Васильева Н.
Консорциум  женских  неправительственных  объединений  благодарит  за  финансовую 
6 лекции + 26 практикум + 8 кср iconРоль лекций в развитии познавательной деятельности учащихся
В настоящее время учитель обращает внимание на такие методы и организационные формы обучения, как лекционные занятия. Лекции в зависимости...
6 лекции + 26 практикум + 8 кср iconЛекции историка,  редактора журнала Україна Модерна
Мы публикуем расшифровку лекции историка,  редактора журнала "Україна Модерна" Андрея Портнова, которая состоялась 23 июня 2010 года...
6 лекции + 26 практикум + 8 кср iconСеминар-практикум с элементами лекции. Ход собрания
Задачи: способствовать просвещению родителей учащихся по данной проблеме; оказание помощи родителям в общении с подростком; побудить...
6 лекции + 26 практикум + 8 кср icon• Лекции и семинары: 1 семинар через каждые 3 лекции 

6 лекции + 26 практикум + 8 кср iconЛекции 1-4 Москва Педагогический университет «Первое сентября»
Материалы курса «Использование игр на уроках биологии»: лекции 1 – М.: Педаго
6 лекции + 26 практикум + 8 кср iconЛекции 1-4 Москва Педагогический университет «Первое сентября»
Материалы курса «Информационная культура и/или компьютер на уроке биологии»: лекции 
6 лекции + 26 практикум + 8 кср iconПоликарпов В. С. Лекции по культурологии
Лекции по культурологии. — М.: «Гардарика», «Экспертное бюро», 1997. 344 с. 18В^ 5-7357-0139-8
Разместите кнопку на своём сайте:
kak.znate.ru


База данных защищена авторским правом ©kak.znate.ru 2012
обратиться к администрации
KakZnate
Главная страница