ФЕДЕРАЛЬНОЕ АГЕНСТВО ПО КУЛЬТУРЕ И КИНЕМАТОГРАФИИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ КУЛЬТУРЫ И ИСКУССТВ

Курсовая работа

по информатике

на тему:

Полнота и точность поиска музыкальных публикаций

Работу выполнила

студентка 4-го курса

факультета Музыки

группы № 000

Работу проверил
преподаватель

Москва 2012

Введение

Целью данной работы является оценка эффективности поисковых стратегий в информационно-поисковых системах (ИПС). Для того чтобы оценить эффективность поиска необходимой информации в Интернете, я выбрала для сравнения две распространенные информационно-поисковые системы:

1. Яндекс (http://*****/) (русская ИПС)

2. Google (http://www. ***** )(зарубежная ИПС)

В каждой поисковой системе я сделала запрос: обработка информации органами чувств. И подряд просмотрела по 40 ссылок, попутно отмечая их полезность (повторные ссылки в одной системе расценивались как бесполезные). Затем, высчитала общий процент полезных ссылок по каждому поисковику, что позволило выявить наиболее эффективную информационно-поисковую систему

Информационно-поисковая система GOOGLE


«Google» - самая популярная поисковая система в Интернете. Она обеспечивает поиск по гипертекстовым документам находящихся в любых языковых зонах - английской, русской, украинской, немецкой и др. Поисковая система Google имеет собственные поддомены для большинства стран, например, для России - www. ***** (им я и воспользовалась для своего исследования). Это одна из самых больших поисковых баз в мире.

НЕ нашли? Не то? Что вы ищете?

Также как и в Апорте, я послала запрос: обработка информации органами чувств. На первой странице мне выдали 10 ссылок из примерно 86 400, я просмотрела 40:

ССЫЛКИ

Полезность/Бесполезность (П/Б)

1. http://*****/users/admin/Lect-IPS-01.htm

П

2. http://www. /n/issledovanie-metodov-i-razrabotka-sredstv-povysheniya-tochnosti-i-polnoty-poiska-v-seti-internet

П

3 http://*****/index/0-19

П

4. http://www. *****/index. phtml? page=elbib/rus/journal/2006/part1/AKS

Б

5. http://rudocs. /docs/index-56832.html? page=8

Б

6. http://www. *****/text/y_info6.php

П

7. http://ru. wikipedia. org/wiki/%D0%92%D0%B8%D0%BA%D0%B8%D0%BF%D0%B5%D0%B4%D0%B8%D1%8F:%D0%98%D0%B7%D0%B1%D1%80%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5_%D1%81%D1%82%D0%B0%D1%82%D1%8C%D0%B8

Б

8. http://ru. wikipedia. org/wiki/%D0%92%D0%B8%D0%BA%D0%B8%D0%BF%D0%B5%D0%B4%D0%B8%D1%8F:%D0%A5%D0%BE%D1%80%D0%BE%D1%88%D0%B8%D0%B5_%D1%81%D1%82%D0%B0%D1%82%D1%8C%D0%B8

Б

9. http://*****/?p=23

Б

10. http://library. *****/icb2/glav2.html

П

11. http://www. /n/biometricheskiy-poisk-informatsii-v-baze-dannyh-izobrazheniy-osnovannyy-na-stohasticheskoy-geometrii

Б

12. http://www. pravo. vuzlib. org/book_z755_page_5.html

Б

13. http://www. *****/articles/004508.html

П

14. http://*****/ru/pages/proj/09/

П

15. http://*****/articles/21905.html

Б

16. http://www. *****/

Б

17. http://school. *****/doc. asp? ob_no=39562

Б

18. http://evartist. *****/text14/63.htm

П

19. http://www. web-masteru. info/jandeks-uluchshil-semejjnyjj-poisk-.html

Б

20 http://www. web-masteru. info/jandeks-uluchshil-semejjnyjj-poisk-.html

Б

21. http://*****/database/articles/kw_extraction/2.shtml

Б

22. http://www. **/open/multimedia/mult1.htm

П

23. http://*****/docs/10/9103/conv_10/file10.pdf

П

24. http://laleshin. *****/pto/T-1-2.pdf

Б

25. http://www. /msucsai/ss

П

26. http://*****/%D0%9A%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D0%B0%D1%8F_%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0

Б

27. http://www. *****/url? sa=t&rct=j&q=%D0%BF%D0%BE%D0%BB%D0%BD%D0%BE%D1%82%D0%B0%20%D0%B8%20%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C%20%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%B0%20%D0%BC%D1%83%D0%B7%D1%8B%D0%BA%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85%20%D0%BF%D1%83%D0%B1%D0%BB%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D0%B9&source=web&cd=42&ved=0CDIQFjABOCg&url=http%3A%2F%2Fvp-zakharov. *****%2FVictorZakharov_InfSistemy_UchebPosob. doc&ei=QrDJUMDJFezb4QSAiYGoDg&usg=AFQjCNF5LCKoJANWcGAWOnDkWP8ZcMXzqg&bvm=bv.,d. bGE&cad=rjt

Б

28. http://nii. *****/index. php? option=com_content&view=article&id=128%3A&catid=14&Itemid=102

Б

29. http://www. *****/modules/internet/index_02.htm

Б

30. http://*****/instruction-murco. html

Б

31. http://ustudar. *****/index. php? option=com_content&view=article&id=31&Itemid=42

Б

32. http://do. *****/docs/index-13208.html? page=7

Б

33. http://volodarka. org/tehnicheskie-voprosy/rules. html

Б

34. http://do. *****/docs/index-13208.html? page=7

П

35. http://nii. *****/index. php? option=com_content&view=article&id=128%3A&catid=14&Itemid=102

Б

36. http://works. *****/69/100308/index. html

Б

37. http://www. /about_rubricon. asp? pid=2

Б

38. http://*****/articles/603240/

Б

39. http://web-masteru. info/jandeks-razreshil-ukraincam-slushat-muzyku. html

Б

40. http://referat. *****/ref-10152.shtml

П

В результате исследования выяснилось, что всего 13 полезных ссылок, из которых на первую страницу приходится - 7, на вторую – 2, на третью – 2 и соответственно на четвёртую - 1.

Информационно-поисковая система «Яндекс».

Поисковая система «Яндекс» — российская ИТ- компания, владеющая одноимённой системой поиска в Сети и интернет-порталом. Поисковая система «Яндекс» является седьмой среди крупнейших поисковых сайтов мира по количеству обработанных поисковых запросов, является одной из популярных поисковых машин российского Интернета. «Яндекс» позволяет осуществлять полнотекстовый поиск документов. Поисковая система построена на основании новейших достижений в области информационного поиска и использует уникальные алгоритмы сортировки найденных результатов.

По моему запросу: обработка информации органами чувств – в этой системе всего был найден 2 миллиона ответов, по 10 ссылок на каждой странице. Я просмотрела первые 40 ссылок:

ССЫЛКИ

Полезность/Бесполезность (П/Б)

1. http://www. *****/%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C+%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%B0+%D0%B8+%D0%BF%D0%BE%D0%BB%D0%BD%D0%BE%D1%82%D0%B0

П

2. http://tsvetkovegor. *****/38.html

Б

3. https://ru. wikipedia. org/wiki/%D0%98%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA

П

4. http://bazhenov. me/blog/2012/07/21/classification-performance-evaluation. html

П

5. http://klinika. *****/src/ebooks/el_sec/2210.html

Б

6. http://ai-center. *****/Airec/index. php/ru/publications? view=publication&task=show&id=172

Б

7. http://www. *****/rus/publication/document10264.phtml

Б

8. http://www. *****/article. asp? ob_no=270

Б

9. http:///metodika-n-xarina-i-ashmanova-dlya-ocenki-relevantnosti. html

П

10. http://revolution. *****/history/_0.html

П

11. http://rudocs. /docs/index-428107.html? page=3

Б

12. http://*****/refs/source/ref-44623.html

П

13. http://lvk. cs. msu. su/~bruzz/articles/thematic_web_retrieval/maksakov_RCDL_full_article. pdf

Б

14. http://*****/info/kulturaliteratura/143669/

П

15. http://www. *****/school/2000/01//

П

16 http://www. /einf/chapter121.htm

П

17. http://*****/lektsii-i/spetsializirovannyie-poiskovyie-informatsionnyie-sistemyi. html

П

18. http://www. *****/url? url=http://ru. wikipedia. org/wiki/%25D0%2598%25D0%25BD%25D1%2581%25D1%2582%25D0%25B8%25D1%2582%25D1%2583%25D1%2582_%25D1%2584%25D0%25B8%25D0%

П

19. http://articles. /article-220.html

П

20. http://*****/tipis/27.htm

П

21. http://*****/topografiya4

Б

22. http://www. *****/text/321597.html

П

23. http://www. *****/best/Ponyatie-dostovernosti-istoricheskogo-istochnika-Polnota-i-tochnost-informatsii-istochnika-ref188659.html

Б

24. http://www. *****/users/admin/Lect-IPS-01.htm

П

25. http://library. *****/node/341

Б

26. http://www. *****/ecostat/Kiril/Library/Book1/Content364/Content364.htm

Б

27. http://urist. *****/Book/Glava12/Glava12.htm

П

28. http://urist. *****/Book/Glava12/Glava12.htmt-i-operativnost-poiska. doc&fmode=envelope&lr=213&mime=doc&l10n=ru&sign=028c1cc1ae1add3eb0cfc1d5e18b8360&keyno=0

Б

29. http://www. *****/slide/141170/

Б

30. http://budetinteresno. *****/karta/104.htm

Б

31. http://sovet. *****/blurb/2009/shemonchuk. pdf

П

32. http://dschwan. *****/Distance/Training/volume10-3.htm

Б

33. http://*****/files/internet/2009/Halabiya. pdf

П

34. http://crashbox. ws/books/literature/4434-.html

П

35. http://www. /bertewor/%D0%98%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BF%D0%BE%D0%B8%D1%81%D0%BA

Б

36. http://*****/product/Arbortext/

Б

37. http://forum. *****/index. php? showtopic=22741

Б

38. http:///398.html

Б

39 http://www. *****/viewtopic. php? t=467

Б

40. http://www. *****/articles/0000024.htm

Б

В результате исследования выяснилось, что всего 18 полезных ссылок, из которых на первую страницу приходится - 5, на вторую – 3, на третью – 3и соответственно на четвёртую - 1.

Сравнительный анализ

Для сравнения двух поисковиков переведём полученные данные в проценты и внесём их в единую таблицу:

 

десятка

Число полезных сайтов в десятке

 

Яндекс

Google

 

1

5

5

 

2

4

3

 

3

3

3

 

4

0

2

Всего полезных сайтов

-

18

13

Процент полезных сайтов в целом

-

31%

29%

Количество полезных сайтов, не выданных другой машиной

-

2

0

Информационный поиск

Информацио́нный по́иск (англ. Information retrieval) — процесс поиска неструктурированной документальной информации, удовлетворяющей информационные потребности и наука об этом поиске.

Термин «информационный поиск» был впервые введён Кельвином Муром в 1948 в его докторской диссертации, опубликован и употребляется в литературе с 1950.

Сначала системы автоматизированного ИП, или информационно-поисковые системы (ИПС), использовались лишь для управления информационным взрывом в научной литературе. Многие университеты и публичные библиотеки стали использовать ИПС для обеспечения доступа к книгам, журналам и другим документам. Широкое распространение ИПС получили с появлением сети Интернет. У русскоязычных пользователей наибольшей популярностью пользуются поисковые системы Google, Яндекс и Рамблер.

Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.

Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление информации.

В общем случае поиск информации состоит из четырех этапов:

    определение (уточнение) информационной потребности и формулировка информационного запроса; определение совокупности возможных держателей информационных массивов (источников); извлечение информации из выявленных информационных массивов; ознакомление с полученной информацией и оценка результатов поиска

Виды поиска

Полнотекстовый поиск — поиск по всему содержимому документа. Пример полнотекстового поиска — любой интернет-поисковик, например www. *****, www. . Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.

Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам — диалог поиска в файловой системе (например, MS Windows).


Поиск изображений — поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения. Так работают поисковые системы: Polar Rose, Picollator и др.

Адресный поиск

Процесс поиска документов по чисто формальным признакам, указанным в запросе.
Для осуществления нужны следующие условия:

Наличие у документа точного адреса Обеспечение строгого порядка расположения документов в запоминающем устройстве или в хранилище системы.

Адресами документов могут выступать адреса веб-серверов и веб-страниц и элементы библиографической записи, и адреса хранения документов в хранилище.

Семантический поиск

Процесс поиска документов по их содержанию.

Условия:

    Перевод содержания документов и запросов с естественного языка на информационно-поисковый язык и составление поисковых образов документа и запроса. Составление поискового описания, в котором указывается дополнительное условие поиска.

Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске — с точки зрения содержания.

При семантическом поиске находится множество документов без указания адресов.

В этом принципиальное отличие каталогов и картотек.

Библиотека — собрание библиографических записей без указания адресов.

Документальный поиск

Процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя.

Два вида документального поиска:

Библиотечный, направленный на нахождение первичных документов. Библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей.

Фактографический поиск

Процесс поиска фактов, соответствующих информационному запросу.
К фактографическим данным относятся сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения.

Различают два вида:

Документально-фактографический, заключается в поиске в документах фрагментов текста, содержащих факты. Фактологический (описание фактов), предполагающий создание новых фактографических описаний в процессе поиска путем логической переработки найденной фактографической информации.

Задачи информационного поиска

Центральная задача ИП — помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь.

Классическая задача ИП, с которой началось развитие этой области, — это поиск документов, удовлетворяющих запросу, в рамках некоторой статической коллекции документов. Но список задач ИП постоянно расширяется и теперь включает:

    Вопросы моделирования; Классификация документов; Фильтрация документов; Кластеризация документов; Проектирование архитектур поисковых систем и пользовательских интерфейсов; Извлечение информации, в частности аннотирования и реферирования документов; Языки запросов и др.

Также, перед движками ИП ставятся некоторые задачи по обработке естественных языков, что включает в себя морфологический анализ, разрешение лексической многозначности и так далее.

Существует много способов оценить насколько хорошо документы, найденные ИПС, соответствуют запросу. К сожалению, понятие степени соответствия запроса, или другими словами релевантности, является субъективным понятием, а степень соответствия зависит от конкретного человека, оценивающего результаты выполнения запроса.

https://ru. wikipedia. org/wiki/

Точность и полнотa

Полнота поиска — это мера того, нашел ли поисковик все нужные веб-страницы, которые есть в Сети. Проще всего вычислить полноту в процентах от всех релевантных запросов страниц. Например, если в Интернете есть 100 тысяч страниц о группе "Ногу свело", а поисковик нашел лишь 65 тысяч из них, "не заметив" остальных по тем или иным причинам, то полнота будет равна 65%.

Заметим, что из данного, вполне жизненного примера видно, что полнота
поиска не очень-то интересна обычному пользователю интернет-поисковика.
Ведь в Сети всегда слишком много данных! Все равно невозможно просмотреть что 100 тысяч страниц, что 65 тысяч...

А ведь поисковик показывает данные постранично — первые десять найден-
ных страниц, потом еще десять и т. д. Большинство обычных пользователей (до 80%) не заглядывают дальше первой-второй страницы результатов поиска, просматривая только первые 10-20 результатов. Поэтому не очень важно, сколько там релевантных результатов (десять тысяч, сто тысяч или миллион) осталось
за пределами первых страниц результатов поиска или вообще осталось не найденными в Сети. И того, что найдено, за глаза хватит.

Поэтому основным показателем работы интернет-поисковика является его
точность.

На самом деле полнота поиска — очень важна, если понимать ее не как требование найти все, а как требование разнообразия "верхней" части выдачи, т. е. требование найти и показать все варианты, все типы ответов на запрос.

Например, если по запросу "дизайн" поисковик находит только релевантные документы, но все - только про дизайн сайтов, то полнота поиска явно низкая. Желательно, чтобы были также найдены страницы про другие виды дизайна — дизайн квартир, ландшафтный дизайн,
полиграфический дизайн и пр. Таким образом, если поисковик находит много, но по одной теме, то пользователь получает однообразную информацию.

В последнее время, увы, это довольно обычная ситуация в поисковиках. Сегодня по большинству "коммерческих" запросов невозможно получить "некоммерческие" страницы вверху списка результатов поиска — все первые десятки и даже сотни результатов поиска занимает только коммерческая выдача. Например, если спросить у Яндекса или Google "цветы", то, скорее всего, вся поисковая выдача будет забита страницами с предложениями доставки цветов, причем в основном по Москве. Налицо очень малое разнообразие выдачи. Ни страницы про
семена цветов, ни сведения о разведении цветов в выдачу не попадают.

Точность — это мера качества выданных результатов. Точность вычисляется как количество релевантных страниц в общем объеме того, что выдал нам поисковик.

Если, допустим, нам выдано всего 1000 страниц по запросу очистители воздуха, а на самом деле отношение к очистителям воздуха имеют только 850 из них, то точность поиска будет равна 85% . Ясно, что для поисковика точность важнее всего.

Однако из данного примера видно, что на самом деле нет смысла вычислять
точность по всему объему найденных страниц. Гораздо важнее порядок выдачи.
А что если все 150 нерелевантных страниц из 1000 окажутся в начале выдачи?
Ясно, что средний пользователь, просматривающий две первые страницы результатов поиска (это максимум 20-30 первых результатов), сочтет такую выдачу абсолютно нерелевантной и будет прав.

http://www. *****

№ десятка

Количество полезных ссылок

Яндекс

Google

Число полезных

Точность поиска

Достаточность поиска

Сумма Т +Д

Число полезных

Точность поиска

Достаточность поиска

Сумма Т +Д

1

5

60%

35%

95%

5

60%

25%

85%

2

4

50%

60%

110%

3

45%

45%

90%

3

3

40%

75%

115%

3

37%

55%

92%

4

0

65%

33%

118%

2

30%

85%

95%

Всего полез­ных ссылок

18

13

Сколько по­лез­ных доку­ментов сов­па­да­ет в вы­да­чах

Заключение.

Просмотрев результаты исследования можно утверждать, что информационно-поисковая система Яндекс эффективней и качественней Google, это связанно с полнотой и точностью найденных документов. Также, мне больше понравилось работать с информационно-поисковой системой «Яндекс» из-за того, что при работе с поисковой системой «Google» я наткнулась на большой объём рекламы, что отрицательно сказывалось на эффективности и скорости моей работы. A так же я ничего не нашла о точности «Музыкальных публикаций».