• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
styles
 

styles

on

  • 1,358 views

Lecture on styles in web-search

Lecture on styles in web-search

Statistics

Views

Total Views
1,358
Views on SlideShare
1,197
Embed Views
161

Actions

Likes
0
Downloads
18
Comments
0

4 Embeds 161

http://mathlingvo.ru 127
http://nlpseminar.ru 29
http://www.mathlingvo.ru 3
http://www.slideshare.net 2

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    styles styles Presentation Transcript

    • Может ли Веб-поиск быть стильным? Павел Браславский Яндекс
    • План Введение: почему Веб-поиск и стиль? Стиль, жанр: попытка определения Направления исследований Индивидуальный стиль Стилистическая категоризация Стилистическая кластеризация Удобочитаемость Как это можно использовать в Веб- поиске? Заключение 19.11.2008 Может ли Веб-поиск быть 2 стильным?
    • программа курса словарь учебник запрос: [синтетический ссылка на книгу учет основного производства] (1078755) реферат FAQ? инструкция резюме диплома 3 19.11.2008 Может ли Веб-поиск быть стильным?
    • Чем может помочь стиль/жанр? Жанр документа тип информационной потребности лучше моделировать релевантность в условиях роста Веба и количества пользователей продвинутые пользователи, специализированный поиск 19.11.2008 Может ли Веб-поиск быть 4 стильным?
    • Что такое стиль? Стиль: искусство, литература, музыка, мода, спорт… …стиль барокко, телеграфный стиль, вольный стиль, стиль программирования, стильная вечеринка, Cascading Style Sheets, стиль «пьяный кулак»… 19.11.2008 Может ли Веб-поиск быть 5 стильным?
    • Стиль vs. жанр Стиль: в каком-то смысле ортогонален теме как vs. что план выражения vs. план содержания вариант раскрытия темы Жанр: устоявшийся тип документа например: FAQ, новости, home page, product page, форма регистрации и т.д. 19.11.2008 Может ли Веб-поиск быть 6 стильным?
    • Стиль/содержание Сущность квантовой теории танца, представляющей собой своего рода компромисс между классической механикой условно периодических движений и классической эмоциодинамикой, заключается в следующем. Танцующие могут описывать определенные квантовые орбиты, не испуская и не поглощая при этом никаких эмоций. Последние испускаются и поглощаются прерывным образом при переходах с одной квантованной орбиты на другую. При этом в противоположность тому, что имеет место в случае электронных плясок в боровском атоме, эмоциональное излучение, как и поглощение, сопровождается переходом не на более низкий, а, наоборот, на более высокий уровень, т.е., другими словами, возбуждением. Таким образом, во время танца (особенно парного) возбуждение танцующих неизменно возрастает, пока не наступит релаксация, вызываемая истощением. Я.И.Френкель «Квантовая теория танца» 19.11.2008 Может ли Веб-поиск быть 7 стильным?
    • Стиль (от лат. stilus, stylus) «Уровень» языка (нейтральный, высокий, низкий) Функциональный стиль Особенности конкретного речевого акта (ораторская речь, бытовой диалог, дружеское письмо и т.д.) Индивидуальный стиль Стиль эпохи Лингвистический энциклопедический словарь 19.11.2008 Может ли Веб-поиск быть 8 стильным?
    • Направления исследований Анализ индивидуального стиля, подлинность, атрибуция текста (вариант: консистентность стиля документа) Категоризация по стилям/жанрам Кластеризация по жанровым признакам Показатели удобочитаемости / стилистическое ранжирование Гендерные особенности стиля Тон, настроение, критика/похвала 19.11.2008 Может ли Веб-поиск быть 9 стильным?
    • Стилистические признаки Формальные параметры «нижнего уровня» Морфемы, словообразование Лексика * очи – глаза – зенки; поребрик – бордюр ☺ Морфология Предсинтаксис Синтаксис ** Специфические Веб-признаки смайлики URL HTML 19.11.2008 Может ли Веб-поиск быть 10 стильным?
    • Пример: стиль в MS Word 19.11.2008 Может ли Веб-поиск быть 11 стильным?
    • Индивидуальный стиль Кто написал «Тихий Дон»? Кто написал «Роман с кокаином»? (Агеев? Набоков?) Идея: найти комбинацию параметров, которую сложно сознательно контролировать Например: доля служебных слов Лингвоанализатор Дм. Хмелева: Последовательности пар букв (цепи Маркова) Алгоритмы сжатия данных (!) 19.11.2008 Может ли Веб-поиск быть 12 стильным?
    • Жанровая категоризация Система стилей (категории) Набор признаков, метод извлечения признаков Обучающая/тестовая выборки (корпус) Метод обучения ( вид решающего правила) Если жанров немного и они четко определены приемлемое для практических приложений качество классификации с помощью простых признаков Проблема: сравнение результатов (см. Rehm G. et al., 2008) 19.11.2008 Может ли Веб-поиск быть 13 стильным?
    • Пионеры Brown corpus Дискриминантный анализ Karlgren, Cutting (1994) 19.11.2008 Может ли Веб-поиск быть 14 стильным?
    • Функциональные стили Браславский (2000) 19.11.2008 Может ли Веб-поиск быть 15 стильным?
    • Морфология 0,16 7,5 0,14 7,0 0,12 6,5 0,10 6,0 0,08 5,5 adjective ratio 0,06 adverb ratio 5,0 word length 0,04 4,5 law science publ liter chat 19.11.2008 Может ли Веб-поиск быть 16 стильным?
    • Современный подход Классификатор Веб-документов 16 категорий Корпус ~1200 док. на корейском Метод – вариант kNN accuracy – до 0,76 Lim C. S. et al. Multiple sets… (2005) 19.11.2008 Может ли Веб-поиск быть 17 стильным?
    • Lim C. S. et al. Multiple sets – 2 Группы признаков: Уровень слов (формальные параметры) Лексика Синтаксис HTML разметка URL Полный набор: 326 (!) 19.11.2008 Может ли Веб-поиск быть 18 стильным?
    • Lim C. S. et al. Multiple sets – 3 19.11.2008 Может ли Веб-поиск быть 19 стильным?
    • Удобочитаемость (readability) сложность текста регресионный анализ параметры текста Flesh Reading Ease Flesch-Kincaid Grade Level score Мацковский (1969) Микк (1972) 19.11.2008 Может ли Веб-поиск быть 20 стильным?
    • Показатели удобочитаемости Flesch Reading Ease score, 0..100. 206.835 – (1.015 * ASL) – (84.6 * ASW) Flesch-Kincaid Grade Level score, 1..12. (0.39 * ASL) + (11.8 * ASW) – 15.59 ASL = average sentence length ASW = average number of syllables per word 19.11.2008 Может ли Веб-поиск быть 21 стильным?
    • Показатели сложности текста для русского языка Мацковский (1969): С = 0,62x + 0,123y + 0,051 x – средняя длина предложения в словах y – % слов > 3 слогов Микк (1974): С = 0,131x + 9,84y – 4,59 x – средняя длина самост. предложений в знаках y – средняя абстрактность существительных 19.11.2008 Может ли Веб-поиск быть 22 стильным?
    • Удобочитаемость 2.0 Определение Grade Level как задача категоризации в пространстве слов (Callan et al., 2001, 2004) (Query-independent) familiarity classifier: introductory vs. advanced (Kumaran et al., 2005) Показатель “формальности”, получаемый на классах документов (Braslavski, 2007) 19.11.2008 Может ли Веб-поиск быть 23 стильным?
    • Кластеризация Rauber A., Mueller-Koegler (2001) «Без учителя» Простые признаки ~1000 статей на немецком Самоорганизующиеся сети Кохонена (SOM) Интеграция в существующий интерфейс ЭБ 19.11.2008 Может ли Веб-поиск быть 24 стильным?
    • «Сложность/формальность» без учителя Braslavski, Tselishchev (2005) 19.11.2008 Может ли Веб-поиск быть 25 стильным?
    • Genres and SEs: explicit use Focused (‘vertical’) search Genre in query (фактически есть) SERP: tagging or grouping results Problems: Do we really need sophisticated methods? (e.g. scientific papers, blogs, news, e- shops, etc.) Advanced search – marginal value Intuitive interface (!) Universal set of genres (!) 19.11.2008 Может ли Веб-поиск быть 26 стильным?
    • WeGA Meyer zu Eissen S., Stein B. (200 19.11.2008 Может ли Веб-поиск быть 27 стильным?
    • Метки в выдаче: эксперименты пользователи ожидают, что метки будут полезны, 8 жанров (Meyer zu Eissen S., Stein B., 2004) не наблюдается повышения эффективности поиска, 18 жанров (Rosso M., 2005) пользователи хорошо определяют основные жанры по сниппету, 4 жанра (Stubbe A. et al., 2007) 19.11.2008 Может ли Веб-поиск быть 28 стильным?
    • Стиль документа/сайта P R ХудЛит 0.788 0.565 Науч 0.447 0.500 НормДо 0.783 0.818 к Советы 0.618 0.636 Браславский, Вовк, Маслов (2002) 19.11.2008 Может ли Веб-поиск быть 29 стильным?
    • Жанры @ HARD Track High Accuracy Retrieval from Documents Идея: больше данных о пользователях 2004, 2005: GENRE (news-report, opinion-editorial, other, any), FAMILIARITY (little/much) ~жанры в запросе Методы: ранжирование по разным основаниям с последующим смешением рангов …many documents judged relevant clearly fall outside the requested metadata. Searchers know a relevant document when they see one, but a priori they do not fully know what metadata is required of a relevant document. [Abdul-Jaleel et al., 2005] 19.11.2008 Может ли Веб-поиск быть 30 стильным?
    • Genres and SEs: implicit use Some genres are better than other static (i.e. query-independent) ranking Genre diversity in SERP (‘let all flowers flourish’) (в отрицательном смысле: не допускать «засилья» определенных жанров) Desired genre based on query analysis (!) 19.11.2008 Может ли Веб-поиск быть 31 стильным?
    • Пионеры данные TREC стилистические признаки для различения релевантных и нерелевантных документов релевантные более сложные классификатор на основе дерева решений нет улучшения в среднем нужна типология запросов Strzalkowski T. et al., 1995 19.11.2008 Может ли Веб-поиск быть 32 стильным?
    • Последователи (Braslavski, 2007) Original text relevance rankings New rankings: RY + αRG 1. ----- 2. ----- 3. ----- 4. ----- 1. ----- 2. ----- 3. ----- 4. ----- Genre-related rankings 1. ----- 2. ----- 3. ----- Can we hope to improve relevance ranking 4. ----- by mixing rankings together? 19.11.2008 Может ли Веб-поиск быть 33 стильным?
    • ROMIP data 600,000+ Web documents in Russian 70 evaluated ad hoc search tasks Query arw19003: are we alone in the universe? Description: The page must contain information on extraterrestrial intelligence research, existing hypotheses as well as different opinions on this issue. Results of the system Y: 6,906 Web documents (5,416 with relevance judgments) 19.11.2008 Может ли Веб-поиск быть 34 стильным?
    • Показатель формальности Метод: канонический дискриминантный анализ на выборке функциональных стилей Признаки: • average word length; • smiley count; feature 1 • finite verb count; • adjective count; • first person pronoun count; • expressive punctuation count; • neuter noun count; • adverb count; • genitive chain count. feature 2 19.11.2008 Может ли Веб-поиск быть 35 стильным?
    • Результаты 0,4 40 35 0,3 30 0,2 25 0,1 20 alpha 0 15 positive changes 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 negative changes 10 -0,1 micro-averaged 5 -0,2 alpha macro-averaged 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 -0,3 rank displacement 19.11.2008 Может ли Веб-поиск быть 36 стильным?
    • Результаты - 2 0,65 1 initial ranking p1 0,9 alpha=0,2 p10 0,8 MAP 0,55 0,7 0,6 0,5 0,4 0,45 0,3 arw13494 0,2 alpha 0,1 0,35 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 average precision и снова: нет улучшения в среднем нужна типология запросов… 19.11.2008 Может ли Веб-поиск быть 37 стильным?
    • Как узнать жанр, соответствующий запросу? определение уровня образования по запросу (Liu X. et al., 2004) implicit feedback (клики) персонализация поиска 19.11.2008 Может ли Веб-поиск быть 38 стильным?
    • Кстати: не только релевантность Жанры – дополнительная информация для планирования обхода Веба роботом МП Обновляемость страниц зависит от жанра Boese E.S., Howe A.E. (2005) 19.11.2008 Может ли Веб-поиск быть 39 стильным?
    • Заключение методы созрели для приложений сложность применения в Веб- поиске: определение жанров по запросу возможно: специализированный / персонализированный поиск 19.11.2008 Может ли Веб-поиск быть 40 стильным?
    • Павел Браславский pb@yandex-team.ru http://kansas.ru/pb/ 19.11.2008 Может ли Веб-поиск быть 41 стильным?
    • Ссылки Abdul-Jaleel, N., Allan, J., Croft, W.B., Diaz, F., Larkey, L., Li, X., Smucker, M. D., Wade, C. UMass at TREC 2004: Novelty and HARD. In Proceedings of TREC 2004 (2005) Boese E.S., Howe A.E. Effects of Web Document Evolution on Genre Classification. CIKM’05. Braslavski P. Combining Relevance and Genre-Related Rankings: an Exploratory Study. In Proc. of the Workshop quot;Towards Genre-Enabled Search Engines: The Impact of NLPquot;, 2007. Braslavski P., Tselishchev A. Style-Dependent Document Ranking. RCDL'2005. Collins-Thompson, K., Callan, J.P. A Language Modeling Approach to Predicting Reading Difficulty. HLT/NAACL’2004. Karlgren J., Cutting D. Recognizing Text Genre with Simple Metrics Using Discriminant Analysis. COLING 1994. Kumaran, G., Jones, R., Madani, O. Biasing Web Search Results for Topic Familiarity. CIKM’05 Lim C. S. et al. Multiple sets of features for automatic genre classification of web documents. IPM, 2005. Liu, X., Croft, W. B., Oh, P., Hart, D. Automatic Recognition of Reading Levels from User Queries. SIGIR’2004. Meyer zu Eissen S., Stein B. Genre Classification of Web Pages: User Study and Feasibility Analysis. KI’2004. Rauber A., Mueller-Koegler A. Integrating Automatic Genre Analysis into Digital Libraries. JCDL’2001. Rehm G., Santini M., Mehler A., Braslavski P., Gleim R., Stubbe A., Symonenko S., Tavosanis M., Vidulin V. Towards a Reference Corpus of Web Genres for the Evaluation of Genre Identification Systems. LREC 2008. Rosso, M.A. Using Genre To Improve Web Search. PhD thesis, University of North Carolina, Chapel Hill (2005) Santini M. State-of-the-Art on Automatic Genre Identification. Technical Report ITRI-04-03, Information Technology Research Institute, Univ. of Brighton, UK (2004) Si, L., Callan, J. A Statistical Model for Scientific Readability. In: Proceedings of CIKM’2001, pp. 574--576 (2001) Strzalkowski, T., Guthrie, L., Karlgren, J., Leistensnider, J., Lin, F. Perez-Carballo, J., Straszheim, T., Wang, J., Wilding, J. Natural Language Information Retrieval: TREC-5 Report. In: Proceedings of TREC’1995 (1996) Stubbe, A., Ringlstetter, Ch., Goebel, R. Elements of a Learning Interface for Genre Qualified Search. Proceedings of the Workshop “Towards Genre-Enabled Search Engines: The Impact of NLP”, 2007. WebGenreWiki, http://valian.kgf.uni-frankfurt.de/WebGenreWiki/index.php5/Main_Page WEGA project, http://www.uni-weimar.de/cms/medien/webis/research/projects/wega.html Браславский П. Методы повышения эффективности поиска научной информации (на материале Internet), 2000. 19.11.2008 Может ли Веб-поиск быть 42 стильным?