SlideShare a Scribd company logo
Может ли Веб-поиск
быть стильным?


  Павел Браславский
  Яндекс
План
    Введение: почему Веб-поиск и стиль?
    Стиль, жанр: попытка определения
    Направления исследований
         Индивидуальный стиль
         Стилистическая категоризация
         Стилистическая кластеризация
         Удобочитаемость
    Как это можно использовать в Веб-
    поиске?
    Заключение

19.11.2008           Может ли Веб-поиск быть   2
                           стильным?
программа курса




                                                         словарь




                                                       учебник



                              запрос:
                              [синтетический     ссылка на книгу
                              учет основного
                              производства]
                              (1078755)
                                                   реферат



                                                       FAQ?




                                                 инструкция



                                               резюме диплома 3
19.11.2008   Может ли Веб-поиск быть
                   стильным?
Чем может помочь стиль/жанр?
    Жанр документа      тип
    информационной потребности
    лучше моделировать релевантность
    в условиях роста Веба и количества
    пользователей
    продвинутые пользователи,
    специализированный поиск


19.11.2008     Может ли Веб-поиск быть   4
                     стильным?
Что такое стиль?
 Стиль: искусство, литература,
музыка, мода, спорт…

  …стиль барокко, телеграфный стиль,
вольный стиль, стиль
программирования, стильная
вечеринка, Cascading Style Sheets,
стиль «пьяный кулак»…

19.11.2008   Может ли Веб-поиск быть   5
                   стильным?
Стиль vs. жанр
    Стиль:
    в каком-то смысле ортогонален теме
    как vs. что
    план выражения vs. план содержания
    вариант раскрытия темы
    Жанр:
    устоявшийся тип документа
    например: FAQ, новости, home page,
    product page, форма регистрации
    и т.д.

19.11.2008      Может ли Веб-поиск быть   6
                      стильным?
Стиль/содержание
Сущность квантовой теории танца, представляющей собой своего рода
компромисс между классической механикой условно периодических
движений и классической эмоциодинамикой, заключается в следующем.
Танцующие могут описывать определенные квантовые орбиты, не испуская
и не поглощая при этом никаких эмоций. Последние испускаются и
поглощаются прерывным образом при переходах с одной квантованной
орбиты на другую. При этом в противоположность тому, что имеет место в
случае электронных плясок в боровском атоме, эмоциональное излучение,
как и поглощение, сопровождается переходом не на более низкий, а,
наоборот, на более высокий уровень, т.е., другими словами, возбуждением.
Таким образом, во время танца (особенно парного) возбуждение
танцующих неизменно возрастает, пока не наступит релаксация,
вызываемая истощением.
                                  Я.И.Френкель «Квантовая теория танца»


19.11.2008                 Может ли Веб-поиск быть                     7
                                 стильным?
Стиль (от лат. stilus, stylus)
    «Уровень» языка (нейтральный, высокий,
    низкий)
    Функциональный стиль
    Особенности конкретного речевого акта
    (ораторская речь, бытовой диалог,
    дружеское письмо и т.д.)
    Индивидуальный стиль
    Стиль эпохи
             Лингвистический энциклопедический словарь

19.11.2008               Может ли Веб-поиск быть         8
                               стильным?
Направления исследований
    Анализ индивидуального стиля, подлинность,
    атрибуция текста (вариант: консистентность
    стиля документа)
    Категоризация по стилям/жанрам
    Кластеризация по жанровым признакам
    Показатели удобочитаемости /
    стилистическое ранжирование
    Гендерные особенности стиля
    Тон, настроение, критика/похвала




19.11.2008         Может ли Веб-поиск быть       9
                         стильным?
Стилистические признаки
    Формальные параметры «нижнего
    уровня»
    Морфемы, словообразование
    Лексика * очи – глаза – зенки; поребрик – бордюр ☺
    Морфология
    Предсинтаксис
    Синтаксис **
    Специфические Веб-признаки
         смайлики
         URL
         HTML

19.11.2008            Может ли Веб-поиск быть            10
                            стильным?
Пример: стиль в MS Word




19.11.2008   Может ли Веб-поиск быть   11
                   стильным?
Индивидуальный стиль
    Кто написал «Тихий Дон»?
    Кто написал «Роман с кокаином»? (Агеев?
    Набоков?)
    Идея: найти комбинацию параметров, которую
    сложно сознательно контролировать
    Например: доля служебных слов

    Лингвоанализатор Дм. Хмелева:
         Последовательности пар букв (цепи Маркова)
         Алгоритмы сжатия данных (!)




19.11.2008            Может ли Веб-поиск быть         12
                            стильным?
Жанровая категоризация
    Система стилей (категории)
    Набор признаков, метод извлечения признаков
    Обучающая/тестовая выборки (корпус)
    Метод обучения ( вид решающего правила)

    Если жанров немного и они четко определены
    приемлемое для практических приложений
    качество классификации с помощью простых
    признаков

    Проблема: сравнение результатов (см. Rehm G. et
    al., 2008)

19.11.2008          Может ли Веб-поиск быть           13
                          стильным?
Пионеры
    Brown corpus
    Дискриминантный анализ




             Karlgren, Cutting (1994)

19.11.2008                    Может ли Веб-поиск быть   14
                                    стильным?
Функциональные стили




             Браславский (2000)

19.11.2008     Может ли Веб-поиск быть   15
                     стильным?
Морфология

             0,16                                               7,5

             0,14                                               7,0

             0,12                                               6,5

             0,10                                               6,0

             0,08                                               5,5
                               adjective ratio
             0,06              adverb ratio                     5,0
                               word length
             0,04                                               4,5
                    law   science      publ      liter   chat




19.11.2008                  Может ли Веб-поиск быть                   16
                                  стильным?
Современный подход
         Классификатор
         Веб-документов
         16 категорий
         Корпус ~1200 док.
         на корейском
         Метод – вариант
         kNN
         accuracy – до 0,76




Lim C. S. et al. Multiple sets… (2005)

     19.11.2008                  Может ли Веб-поиск быть   17
                                       стильным?
Lim C. S. et al. Multiple sets – 2
    Группы признаков:
    Уровень слов (формальные параметры)
    Лексика
    Синтаксис
    HTML разметка
    URL

    Полный набор: 326 (!)


19.11.2008      Может ли Веб-поиск быть   18
                      стильным?
Lim C. S. et al. Multiple sets – 3




19.11.2008   Может ли Веб-поиск быть   19
                   стильным?
Удобочитаемость (readability)
                                сложность текста



                           регресионный анализ




                           параметры текста


Flesh Reading Ease
Flesch-Kincaid Grade Level score
Мацковский (1969)
Микк (1972)
19.11.2008                 Может ли Веб-поиск быть   20
                                 стильным?
Показатели удобочитаемости
                 Flesch Reading Ease score, 0..100.
 206.835 – (1.015 * ASL) – (84.6 * ASW)


               Flesch-Kincaid Grade Level score, 1..12.

    (0.39 * ASL) + (11.8 * ASW) – 15.59

                  ASL = average sentence length
             ASW = average number of syllables per word


19.11.2008                 Может ли Веб-поиск быть        21
                                 стильным?
Показатели сложности текста для
русского языка
    Мацковский (1969):

    С = 0,62x + 0,123y + 0,051
    x – средняя длина предложения в словах
    y – % слов > 3 слогов

    Микк (1974):

    С = 0,131x + 9,84y – 4,59
    x – средняя длина самост. предложений в знаках
    y – средняя абстрактность существительных




19.11.2008            Может ли Веб-поиск быть        22
                            стильным?
Удобочитаемость 2.0
    Определение Grade Level как задача
    категоризации в пространстве слов
    (Callan et al., 2001, 2004)
    (Query-independent) familiarity classifier:
    introductory vs. advanced (Kumaran et al.,
    2005)
    Показатель “формальности”, получаемый
    на классах документов (Braslavski, 2007)



19.11.2008        Может ли Веб-поиск быть     23
                        стильным?
Кластеризация
  Rauber A., Mueller-Koegler (2001)


  «Без учителя»
  Простые признаки
  ~1000 статей на немецком
  Самоорганизующиеся сети
Кохонена (SOM)
 Интеграция в существующий
интерфейс ЭБ



19.11.2008          Может ли Веб-поиск быть   24
                          стильным?
«Сложность/формальность»
без учителя




             Braslavski, Tselishchev (2005)

19.11.2008        Может ли Веб-поиск быть     25
                        стильным?
Genres and SEs: explicit use
    Focused (‘vertical’) search
    Genre in query (фактически есть)
    SERP: tagging or grouping results
    Problems:
    Do we really need sophisticated methods?
    (e.g. scientific papers, blogs, news, e-
    shops, etc.)
    Advanced search – marginal value
    Intuitive interface (!)
    Universal set of genres (!)
19.11.2008        Может ли Веб-поиск быть      26
                        стильным?
WeGA




                                  Meyer zu Eissen S., Stein B. (200




19.11.2008   Может ли Веб-поиск быть                        27
                   стильным?
Метки в выдаче: эксперименты
    пользователи ожидают, что метки будут
    полезны, 8 жанров (Meyer zu Eissen S.,
    Stein B., 2004)
    не наблюдается повышения
    эффективности поиска, 18 жанров (Rosso
    M., 2005)
    пользователи хорошо определяют
    основные жанры по сниппету, 4 жанра
    (Stubbe A. et al., 2007)



19.11.2008      Может ли Веб-поиск быть   28
                      стильным?
Стиль документа/сайта
                               P           R

              ХудЛит        0.788       0.565

              Науч          0.447       0.500

              НормДо        0.783       0.818
              к
              Советы        0.618       0.636


             Браславский, Вовк, Маслов (2002)

19.11.2008           Может ли Веб-поиск быть    29
                           стильным?
Жанры @ HARD Track
    High Accuracy Retrieval from Documents
    Идея: больше данных о пользователях
    2004, 2005: GENRE (news-report, opinion-editorial, other,
    any), FAMILIARITY (little/much)
    ~жанры в запросе
    Методы: ранжирование по разным основаниям с
    последующим смешением рангов

    …many documents judged relevant clearly fall outside the
    requested metadata. Searchers know a relevant document
    when they see one, but a priori they do not fully know what
    metadata is required of a relevant document. [Abdul-Jaleel et
    al., 2005]



19.11.2008              Может ли Веб-поиск быть                 30
                              стильным?
Genres and SEs: implicit use
    Some genres are better than other
        static (i.e. query-independent)
    ranking
    Genre diversity in SERP
    (‘let all flowers flourish’) (в отрицательном
    смысле: не допускать «засилья» определенных жанров)

    Desired genre based on query
    analysis (!)

19.11.2008            Может ли Веб-поиск быть             31
                            стильным?
Пионеры
    данные TREC
    стилистические признаки для различения
    релевантных и нерелевантных
    документов   релевантные более
    сложные
    классификатор на основе дерева
    решений
    нет улучшения в среднем      нужна
    типология запросов

              Strzalkowski T. et al., 1995
19.11.2008        Может ли Веб-поиск быть    32
                        стильным?
Последователи (Braslavski, 2007)
         Original text relevance rankings

                                                         New rankings: RY + αRG

             1.   -----
             2.   -----
             3.   -----
             4.   -----                                      1.   -----
                                                             2.   -----
                                                             3.   -----
                                                             4.   -----
         Genre-related rankings



             1.   -----
             2.   -----
             3.   -----              Can we hope to improve relevance ranking
             4.   -----              by mixing rankings together?

19.11.2008                     Может ли Веб-поиск быть                            33
                                     стильным?
ROMIP data
    600,000+ Web documents in Russian
    70 evaluated ad hoc search tasks
    Query arw19003: are we alone in the universe?
    Description: The page must contain information on extraterrestrial intelligence research,
    existing hypotheses as well as different opinions on this issue.


    Results of the system Y:
    6,906 Web documents (5,416 with
    relevance judgments)

19.11.2008                       Может ли Веб-поиск быть                                   34
                                       стильным?
Показатель формальности
   Метод: канонический дискриминантный анализ на
 выборке функциональных стилей
    Признаки:
 • average word length;
 • smiley count;                        feature
                                        1
 • finite verb count;
 • adjective count;
 • first person pronoun count;
 • expressive punctuation count;
 • neuter noun count;
 • adverb count;
 • genitive chain count.                             feature
                                                     2
19.11.2008                 Может ли Веб-поиск быть     35
                                 стильным?
Результаты

0,4                                                                                  40


                                                                                     35
0,3

                                                                                     30
0,2
                                                                                     25

0,1
                                                                                     20
                                                                         alpha
  0                                                                                  15                               positive changes
       0   0,1   0,2    0,3     0,4       0,5   0,6   0,7   0,8    0,9           1
                                                                                                                      negative changes
                                                                                     10
-0,1

                         micro-averaged                                               5
-0,2                                                                                                                                                       alpha
                         macro-averaged
                                                                                      0
                                                                                          0   0,1   0,2   0,3   0,4      0,5     0,6     0,7   0,8   0,9       1
-0,3




                       rank displacement



       19.11.2008                                                 Может ли Веб-поиск быть                                                              36
                                                                        стильным?
Результаты - 2

0,65                                                                          1
                                                                                                          initial ranking
                                                             p1              0,9
                                                                                                          alpha=0,2
                                                             p10
                                                                             0,8
                                                             MAP
0,55
                                                                             0,7

                                                                             0,6

                                                                             0,5

                                                                             0,4
0,45
                                                                             0,3
                                                                                               arw13494
                                                                             0,2

                                                                 alpha       0,1
0,35
       0   0,1   0,2   0,3   0,4   0,5   0,6   0,7   0,8   0,9           1    0




                                                                                       average precision

   и снова: нет улучшения в среднем                                                нужна типология запросов…

19.11.2008                                           Может ли Веб-поиск быть                                                37
                                                           стильным?
Как узнать жанр,
соответствующий запросу?
    определение уровня образования
    по запросу (Liu X. et al., 2004)
    implicit feedback (клики)
    персонализация поиска




19.11.2008     Может ли Веб-поиск быть   38
                     стильным?
Кстати: не только релевантность
    Жанры – дополнительная
    информация для планирования
    обхода Веба роботом МП
    Обновляемость страниц зависит от
    жанра
    Boese E.S., Howe A.E. (2005)



19.11.2008     Может ли Веб-поиск быть   39
                     стильным?
Заключение
    методы созрели для приложений
    сложность применения в Веб-
    поиске: определение жанров по
    запросу
    возможно: специализированный /
    персонализированный поиск



19.11.2008    Может ли Веб-поиск быть   40
                    стильным?
Павел Браславский

             pb@yandex-team.ru

             http://kansas.ru/pb/




19.11.2008       Может ли Веб-поиск быть   41
                       стильным?
Ссылки
    Abdul-Jaleel, N., Allan, J., Croft, W.B., Diaz, F., Larkey, L., Li, X., Smucker, M. D., Wade, C. UMass at TREC 2004:
    Novelty and HARD. In Proceedings of TREC 2004 (2005)
    Boese E.S., Howe A.E. Effects of Web Document Evolution on Genre Classification. CIKM’05.
    Braslavski P. Combining Relevance and Genre-Related Rankings: an Exploratory Study. In Proc. of the Workshop
    quot;Towards Genre-Enabled Search Engines: The Impact of NLPquot;, 2007.
    Braslavski P., Tselishchev A. Style-Dependent Document Ranking. RCDL'2005.
    Collins-Thompson, K., Callan, J.P. A Language Modeling Approach to Predicting Reading Difficulty.
    HLT/NAACL’2004.
    Karlgren J., Cutting D. Recognizing Text Genre with Simple Metrics Using Discriminant Analysis. COLING 1994.
    Kumaran, G., Jones, R., Madani, O. Biasing Web Search Results for Topic Familiarity. CIKM’05
    Lim C. S. et al. Multiple sets of features for automatic genre classification of web documents. IPM, 2005.
    Liu, X., Croft, W. B., Oh, P., Hart, D. Automatic Recognition of Reading Levels from User Queries. SIGIR’2004.
    Meyer zu Eissen S., Stein B. Genre Classification of Web Pages: User Study and Feasibility Analysis. KI’2004.
    Rauber A., Mueller-Koegler A. Integrating Automatic Genre Analysis into Digital Libraries. JCDL’2001.
    Rehm G., Santini M., Mehler A., Braslavski P., Gleim R., Stubbe A., Symonenko S., Tavosanis M., Vidulin V.
    Towards a Reference Corpus of Web Genres for the Evaluation of Genre Identification Systems. LREC 2008.
    Rosso, M.A. Using Genre To Improve Web Search. PhD thesis, University of North Carolina, Chapel Hill (2005)
    Santini M. State-of-the-Art on Automatic Genre Identification. Technical Report ITRI-04-03,
    Information Technology Research Institute, Univ. of Brighton, UK (2004)
    Si, L., Callan, J. A Statistical Model for Scientific Readability. In: Proceedings of CIKM’2001, pp. 574--576 (2001)
    Strzalkowski, T., Guthrie, L., Karlgren, J., Leistensnider, J., Lin, F. Perez-Carballo, J., Straszheim, T., Wang, J.,
    Wilding, J. Natural Language Information Retrieval: TREC-5 Report. In: Proceedings of TREC’1995 (1996)
    Stubbe, A., Ringlstetter, Ch., Goebel, R. Elements of a Learning Interface for Genre Qualified Search. Proceedings
    of the Workshop “Towards Genre-Enabled Search Engines: The Impact of NLP”, 2007.
    WebGenreWiki, http://valian.kgf.uni-frankfurt.de/WebGenreWiki/index.php5/Main_Page
    WEGA project, http://www.uni-weimar.de/cms/medien/webis/research/projects/wega.html
    Браславский П. Методы повышения эффективности поиска научной информации (на материале Internet),
    2000.




19.11.2008                                Может ли Веб-поиск быть                                                    42
                                                стильным?

More Related Content

What's hot

вирусный маркетинг
вирусный маркетингвирусный маркетинг
вирусный маркетингKirill Lyubkin
 
Мистецтво давнього Єгипту
Мистецтво давнього ЄгиптуМистецтво давнього Єгипту
Мистецтво давнього Єгипту
Olena Yakymova
 
маркетинговая стратегия слайд шоу
маркетинговая стратегия слайд шоумаркетинговая стратегия слайд шоу
маркетинговая стратегия слайд шоуakavnezna
 
положение о правилах пользования библиотекой
положение о правилах пользования библиотекойположение о правилах пользования библиотекой
положение о правилах пользования библиотекойpkgpkg
 
Ти срещу мен ( Джени Дауман )
Ти срещу мен ( Джени Дауман )Ти срещу мен ( Джени Дауман )
Ти срещу мен ( Джени Дауман )
tlisheva
 
стратегия планирования избирательной кампании
стратегия планирования избирательной кампаниистратегия планирования избирательной кампании
стратегия планирования избирательной кампании
Moscow State University, Political Sciences Department, Communication Group G3
 
Ромуальд Здебский
Ромуальд ЗдебскийРомуальд Здебский
Ромуальд Здебский
SQALab
 
5 Years Bravo Magazine In Bulgaria
5 Years Bravo Magazine In Bulgaria5 Years Bravo Magazine In Bulgaria
5 Years Bravo Magazine In BulgariaEgmont Bulgaria
 
Проект "Возвращение к истокам"
Проект "Возвращение к истокам"Проект "Возвращение к истокам"
Проект "Возвращение к истокам"
lshevtcova
 
хрестоматия полная
хрестоматия полнаяхрестоматия полная
Anticrisis national platform of Armenia
Anticrisis national platform of ArmeniaAnticrisis national platform of Armenia
Anticrisis national platform of Armenia
ARMEN MEHRABYAN
 
Highload sites, master-class, OK-2009
Highload sites, master-class, OK-2009Highload sites, master-class, OK-2009
Highload sites, master-class, OK-2009Ontico
 
МЭРТ 19_04_2009 МФЦ регионы Astrakhan
МЭРТ 19_04_2009 МФЦ регионы AstrakhanМЭРТ 19_04_2009 МФЦ регионы Astrakhan
МЭРТ 19_04_2009 МФЦ регионы Astrakhan
Victor Gridnev
 

What's hot (20)

вирусный маркетинг
вирусный маркетингвирусный маркетинг
вирусный маркетинг
 
Мистецтво давнього Єгипту
Мистецтво давнього ЄгиптуМистецтво давнього Єгипту
Мистецтво давнього Єгипту
 
маркетинговая стратегия слайд шоу
маркетинговая стратегия слайд шоумаркетинговая стратегия слайд шоу
маркетинговая стратегия слайд шоу
 
положение о правилах пользования библиотекой
положение о правилах пользования библиотекойположение о правилах пользования библиотекой
положение о правилах пользования библиотекой
 
Ти срещу мен ( Джени Дауман )
Ти срещу мен ( Джени Дауман )Ти срещу мен ( Джени Дауман )
Ти срещу мен ( Джени Дауман )
 
стратегия планирования избирательной кампании
стратегия планирования избирательной кампаниистратегия планирования избирательной кампании
стратегия планирования избирательной кампании
 
Ромуальд Здебский
Ромуальд ЗдебскийРомуальд Здебский
Ромуальд Здебский
 
Shum
ShumShum
Shum
 
5 Years Bravo Magazine In Bulgaria
5 Years Bravo Magazine In Bulgaria5 Years Bravo Magazine In Bulgaria
5 Years Bravo Magazine In Bulgaria
 
Проект "Возвращение к истокам"
Проект "Возвращение к истокам"Проект "Возвращение к истокам"
Проект "Возвращение к истокам"
 
концепт
концептконцепт
концепт
 
хрестоматия полная
хрестоматия полнаяхрестоматия полная
хрестоматия полная
 
Contact data
Contact dataContact data
Contact data
 
Anticrisis national platform of Armenia
Anticrisis national platform of ArmeniaAnticrisis national platform of Armenia
Anticrisis national platform of Armenia
 
соловьев
соловьевсоловьев
соловьев
 
Highload sites, master-class, OK-2009
Highload sites, master-class, OK-2009Highload sites, master-class, OK-2009
Highload sites, master-class, OK-2009
 
ссср и сша договор о ликв.ракет 1987.г
ссср и сша  договор о ликв.ракет 1987.гссср и сша  договор о ликв.ракет 1987.г
ссср и сша договор о ликв.ракет 1987.г
 
11g Part
11g Part11g Part
11g Part
 
Dencheva Obzor Ecolabel
Dencheva Obzor EcolabelDencheva Obzor Ecolabel
Dencheva Obzor Ecolabel
 
МЭРТ 19_04_2009 МФЦ регионы Astrakhan
МЭРТ 19_04_2009 МФЦ регионы AstrakhanМЭРТ 19_04_2009 МФЦ регионы Astrakhan
МЭРТ 19_04_2009 МФЦ регионы Astrakhan
 

Viewers also liked

Why you need to remove these 10 items from your resume now !
Why you need to remove these 10 items from your resume now !Why you need to remove these 10 items from your resume now !
Why you need to remove these 10 items from your resume now !
Ulrich Schild
 
BCforward services overview 2011
BCforward services overview 2011BCforward services overview 2011
BCforward services overview 2011
jedavies1
 
Madeira Training Camps - 2MADEIRA.COM
Madeira Training Camps - 2MADEIRA.COMMadeira Training Camps - 2MADEIRA.COM
Madeira Training Camps - 2MADEIRA.COM
2MADEIRA.COM
 
Ceratocone ARTIGO
Ceratocone ARTIGOCeratocone ARTIGO
Ceratocone ARTIGO
damper73
 
Siegfried Brochure
Siegfried BrochureSiegfried Brochure
Siegfried Brochure
slccbrown
 
Drain CV long 6_2016
Drain CV long 6_2016Drain CV long 6_2016
Drain CV long 6_2016
Charles Michael Drain
 
Patient Journey Record Trial Report
Patient Journey Record Trial ReportPatient Journey Record Trial Report
Patient Journey Record Trial Report
Enda Madden
 
Tpp 3 joint presentation
Tpp 3 joint presentationTpp 3 joint presentation
Tpp 3 joint presentation
OPUNITE
 
Alan Treadgold. The Multi-Channel Shopper and the new engagement landscape fo...
Alan Treadgold. The Multi-Channel Shopper and the new engagement landscape fo...Alan Treadgold. The Multi-Channel Shopper and the new engagement landscape fo...
Alan Treadgold. The Multi-Channel Shopper and the new engagement landscape fo...
b2bcg
 
Press Release
Press ReleasePress Release
Press Release
Cheryl Wachtel
 
Engineering escherichia coli to convert acetic acid to free fatty acids
Engineering escherichia coli to convert acetic acid to free fatty acidsEngineering escherichia coli to convert acetic acid to free fatty acids
Engineering escherichia coli to convert acetic acid to free fatty acids
zhenhua82
 
Bali Travel brochure
Bali Travel brochureBali Travel brochure
Bali Travel brochure
London
 
Skinput
SkinputSkinput
Klibel5 acc 47_
Klibel5 acc 47_Klibel5 acc 47_
Klibel5 acc 47_
KLIBEL
 
Documentacion uromune
Documentacion uromuneDocumentacion uromune
Documentacion uromune
miguelmolina2008
 
The Well-Being of Military Children: Augmenting Clinical Care with Web- and M...
The Well-Being of Military Children: Augmenting Clinical Care with Web- and M...The Well-Being of Military Children: Augmenting Clinical Care with Web- and M...
The Well-Being of Military Children: Augmenting Clinical Care with Web- and M...
National Center for Telehealth & Technology
 
Lithium Industry - A Strategic Energy Metal
Lithium Industry - A Strategic Energy Metal Lithium Industry - A Strategic Energy Metal
Lithium Industry - A Strategic Energy Metal
Kirill Klip
 
Growing communities: How charity leaders govern social media globally to thr...
Growing communities:  How charity leaders govern social media globally to thr...Growing communities:  How charity leaders govern social media globally to thr...
Growing communities: How charity leaders govern social media globally to thr...
Grant Thornton International Ltd
 
Revista Soccer
Revista SoccerRevista Soccer
Revista Soccer
Ricardo Luiz Pace
 
Pi-Technologies Company Profile
Pi-Technologies Company ProfilePi-Technologies Company Profile
Pi-Technologies Company Profile
Mohammed Ibrahim
 

Viewers also liked (20)

Why you need to remove these 10 items from your resume now !
Why you need to remove these 10 items from your resume now !Why you need to remove these 10 items from your resume now !
Why you need to remove these 10 items from your resume now !
 
BCforward services overview 2011
BCforward services overview 2011BCforward services overview 2011
BCforward services overview 2011
 
Madeira Training Camps - 2MADEIRA.COM
Madeira Training Camps - 2MADEIRA.COMMadeira Training Camps - 2MADEIRA.COM
Madeira Training Camps - 2MADEIRA.COM
 
Ceratocone ARTIGO
Ceratocone ARTIGOCeratocone ARTIGO
Ceratocone ARTIGO
 
Siegfried Brochure
Siegfried BrochureSiegfried Brochure
Siegfried Brochure
 
Drain CV long 6_2016
Drain CV long 6_2016Drain CV long 6_2016
Drain CV long 6_2016
 
Patient Journey Record Trial Report
Patient Journey Record Trial ReportPatient Journey Record Trial Report
Patient Journey Record Trial Report
 
Tpp 3 joint presentation
Tpp 3 joint presentationTpp 3 joint presentation
Tpp 3 joint presentation
 
Alan Treadgold. The Multi-Channel Shopper and the new engagement landscape fo...
Alan Treadgold. The Multi-Channel Shopper and the new engagement landscape fo...Alan Treadgold. The Multi-Channel Shopper and the new engagement landscape fo...
Alan Treadgold. The Multi-Channel Shopper and the new engagement landscape fo...
 
Press Release
Press ReleasePress Release
Press Release
 
Engineering escherichia coli to convert acetic acid to free fatty acids
Engineering escherichia coli to convert acetic acid to free fatty acidsEngineering escherichia coli to convert acetic acid to free fatty acids
Engineering escherichia coli to convert acetic acid to free fatty acids
 
Bali Travel brochure
Bali Travel brochureBali Travel brochure
Bali Travel brochure
 
Skinput
SkinputSkinput
Skinput
 
Klibel5 acc 47_
Klibel5 acc 47_Klibel5 acc 47_
Klibel5 acc 47_
 
Documentacion uromune
Documentacion uromuneDocumentacion uromune
Documentacion uromune
 
The Well-Being of Military Children: Augmenting Clinical Care with Web- and M...
The Well-Being of Military Children: Augmenting Clinical Care with Web- and M...The Well-Being of Military Children: Augmenting Clinical Care with Web- and M...
The Well-Being of Military Children: Augmenting Clinical Care with Web- and M...
 
Lithium Industry - A Strategic Energy Metal
Lithium Industry - A Strategic Energy Metal Lithium Industry - A Strategic Energy Metal
Lithium Industry - A Strategic Energy Metal
 
Growing communities: How charity leaders govern social media globally to thr...
Growing communities:  How charity leaders govern social media globally to thr...Growing communities:  How charity leaders govern social media globally to thr...
Growing communities: How charity leaders govern social media globally to thr...
 
Revista Soccer
Revista SoccerRevista Soccer
Revista Soccer
 
Pi-Technologies Company Profile
Pi-Technologies Company ProfilePi-Technologies Company Profile
Pi-Technologies Company Profile
 

More from NLPseminar

[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
NLPseminar
 
Events
EventsEvents
Events
NLPseminar
 
клышинский
клышинскийклышинский
клышинский
NLPseminar
 
конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гавриловаNLPseminar
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3NLPseminar
 
rubashkin
rubashkinrubashkin
rubashkin
NLPseminar
 
Vlasova
VlasovaVlasova
Vlasova
NLPseminar
 
Ageev
AgeevAgeev
Ageev
NLPseminar
 
Khomitsevich
Khomitsevich Khomitsevich
Khomitsevich
NLPseminar
 
акинина осмоловская
акинина осмоловскаяакинина осмоловская
акинина осмоловская
NLPseminar
 
Serebryakov
SerebryakovSerebryakov
Serebryakov
NLPseminar
 
потапов
потаповпотапов
потапов
NLPseminar
 
molchanov(promt)
molchanov(promt)molchanov(promt)
molchanov(promt)
NLPseminar
 
белканова
белкановабелканова
белканова
NLPseminar
 
Skatov
SkatovSkatov
Skatov
NLPseminar
 
гвоздикин
гвоздикингвоздикин
гвоздикин
NLPseminar
 
веселов
веселоввеселов
веселов
NLPseminar
 

More from NLPseminar (20)

[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
 
Events
EventsEvents
Events
 
Tomita
TomitaTomita
Tomita
 
бетин
бетинбетин
бетин
 
Andreev
AndreevAndreev
Andreev
 
клышинский
клышинскийклышинский
клышинский
 
конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гаврилова
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3
 
rubashkin
rubashkinrubashkin
rubashkin
 
Vlasova
VlasovaVlasova
Vlasova
 
Ageev
AgeevAgeev
Ageev
 
Khomitsevich
Khomitsevich Khomitsevich
Khomitsevich
 
акинина осмоловская
акинина осмоловскаяакинина осмоловская
акинина осмоловская
 
Serebryakov
SerebryakovSerebryakov
Serebryakov
 
потапов
потаповпотапов
потапов
 
molchanov(promt)
molchanov(promt)molchanov(promt)
molchanov(promt)
 
белканова
белкановабелканова
белканова
 
Skatov
SkatovSkatov
Skatov
 
гвоздикин
гвоздикингвоздикин
гвоздикин
 
веселов
веселоввеселов
веселов
 

styles

  • 1. Может ли Веб-поиск быть стильным? Павел Браславский Яндекс
  • 2. План Введение: почему Веб-поиск и стиль? Стиль, жанр: попытка определения Направления исследований Индивидуальный стиль Стилистическая категоризация Стилистическая кластеризация Удобочитаемость Как это можно использовать в Веб- поиске? Заключение 19.11.2008 Может ли Веб-поиск быть 2 стильным?
  • 3. программа курса словарь учебник запрос: [синтетический ссылка на книгу учет основного производства] (1078755) реферат FAQ? инструкция резюме диплома 3 19.11.2008 Может ли Веб-поиск быть стильным?
  • 4. Чем может помочь стиль/жанр? Жанр документа тип информационной потребности лучше моделировать релевантность в условиях роста Веба и количества пользователей продвинутые пользователи, специализированный поиск 19.11.2008 Может ли Веб-поиск быть 4 стильным?
  • 5. Что такое стиль? Стиль: искусство, литература, музыка, мода, спорт… …стиль барокко, телеграфный стиль, вольный стиль, стиль программирования, стильная вечеринка, Cascading Style Sheets, стиль «пьяный кулак»… 19.11.2008 Может ли Веб-поиск быть 5 стильным?
  • 6. Стиль vs. жанр Стиль: в каком-то смысле ортогонален теме как vs. что план выражения vs. план содержания вариант раскрытия темы Жанр: устоявшийся тип документа например: FAQ, новости, home page, product page, форма регистрации и т.д. 19.11.2008 Может ли Веб-поиск быть 6 стильным?
  • 7. Стиль/содержание Сущность квантовой теории танца, представляющей собой своего рода компромисс между классической механикой условно периодических движений и классической эмоциодинамикой, заключается в следующем. Танцующие могут описывать определенные квантовые орбиты, не испуская и не поглощая при этом никаких эмоций. Последние испускаются и поглощаются прерывным образом при переходах с одной квантованной орбиты на другую. При этом в противоположность тому, что имеет место в случае электронных плясок в боровском атоме, эмоциональное излучение, как и поглощение, сопровождается переходом не на более низкий, а, наоборот, на более высокий уровень, т.е., другими словами, возбуждением. Таким образом, во время танца (особенно парного) возбуждение танцующих неизменно возрастает, пока не наступит релаксация, вызываемая истощением. Я.И.Френкель «Квантовая теория танца» 19.11.2008 Может ли Веб-поиск быть 7 стильным?
  • 8. Стиль (от лат. stilus, stylus) «Уровень» языка (нейтральный, высокий, низкий) Функциональный стиль Особенности конкретного речевого акта (ораторская речь, бытовой диалог, дружеское письмо и т.д.) Индивидуальный стиль Стиль эпохи Лингвистический энциклопедический словарь 19.11.2008 Может ли Веб-поиск быть 8 стильным?
  • 9. Направления исследований Анализ индивидуального стиля, подлинность, атрибуция текста (вариант: консистентность стиля документа) Категоризация по стилям/жанрам Кластеризация по жанровым признакам Показатели удобочитаемости / стилистическое ранжирование Гендерные особенности стиля Тон, настроение, критика/похвала 19.11.2008 Может ли Веб-поиск быть 9 стильным?
  • 10. Стилистические признаки Формальные параметры «нижнего уровня» Морфемы, словообразование Лексика * очи – глаза – зенки; поребрик – бордюр ☺ Морфология Предсинтаксис Синтаксис ** Специфические Веб-признаки смайлики URL HTML 19.11.2008 Может ли Веб-поиск быть 10 стильным?
  • 11. Пример: стиль в MS Word 19.11.2008 Может ли Веб-поиск быть 11 стильным?
  • 12. Индивидуальный стиль Кто написал «Тихий Дон»? Кто написал «Роман с кокаином»? (Агеев? Набоков?) Идея: найти комбинацию параметров, которую сложно сознательно контролировать Например: доля служебных слов Лингвоанализатор Дм. Хмелева: Последовательности пар букв (цепи Маркова) Алгоритмы сжатия данных (!) 19.11.2008 Может ли Веб-поиск быть 12 стильным?
  • 13. Жанровая категоризация Система стилей (категории) Набор признаков, метод извлечения признаков Обучающая/тестовая выборки (корпус) Метод обучения ( вид решающего правила) Если жанров немного и они четко определены приемлемое для практических приложений качество классификации с помощью простых признаков Проблема: сравнение результатов (см. Rehm G. et al., 2008) 19.11.2008 Может ли Веб-поиск быть 13 стильным?
  • 14. Пионеры Brown corpus Дискриминантный анализ Karlgren, Cutting (1994) 19.11.2008 Может ли Веб-поиск быть 14 стильным?
  • 15. Функциональные стили Браславский (2000) 19.11.2008 Может ли Веб-поиск быть 15 стильным?
  • 16. Морфология 0,16 7,5 0,14 7,0 0,12 6,5 0,10 6,0 0,08 5,5 adjective ratio 0,06 adverb ratio 5,0 word length 0,04 4,5 law science publ liter chat 19.11.2008 Может ли Веб-поиск быть 16 стильным?
  • 17. Современный подход Классификатор Веб-документов 16 категорий Корпус ~1200 док. на корейском Метод – вариант kNN accuracy – до 0,76 Lim C. S. et al. Multiple sets… (2005) 19.11.2008 Может ли Веб-поиск быть 17 стильным?
  • 18. Lim C. S. et al. Multiple sets – 2 Группы признаков: Уровень слов (формальные параметры) Лексика Синтаксис HTML разметка URL Полный набор: 326 (!) 19.11.2008 Может ли Веб-поиск быть 18 стильным?
  • 19. Lim C. S. et al. Multiple sets – 3 19.11.2008 Может ли Веб-поиск быть 19 стильным?
  • 20. Удобочитаемость (readability) сложность текста регресионный анализ параметры текста Flesh Reading Ease Flesch-Kincaid Grade Level score Мацковский (1969) Микк (1972) 19.11.2008 Может ли Веб-поиск быть 20 стильным?
  • 21. Показатели удобочитаемости Flesch Reading Ease score, 0..100. 206.835 – (1.015 * ASL) – (84.6 * ASW) Flesch-Kincaid Grade Level score, 1..12. (0.39 * ASL) + (11.8 * ASW) – 15.59 ASL = average sentence length ASW = average number of syllables per word 19.11.2008 Может ли Веб-поиск быть 21 стильным?
  • 22. Показатели сложности текста для русского языка Мацковский (1969): С = 0,62x + 0,123y + 0,051 x – средняя длина предложения в словах y – % слов > 3 слогов Микк (1974): С = 0,131x + 9,84y – 4,59 x – средняя длина самост. предложений в знаках y – средняя абстрактность существительных 19.11.2008 Может ли Веб-поиск быть 22 стильным?
  • 23. Удобочитаемость 2.0 Определение Grade Level как задача категоризации в пространстве слов (Callan et al., 2001, 2004) (Query-independent) familiarity classifier: introductory vs. advanced (Kumaran et al., 2005) Показатель “формальности”, получаемый на классах документов (Braslavski, 2007) 19.11.2008 Может ли Веб-поиск быть 23 стильным?
  • 24. Кластеризация Rauber A., Mueller-Koegler (2001) «Без учителя» Простые признаки ~1000 статей на немецком Самоорганизующиеся сети Кохонена (SOM) Интеграция в существующий интерфейс ЭБ 19.11.2008 Может ли Веб-поиск быть 24 стильным?
  • 25. «Сложность/формальность» без учителя Braslavski, Tselishchev (2005) 19.11.2008 Может ли Веб-поиск быть 25 стильным?
  • 26. Genres and SEs: explicit use Focused (‘vertical’) search Genre in query (фактически есть) SERP: tagging or grouping results Problems: Do we really need sophisticated methods? (e.g. scientific papers, blogs, news, e- shops, etc.) Advanced search – marginal value Intuitive interface (!) Universal set of genres (!) 19.11.2008 Может ли Веб-поиск быть 26 стильным?
  • 27. WeGA Meyer zu Eissen S., Stein B. (200 19.11.2008 Может ли Веб-поиск быть 27 стильным?
  • 28. Метки в выдаче: эксперименты пользователи ожидают, что метки будут полезны, 8 жанров (Meyer zu Eissen S., Stein B., 2004) не наблюдается повышения эффективности поиска, 18 жанров (Rosso M., 2005) пользователи хорошо определяют основные жанры по сниппету, 4 жанра (Stubbe A. et al., 2007) 19.11.2008 Может ли Веб-поиск быть 28 стильным?
  • 29. Стиль документа/сайта P R ХудЛит 0.788 0.565 Науч 0.447 0.500 НормДо 0.783 0.818 к Советы 0.618 0.636 Браславский, Вовк, Маслов (2002) 19.11.2008 Может ли Веб-поиск быть 29 стильным?
  • 30. Жанры @ HARD Track High Accuracy Retrieval from Documents Идея: больше данных о пользователях 2004, 2005: GENRE (news-report, opinion-editorial, other, any), FAMILIARITY (little/much) ~жанры в запросе Методы: ранжирование по разным основаниям с последующим смешением рангов …many documents judged relevant clearly fall outside the requested metadata. Searchers know a relevant document when they see one, but a priori they do not fully know what metadata is required of a relevant document. [Abdul-Jaleel et al., 2005] 19.11.2008 Может ли Веб-поиск быть 30 стильным?
  • 31. Genres and SEs: implicit use Some genres are better than other static (i.e. query-independent) ranking Genre diversity in SERP (‘let all flowers flourish’) (в отрицательном смысле: не допускать «засилья» определенных жанров) Desired genre based on query analysis (!) 19.11.2008 Может ли Веб-поиск быть 31 стильным?
  • 32. Пионеры данные TREC стилистические признаки для различения релевантных и нерелевантных документов релевантные более сложные классификатор на основе дерева решений нет улучшения в среднем нужна типология запросов Strzalkowski T. et al., 1995 19.11.2008 Может ли Веб-поиск быть 32 стильным?
  • 33. Последователи (Braslavski, 2007) Original text relevance rankings New rankings: RY + αRG 1. ----- 2. ----- 3. ----- 4. ----- 1. ----- 2. ----- 3. ----- 4. ----- Genre-related rankings 1. ----- 2. ----- 3. ----- Can we hope to improve relevance ranking 4. ----- by mixing rankings together? 19.11.2008 Может ли Веб-поиск быть 33 стильным?
  • 34. ROMIP data 600,000+ Web documents in Russian 70 evaluated ad hoc search tasks Query arw19003: are we alone in the universe? Description: The page must contain information on extraterrestrial intelligence research, existing hypotheses as well as different opinions on this issue. Results of the system Y: 6,906 Web documents (5,416 with relevance judgments) 19.11.2008 Может ли Веб-поиск быть 34 стильным?
  • 35. Показатель формальности Метод: канонический дискриминантный анализ на выборке функциональных стилей Признаки: • average word length; • smiley count; feature 1 • finite verb count; • adjective count; • first person pronoun count; • expressive punctuation count; • neuter noun count; • adverb count; • genitive chain count. feature 2 19.11.2008 Может ли Веб-поиск быть 35 стильным?
  • 36. Результаты 0,4 40 35 0,3 30 0,2 25 0,1 20 alpha 0 15 positive changes 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 negative changes 10 -0,1 micro-averaged 5 -0,2 alpha macro-averaged 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 -0,3 rank displacement 19.11.2008 Может ли Веб-поиск быть 36 стильным?
  • 37. Результаты - 2 0,65 1 initial ranking p1 0,9 alpha=0,2 p10 0,8 MAP 0,55 0,7 0,6 0,5 0,4 0,45 0,3 arw13494 0,2 alpha 0,1 0,35 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 average precision и снова: нет улучшения в среднем нужна типология запросов… 19.11.2008 Может ли Веб-поиск быть 37 стильным?
  • 38. Как узнать жанр, соответствующий запросу? определение уровня образования по запросу (Liu X. et al., 2004) implicit feedback (клики) персонализация поиска 19.11.2008 Может ли Веб-поиск быть 38 стильным?
  • 39. Кстати: не только релевантность Жанры – дополнительная информация для планирования обхода Веба роботом МП Обновляемость страниц зависит от жанра Boese E.S., Howe A.E. (2005) 19.11.2008 Может ли Веб-поиск быть 39 стильным?
  • 40. Заключение методы созрели для приложений сложность применения в Веб- поиске: определение жанров по запросу возможно: специализированный / персонализированный поиск 19.11.2008 Может ли Веб-поиск быть 40 стильным?
  • 41. Павел Браславский pb@yandex-team.ru http://kansas.ru/pb/ 19.11.2008 Может ли Веб-поиск быть 41 стильным?
  • 42. Ссылки Abdul-Jaleel, N., Allan, J., Croft, W.B., Diaz, F., Larkey, L., Li, X., Smucker, M. D., Wade, C. UMass at TREC 2004: Novelty and HARD. In Proceedings of TREC 2004 (2005) Boese E.S., Howe A.E. Effects of Web Document Evolution on Genre Classification. CIKM’05. Braslavski P. Combining Relevance and Genre-Related Rankings: an Exploratory Study. In Proc. of the Workshop quot;Towards Genre-Enabled Search Engines: The Impact of NLPquot;, 2007. Braslavski P., Tselishchev A. Style-Dependent Document Ranking. RCDL'2005. Collins-Thompson, K., Callan, J.P. A Language Modeling Approach to Predicting Reading Difficulty. HLT/NAACL’2004. Karlgren J., Cutting D. Recognizing Text Genre with Simple Metrics Using Discriminant Analysis. COLING 1994. Kumaran, G., Jones, R., Madani, O. Biasing Web Search Results for Topic Familiarity. CIKM’05 Lim C. S. et al. Multiple sets of features for automatic genre classification of web documents. IPM, 2005. Liu, X., Croft, W. B., Oh, P., Hart, D. Automatic Recognition of Reading Levels from User Queries. SIGIR’2004. Meyer zu Eissen S., Stein B. Genre Classification of Web Pages: User Study and Feasibility Analysis. KI’2004. Rauber A., Mueller-Koegler A. Integrating Automatic Genre Analysis into Digital Libraries. JCDL’2001. Rehm G., Santini M., Mehler A., Braslavski P., Gleim R., Stubbe A., Symonenko S., Tavosanis M., Vidulin V. Towards a Reference Corpus of Web Genres for the Evaluation of Genre Identification Systems. LREC 2008. Rosso, M.A. Using Genre To Improve Web Search. PhD thesis, University of North Carolina, Chapel Hill (2005) Santini M. State-of-the-Art on Automatic Genre Identification. Technical Report ITRI-04-03, Information Technology Research Institute, Univ. of Brighton, UK (2004) Si, L., Callan, J. A Statistical Model for Scientific Readability. In: Proceedings of CIKM’2001, pp. 574--576 (2001) Strzalkowski, T., Guthrie, L., Karlgren, J., Leistensnider, J., Lin, F. Perez-Carballo, J., Straszheim, T., Wang, J., Wilding, J. Natural Language Information Retrieval: TREC-5 Report. In: Proceedings of TREC’1995 (1996) Stubbe, A., Ringlstetter, Ch., Goebel, R. Elements of a Learning Interface for Genre Qualified Search. Proceedings of the Workshop “Towards Genre-Enabled Search Engines: The Impact of NLP”, 2007. WebGenreWiki, http://valian.kgf.uni-frankfurt.de/WebGenreWiki/index.php5/Main_Page WEGA project, http://www.uni-weimar.de/cms/medien/webis/research/projects/wega.html Браславский П. Методы повышения эффективности поиска научной информации (на материале Internet), 2000. 19.11.2008 Может ли Веб-поиск быть 42 стильным?