4. Основания для внесения словосочетания в словарь - высокая частотность - высокая степень ассоциации - синонимичность лексической единице - значительная многозначность компонентов ( состояние дел, повестка дня );
5. ( Браславский и др., 2006) 1.Исходная информация: 1)Статистика встречаемости пар и отдельных слов в тексте 2)некоторые предположения о структуре двусловных терминов
9. Примеры извлеченных терминов. Первые 30 (Щедровицкий) 54 сложный процесс 56 онтологическая картина 59 научное исследование 64 целый ряд 67 методологическая работа 67 всякий случай 72 научный предмет 73 математическое отношение 74 картина мира 78 научное мышление 81 суть дела 85 одна сторона 89 знаковая форма 227 точка зрения 254 процесс мышления Freq Двусловие 35 меньшая мера 36 научн ое знание 37 мыслительный процесс 38 исходн ое знание 39 теория познания 40 исходный материал 41 теория мышления 42 эмпирический материал 44 процесс соотнесения 46 формальн ая логика 46 форма организации 47 един ая картина 48 краевой процесс 50 методологическ ое мышление 52 с ия пора Freq Двусловие
10. Результаты: Результаты экспертной оценки, «Сетевые операционные системы» Результаты экспертной оценки, «Философия. Методология. Наука»
11. Проблема: -Устойчивые словосочетания общей лексики («суть дела») Предложенное решение: Использование дополнительного «контрастного» корпуса ( web )
12.
13.
14. Данные 11 719 180 048 ФНМ Щедровицкий Г.П. Философия. Наука. Методология. М, 1989. 30 245 256 255 ВОГиС «Информационный вестник ВОГиС», http :// www . bionet . nsc .ru/ vogis СОС ID 9 391 99 337 Олифер Н.А., Олифер В.Г. Сетевые операционные системы. СПб., 2005. Пар Слов
17. Top-15 списков Freq и coherence ( ФНМ ) онтологическая картина сложный процесс методологическое мышление научное исследование тип мышления онтологическая картина особый род решение задачи организм деятельности целый ряд краевое знание краевой процесс типы знания методологическая работа подобные треугольники научный предмет познавательное действие математическое отношение процесс соотнесения картина мира предмет изучения научное мышление краевой процесс суть дела числовое значение знаковая форма исходное знание точка зрения словесно-алгебраическое выражение процесс мышления coherence Freq
19. Top-15 списков Freq и coherence ( ВОГиС ) дифференциация популяций боковая петля частоты аллелей число повторов поток генов микросателлитный локус фосфодиэфирная связь подавление экспрессии генетическая дифференциация популяция человека генное разнообразие окружающая среда искусственная рибонуклеаза точка зрения химические рибонуклеазы этническая группа микросателлитная изменчивость стволовая клетка одноцепочечный участок фосфодиэфирная связь специфичность расщепления генетическое разнообразие микросателлитный локус наследственная болезнь подразделенная популяция естественный отбор случайный инбридинг настоящее время индекс Кроу экспрессия генов coherence Freq
20. -Ухудшение на наборах СОС и ФНМ -Существенное улучшение на наборе ВОГиС. Причина: -происхождение данных - Особенности терминологии соответствующих предметных областей. Пример (ФНМ): точка зрения, решение задачи, постановка вопроса, новая проблема. -несбалансированность web как корпуса текстов Разбор результатов
21.
22. 3. (Добров и др., 2003) Терминологические словосочетания произвольной длинны
24. Метод Terms-- Идея: в тексте слова термина встречаются рядом чаще, чем в разбивку -Склейка пары слов , если они часто появляются как непосредственные соседи -Пересчет таблиц
25. TERMS++ - TERMS + отсечения имён и географических названий TERMS+THES – TREMS++, в качестве начальных словарей – термины РуТез
26. С- Value a – кандидат в термины, |a| - длина словосочетания, измеряемая в количестве слов, freq(a) – частотность a, T a – множество словосочетаний, которые содержат a, P(T a ) – количество словосочетаний, содержащих a.