SlideShare a Scribd company logo
1 of 20
정보검색
문헌정보학과 / 김선태
(kim.suntae@jbnu.ac.kr)
학습 내용과 목표
1. 정보검색 개요
2. 정보검색시스템과 정보검색기법
3. 색인과 색인시스템
4. 정보검색시스템 평가 방법
문헌정보학도로서
정보검색의 의미를 정확히
이해하고 설명할 수 있다.
정보검색시스템과 색인시스
템의 목적과 상호관계를 설
명할 수 있다.
다양한 색인작업과 정보검색
기법를 설명할 수 있다.
정보검색시스템 평가방법을
설명할 수 있다.
2
“어! 김신입 대학에서 문헌정보
전공했지? 다음주 부터 우리회사
지식베이스시스템 개발TFT에
참여하세요’
나 김신입 
3
요즘 이용자들이 우리
도서관검색시스템
검색결과에 불만이 많아요.
좋은 아이디어 없어요?
우리 시스템의
재현율을 높이면
어떨까요?” 재현율을 높이면
정확률이 떨어져
또다른 불만이
생길수 있습니다
한과장
4
Intro (1/2)
정보검색은 우리의 일상이 된지 오래
5
미세먼지 호흡기 질환에 영향 커
오늘의 주가지수 호황 예상
오늘 미세먼지
Intro (2/2)
6
정보검색이란 무엇인가?
음성, 문맥, 위치, 개인정보
이용자의 정보요구에 적합한
정보를 찾는 일련의 과정
7
정보검색시스템 (1/2)
정보검색시스템은 제공하는 정보를 기준으로 구분
8
정보검색시스템 (2/2)
원문정보/본문정보데이터/사실정보 참조정보
멀티미디어정보
정보 구조화 방법 (지식베이스 구축 / 지식공학)
• 술어논리 / 의미네트워크 /
• 개념틀 / 스크립트 / 생성규칙
지능형정보/질문응답/
하이퍼텍스트 정보 / 전문가시스템
• 술어논리
man(철수)
man(만수)
love(철수,만수)
love(만수,철수)
9
A
B
C
D
E
G
F
H
J
K
I
M
N
L
A
C
I
L
M
정보검색 기법
오늘1
전주3
미세먼지10
클러스터
불리언
검색어 가중치
연관검색
검색어 확장 검색결과 확장
10
색인이란 무엇인가?
특정한 정보의 위치를 지시해 줌으로써 이용자가 원하는
정보를 쉽게 찾을 수 있도록 도와주는 도구
위키피디아 0.01%
= 5000페이지책
인덱스가 없다면?
11
색인시스템과 색인의 종류 (1/2)
분류코드
색인
852.32
주제명
색인
범죄
키워드
색인
살인
유기
분류
시스템
주제명
시스템
키워드
시스템
12
색인시스템과 색인의 종류 (2/2)
c1
c2
c3
c4
k1
k2
k3
k4
s2
s3
C
정보자료 키워드
시스템
(시소러스)
주제명
시스템
(주제명표)
분류
시스템
(분류표)색인어 통제어휘집 
입력된 정보자료를 분석하여
색인(index)을 출력물로 생산하는 시스템
전조합색인 (후)조합색인
색인생성시 검색시
개념 조합의 시기 
주제색인 (주제)
비주제색인 (서명, 저자 등)
색인어 
개념조합
개념조합
개념조합
13
솔의 효능
색인시스템과 검색시스템
키워드
색인시스템
검색시스템
색인DB
시소러스)
시소러스)
사서 
 이용자
부추
전라도: 솔
경상도: 정구지, 소풀
제주도: 쇠우리, 세우리
14
시어머니와 며느리, 명절전투 시작 (X)
서울시 미세먼지 최악 (X)
부산어머니합창단 (X)
최단장 합창단 비리연루 (X)
서울시 어머니 합창단 신입단원 모집 (O)
서울시 어머니 합창단 사진 컬렉션 (O)
서울시어머니합창단
정보검색시스템평가 (1/4)
말하기와 숨쉬기의 관계는
색인과 정보검색시스템의
관계와 같다.
15
정보검색시스템평가 (2/4)
적합정보 부적합정보 적합정보 부적합정보
A : 재현율은 낮고 정확률은 높은 경우
B : 재현율은 높고 정확률은 낮은 경우
BA
16
정보검색시스템평가 (3/4)
Courtesy of https://en.wikipedia.org/wiki/Precision_and_recall
재현율
정확률
a bc d
17
정보검색시스템평가 (4/4)
재현율 R
정확률 P
누락률 F
(1 – 재현율)
잡음율
(1 – 정확률)
부적합률
(1 – 배재율)
배재율
(1 – 부적합률)
보편율 G
=
검색되지 않은 적합문헌수
적합 문헌 총수
=
𝒄
𝒂+𝒄
=
검색된 부적합 문헌수
검색된 문헌 총수
=
𝒃
𝒂+𝒃
=
검색된 부적합 문헌수
부적합 문헌 총수
=
𝒃
𝒃+𝒅
=
검색되지 않은 부적합 문헌수
부적합 문헌 총수
=
𝒅
𝒃+𝒅
=
적합 문헌수
전체 문헌 총수
=
𝒂+𝒄
𝒂+𝒃+𝒄+𝒅
𝐏 =
𝑹 ⅹ 𝑮
𝑹 ⅹ 𝑮+𝑭(𝟏−𝑮)
=
검색된 적합 문헌수
검색된 문헌 총수
=
𝒂
𝒂+𝒃
=
검색된 적합문헌수
적합 문헌 총수
=
𝒂
𝒂+𝒄
18
학습 내용 복습
19
감사합니다
20

More Related Content

Similar to Information retrieval by_suntae_kim

Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data AnalysisMyunggoon Choi
 
코로나 이후, 반중정서는 과연 심화되었을까 - 강태영(언더스코어)
코로나 이후, 반중정서는 과연 심화되었을까 - 강태영(언더스코어)코로나 이후, 반중정서는 과연 심화되었을까 - 강태영(언더스코어)
코로나 이후, 반중정서는 과연 심화되었을까 - 강태영(언더스코어)Tae Young Kang
 
Health Mashups: Presenting Statistical Patterns between Wellbeing Data and Co...
Health Mashups: Presenting Statistical Patterns between Wellbeing Data and Co...Health Mashups: Presenting Statistical Patterns between Wellbeing Data and Co...
Health Mashups: Presenting Statistical Patterns between Wellbeing Data and Co...Yoojung Kim
 
Inu x corps big idea contest_6팀 체커스
Inu x corps big idea contest_6팀 체커스Inu x corps big idea contest_6팀 체커스
Inu x corps big idea contest_6팀 체커스TaeHwanKim61
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망Open Cyber University of Korea
 
Me2day&twtter brownbag seminar
Me2day&twtter brownbag seminarMe2day&twtter brownbag seminar
Me2day&twtter brownbag seminarHan Woo PARK
 
Data for project text mining
Data for project text miningData for project text mining
Data for project text mining호준 김
 
Understanding Users’ Perception Towards Automated Personality Detection with ...
Understanding Users’ Perception Towards Automated Personality Detection with ...Understanding Users’ Perception Towards Automated Personality Detection with ...
Understanding Users’ Perception Towards Automated Personality Detection with ...Myeonggyun Ryu
 
프로그램 기획과 평가
프로그램 기획과 평가프로그램 기획과 평가
프로그램 기획과 평가Hyun-jin Kim
 
프로그램 기획과 평가
프로그램 기획과 평가프로그램 기획과 평가
프로그램 기획과 평가Hyun-jin Kim
 
웹보메트릭스02 1
웹보메트릭스02 1웹보메트릭스02 1
웹보메트릭스02 1Inho Cho
 
연세스프 인터뷰정리
연세스프 인터뷰정리연세스프 인터뷰정리
연세스프 인터뷰정리Ji Young Park
 
법률정보의 조사 제2강
법률정보의 조사  제2강법률정보의 조사  제2강
법률정보의 조사 제2강필재 이
 
Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 20...
Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 20...Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 20...
Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 20...Hyunjin Ahn
 

Similar to Information retrieval by_suntae_kim (20)

Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
코로나 이후, 반중정서는 과연 심화되었을까 - 강태영(언더스코어)
코로나 이후, 반중정서는 과연 심화되었을까 - 강태영(언더스코어)코로나 이후, 반중정서는 과연 심화되었을까 - 강태영(언더스코어)
코로나 이후, 반중정서는 과연 심화되었을까 - 강태영(언더스코어)
 
Health Mashups: Presenting Statistical Patterns between Wellbeing Data and Co...
Health Mashups: Presenting Statistical Patterns between Wellbeing Data and Co...Health Mashups: Presenting Statistical Patterns between Wellbeing Data and Co...
Health Mashups: Presenting Statistical Patterns between Wellbeing Data and Co...
 
Inu x corps big idea contest_6팀 체커스
Inu x corps big idea contest_6팀 체커스Inu x corps big idea contest_6팀 체커스
Inu x corps big idea contest_6팀 체커스
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
 
김혁진
김혁진김혁진
김혁진
 
Me2day&twtter brownbag seminar
Me2day&twtter brownbag seminarMe2day&twtter brownbag seminar
Me2day&twtter brownbag seminar
 
빅데이터
빅데이터빅데이터
빅데이터
 
Data for project text mining
Data for project text miningData for project text mining
Data for project text mining
 
통계, 즐기셈 배우셈 나라셈에서! - 통계청 국민디자인단
통계, 즐기셈 배우셈 나라셈에서! - 통계청 국민디자인단 통계, 즐기셈 배우셈 나라셈에서! - 통계청 국민디자인단
통계, 즐기셈 배우셈 나라셈에서! - 통계청 국민디자인단
 
Understanding Users’ Perception Towards Automated Personality Detection with ...
Understanding Users’ Perception Towards Automated Personality Detection with ...Understanding Users’ Perception Towards Automated Personality Detection with ...
Understanding Users’ Perception Towards Automated Personality Detection with ...
 
프로그램 기획과 평가
프로그램 기획과 평가프로그램 기획과 평가
프로그램 기획과 평가
 
프로그램 기획과 평가
프로그램 기획과 평가프로그램 기획과 평가
프로그램 기획과 평가
 
웹보메트릭스02 1
웹보메트릭스02 1웹보메트릭스02 1
웹보메트릭스02 1
 
사업계획서
사업계획서사업계획서
사업계획서
 
연세스프 인터뷰정리
연세스프 인터뷰정리연세스프 인터뷰정리
연세스프 인터뷰정리
 
법률정보의 조사 제2강
법률정보의 조사  제2강법률정보의 조사  제2강
법률정보의 조사 제2강
 
통계진로정보게시판(20150225)
통계진로정보게시판(20150225)통계진로정보게시판(20150225)
통계진로정보게시판(20150225)
 
통계진로정보게시판(20150225)
통계진로정보게시판(20150225)통계진로정보게시판(20150225)
통계진로정보게시판(20150225)
 
Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 20...
Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 20...Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 20...
Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 20...
 

More from Suntae Kim

연구데이터! 기승전도서관
연구데이터! 기승전도서관연구데이터! 기승전도서관
연구데이터! 기승전도서관Suntae Kim
 
연구 데이터와 DMP 대응 - CoreTrustSeal 분석-
연구 데이터와 DMP 대응 - CoreTrustSeal 분석-연구 데이터와 DMP 대응 - CoreTrustSeal 분석-
연구 데이터와 DMP 대응 - CoreTrustSeal 분석-Suntae Kim
 
연구데이터와 전문도서관
연구데이터와 전문도서관연구데이터와 전문도서관
연구데이터와 전문도서관Suntae Kim
 
연구 데이터와 도서관
연구 데이터와 도서관연구 데이터와 도서관
연구 데이터와 도서관Suntae Kim
 
과학을 과학답게 만드는 데이터 그리고 데이터 사이언티스트
과학을 과학답게 만드는 데이터 그리고 데이터 사이언티스트과학을 과학답게 만드는 데이터 그리고 데이터 사이언티스트
과학을 과학답게 만드는 데이터 그리고 데이터 사이언티스트Suntae Kim
 
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04Suntae Kim
 
연구데이터 관리와 데이터 관리 계획서 (DMP) - part03
연구데이터 관리와 데이터 관리 계획서 (DMP) - part03연구데이터 관리와 데이터 관리 계획서 (DMP) - part03
연구데이터 관리와 데이터 관리 계획서 (DMP) - part03Suntae Kim
 
연구데이터 관리와 데이터 관리 계획서 (DMP) - part02
연구데이터 관리와 데이터 관리 계획서 (DMP) - part02연구데이터 관리와 데이터 관리 계획서 (DMP) - part02
연구데이터 관리와 데이터 관리 계획서 (DMP) - part02Suntae Kim
 
연구데이터 관리와 데이터 관리 계획서 (DMP) - part01
연구데이터 관리와 데이터 관리 계획서 (DMP) - part01연구데이터 관리와 데이터 관리 계획서 (DMP) - part01
연구데이터 관리와 데이터 관리 계획서 (DMP) - part01Suntae Kim
 
D bguide 데이터 기반 연구 패러다임(최종회)_데이터 관리 계획서와 rdms
D bguide 데이터 기반 연구 패러다임(최종회)_데이터 관리 계획서와 rdmsD bguide 데이터 기반 연구 패러다임(최종회)_데이터 관리 계획서와 rdms
D bguide 데이터 기반 연구 패러다임(최종회)_데이터 관리 계획서와 rdmsSuntae Kim
 
D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동
D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동
D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동Suntae Kim
 
D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학
D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학
D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학Suntae Kim
 
오픈사이언스와 연구데이터
오픈사이언스와 연구데이터오픈사이언스와 연구데이터
오픈사이언스와 연구데이터Suntae Kim
 
I rods분석(20170313,01,김선태)
I rods분석(20170313,01,김선태)I rods분석(20170313,01,김선태)
I rods분석(20170313,01,김선태)Suntae Kim
 
과학데이터와연구소재
과학데이터와연구소재과학데이터와연구소재
과학데이터와연구소재Suntae Kim
 
과학데이터와연구소재
과학데이터와연구소재과학데이터와연구소재
과학데이터와연구소재Suntae Kim
 
연구 데이터 관리를 위한 메타데이터
연구 데이터 관리를 위한 메타데이터연구 데이터 관리를 위한 메타데이터
연구 데이터 관리를 위한 메타데이터Suntae Kim
 
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관Suntae Kim
 
학술데이터 공유 플랫폼_datanest_ccgs2015
학술데이터 공유 플랫폼_datanest_ccgs2015학술데이터 공유 플랫폼_datanest_ccgs2015
학술데이터 공유 플랫폼_datanest_ccgs2015Suntae Kim
 
과학과 비과학 이야기: 너 그거 아니?
과학과 비과학 이야기: 너 그거 아니? 과학과 비과학 이야기: 너 그거 아니?
과학과 비과학 이야기: 너 그거 아니? Suntae Kim
 

More from Suntae Kim (20)

연구데이터! 기승전도서관
연구데이터! 기승전도서관연구데이터! 기승전도서관
연구데이터! 기승전도서관
 
연구 데이터와 DMP 대응 - CoreTrustSeal 분석-
연구 데이터와 DMP 대응 - CoreTrustSeal 분석-연구 데이터와 DMP 대응 - CoreTrustSeal 분석-
연구 데이터와 DMP 대응 - CoreTrustSeal 분석-
 
연구데이터와 전문도서관
연구데이터와 전문도서관연구데이터와 전문도서관
연구데이터와 전문도서관
 
연구 데이터와 도서관
연구 데이터와 도서관연구 데이터와 도서관
연구 데이터와 도서관
 
과학을 과학답게 만드는 데이터 그리고 데이터 사이언티스트
과학을 과학답게 만드는 데이터 그리고 데이터 사이언티스트과학을 과학답게 만드는 데이터 그리고 데이터 사이언티스트
과학을 과학답게 만드는 데이터 그리고 데이터 사이언티스트
 
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
연구데이터 관리와 데이터 관리 계획서 (DMP) - part04
 
연구데이터 관리와 데이터 관리 계획서 (DMP) - part03
연구데이터 관리와 데이터 관리 계획서 (DMP) - part03연구데이터 관리와 데이터 관리 계획서 (DMP) - part03
연구데이터 관리와 데이터 관리 계획서 (DMP) - part03
 
연구데이터 관리와 데이터 관리 계획서 (DMP) - part02
연구데이터 관리와 데이터 관리 계획서 (DMP) - part02연구데이터 관리와 데이터 관리 계획서 (DMP) - part02
연구데이터 관리와 데이터 관리 계획서 (DMP) - part02
 
연구데이터 관리와 데이터 관리 계획서 (DMP) - part01
연구데이터 관리와 데이터 관리 계획서 (DMP) - part01연구데이터 관리와 데이터 관리 계획서 (DMP) - part01
연구데이터 관리와 데이터 관리 계획서 (DMP) - part01
 
D bguide 데이터 기반 연구 패러다임(최종회)_데이터 관리 계획서와 rdms
D bguide 데이터 기반 연구 패러다임(최종회)_데이터 관리 계획서와 rdmsD bguide 데이터 기반 연구 패러다임(최종회)_데이터 관리 계획서와 rdms
D bguide 데이터 기반 연구 패러다임(최종회)_데이터 관리 계획서와 rdms
 
D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동
D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동
D bguide 데이터 기반 연구 패러다임(2회)_데이터 과학과 오픈 사이언스 운동
 
D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학
D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학
D bguide 데이터 기반 연구 패러다임(1회)_연구 패러다임 변화와 데이터 집중 과학
 
오픈사이언스와 연구데이터
오픈사이언스와 연구데이터오픈사이언스와 연구데이터
오픈사이언스와 연구데이터
 
I rods분석(20170313,01,김선태)
I rods분석(20170313,01,김선태)I rods분석(20170313,01,김선태)
I rods분석(20170313,01,김선태)
 
과학데이터와연구소재
과학데이터와연구소재과학데이터와연구소재
과학데이터와연구소재
 
과학데이터와연구소재
과학데이터와연구소재과학데이터와연구소재
과학데이터와연구소재
 
연구 데이터 관리를 위한 메타데이터
연구 데이터 관리를 위한 메타데이터연구 데이터 관리를 위한 메타데이터
연구 데이터 관리를 위한 메타데이터
 
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
연구패러다임 변화와-데이터-집중-과학 국립해양생물자원관
 
학술데이터 공유 플랫폼_datanest_ccgs2015
학술데이터 공유 플랫폼_datanest_ccgs2015학술데이터 공유 플랫폼_datanest_ccgs2015
학술데이터 공유 플랫폼_datanest_ccgs2015
 
과학과 비과학 이야기: 너 그거 아니?
과학과 비과학 이야기: 너 그거 아니? 과학과 비과학 이야기: 너 그거 아니?
과학과 비과학 이야기: 너 그거 아니?
 

Information retrieval by_suntae_kim

Editor's Notes

  1. 안녕하세요. 저는 김선태 입니다. 먼저 이렇게 공개강의 및 세미나 면접에 도전할 수 있는 기회를 주셔서 감사합니다. 그럼 지금부터 정보검색에 대해 학부생들을 대상으로한 공개강의를 시작하겠습니다.
  2. 오늘 배울 내용입니다. 정보검색시스템은 무엇이고 정보검색기법에는 무엇이 있는지 색인은 무엇이고 색인시스템에는 무엇이 있는지 알보겠습니다. 마지막으로 정보검색시스템을 평가하는 방법에는 무엇이 있는지 알아보겠슴니다. 오늘은 첫 시간인 만큼 정보검색 전반에 대해 이해하는 것이 목표입니다.
  3. 여러분중 일부는 졸업을 하고 공무원이 되거나 기업에 입사할 수 있습니다. 경영이나 기획, 마케팅 부서에서 근무 할 수도 있습니다. 어느날 회의중에 담당 부서장이 이렇게 이야기합니다.
  4. 여러분중 어떤분은 도서관에 취업할수 있습니다. 입사 후 어느날 한과장이 신입직원들과 토의를 합니다. 한과장이 이야기합니다. “요즘 이용자들이 우리 도서관검색시스템의 검색결과과 적게나온다고 불만이 많아요. 좋은 아이디어 없어요?” 오른쪽 동기가 말합니다. “우리 시스템의 재현율을 높이면 어떨까요?” 이번엔 왼쪽 동기가 말합니다. “재현율을 높이면 정확률이 떨어져서 또다른 불만이 생길수 있습니다.” 한 학기 수업이 끝나는 시점에 여러분의 실력은 조직의 TFT활동과 도서관 직원토론에 멋지게 참여할 수 있는 수준이 되어 있을 겁니다. 여러분 정보검색이 정말 중요하다고 느껴지시죠? 자~ 그럼 정보검색의 숲으로 들어가 볼까요?
  5. 정보검색은 우리의 일상이 된지 오래입니다. 학교 전자도서관에서 책을 검색하고, 네이버를 검색하고, 카톡에서 친구를 검색하고, 유투브에서 동영상을 찾습니다. 구글링을 하고 도서관 책을 찾습니다. 요즘은 음성검색도 보편화되고 있지요? 정보검색 결과는 항상 만족스러웠습니까?
  6. 검색결과 건수가 많이 제시되지만 정작 내가 원하는 정보는 별로 없는 경우… 누구나 있지요? 이 경우는 어떻습니까? 아침에 학교에 가기 위해서 마스크를 챙겨야하는지 말아야하는지 궁금한겨죠… 검색결과가 이렇게 나오면 정말 화나지 않겠습니까? 이건 엉터리 정보검색시스템을 사용했기 때문입니다. 그럼 제대로된 정보검색이란 무엇일까요?
  7. 정보검색이란 이용자의 정보요구에 적합한 정보를 찾는 일련의 과정 입니다. 정보요구를 정확히 파악하기 위해서는 무엇이 필요할까요? 검색전문가들이 말하길 미래의 정보검색 4대 요소는 무엇일까요? 음성, 문맥, 위치, 개인정보라 합니다. 이런 정보검색시스템은 제공하는 정보를 기준으로 구분될 수 있습니다
  8. 예를들어, 어떤 정보검색시스템은 연구자들이 관찰,관측,실험,조사,분석등을 통해 수집 생산한 데이터 제공하기도 하고요. 정보원에 대한 참조정보를 제공하기도 하고 정보원 자체, 예를들어 정보원 자체를 제공하기도 합니다. 동영상, 사진 등을 검색하기도 하고요. 질문에 대한 답을 찾아주기도 합니다. 각 각을 이렇게 부릅니다.
  9. 각각의 시스템은 검색화면을 제공합니다. 검색화면 뒤에서는 정보를 쉽게 찾을 수 있도록 색인이 만들어져 있습니다. 그럼 색인이란 뭘까요? 술어논리 (predicate logic) : 문장을 구성하는 개념간의 관계 및 문장간의 관계를 나타내는 현대적 기호논리학의 한 영역으로 all, some과 같은 수량사를 사용함. 좋아하다(철수,영희) 의미네트워크 : 노드와 이러한 노드를 연결하는 링크로 구성되는 그래프로스 노드는 개념을, 링크는 개념간의 관계를 나타낸다. 시소러스와 같은 주제지식을 표현하는데 특히 적합함 개념틀 : 사물이나 사건과 같은 개념을 나타내는 정보구조로서 하나의 개념틀은 여러 개의 슬롯(slots)으로 구성. 각 슬롯은 하나의 새념틀로 표현되는 개념에 대한 정보를 담고 있음. 승용차라는 개념틀은 모델명, 색깔,배기량, 생산연도 등의 정보를 담을 슬롯을 갖게 된다. 스크립트 : 일상적으로 일어나는 사건을 표현하기 위해 사용하는 정보구조. 사건에 관련된 일련의 행위를 각본과 같이 기술함 생성규칙 : 전문가시스템에서 많이 사용하는 지식표현기법으로서 if-then 문의 형식으로 표현함
  10. 정보를 검색하는 기법도 여러가지가 있습니다. 우리가 흔히 사용하는 방식으로 불리언방식이 있지요. 구글에서 키워드로 ‘부추 효능‘ 이렇게 입력하면 기본적으로 부추 키워드와 효능 키워드가 모두 들어있는 정보가 검색됩니다. 같은 클러스터에 속하는 유사한 내용의 정보들은 같은 질문에 대해 적합정보일 경우가 많다는 가설에 근거 검색어를 확장하고 검색결과를 확장하는 방법도 있지요. 이용자가 입력한 검색어에 가중치를 부여해서 검색결과가 가중치 합 이상으로 되는 것만 결과물로 제시할 수도 있습니다.
  11. 색인이란 원하는 정보를 쉽게 찾을 수 있도록 정보의 위치를 지시해주는 도구입니다. 예를 들어, 책 뒤에 있는 색인을 말하죠. 네비게이션과 같은게 색인입니다. 여러분 위키피이아 아시죠? 위키피디어 정보중에 0.01% 내용만 책으로 만들더라도 5000페이지가 된답니다. 이렇게 두꺼운 책에 색인이 있다하더라도 쉽게 찾아갈 수 있을까요? 웹상에 그 방대한 위키피디어 시스템에도 색인이 구축되어 있기때문에 운하는 정보를 우리가 쉽게 찾을 수 있습니다. 그런데 말입니다. 네이게이션이 엉터리라면 우린 어떻게 될까요? 색인이 엉터리라면 어떻게 될까요?
  12. 색인시스템은 색인을 출력물로 생산하는 시스템입니다. 색인의 종류는 매우 다양한 기준으로 구분될 수 있어요. 예를 들어서, 무궁화 꿏이 피었습니다. 라는 도서가 있다고 해요. 이책을 찾아가는 방법은 크게 두가지입니다. 책의 주제로 접근해서 찾아가는 방법과 책의 서명이나 저자로 접근해서 찾아가는 방법이 있습니다. 생성되는 색인어에 따라 분류시스템, 주제명시스템, 키워드시스템으로 구분됩니다. 요즘은 거의 키워드 시스템 입니다. 색인어를 통제하는 어휘집은 시스템마다 다릅니다. 각각 분류표, 주제명표, 시소러스가 사용됩니다. 색인어를 만들 때 개념 조합이 필요합니다. 물로 검색시점에도 개념 조합이 필요합니다. 색인단계 : 주제분석 및 주요 개념 추출  코드화(색인어 변형, 용어통제)  색인작성 용어절단법 (term truncation) 용어집단화기법 (term clustering) 색인 접근점 용어엔트리 시스템 vs. 문헌엔트리시스템 개념조합 시기 전조합 vs. (후)조합색인 주제색인기법 용어추출색인(자연언어색인) vs. 용어부여색인(통제언어색인) 색인어 선정대상 주제색인 vs. 비주제색인 용어엔트리 시스템 (term entry system) 주제명목록 시스템 유니텀 시스템 광학일치카드 시스템 도치색인화일 시스템 문헌엔트리시스템 (item entry system) 색인화일을 별도작성 X 각 정보자료에 색인어 배정 저자/서명목록 주변절단카드시스템 인덱싱 항목과 데이터베이스 엔트리간의 관계가 데이터베이스에 엔트리를 추가하는 시점에 정해지지 않는 색인 기법이다. 색인 항목은 질의 처리시 이용자에 의하여 결합되고 조작될 수 있다. 정보 검색 시스템에서 보편적으로 사용되는 전문에서 추출된 키워드의 이진 결합 방식이 후조합 색인법의 극단적인 예가 된다.
  13. 색인시스템을 통해 만든 색인은 어떻게 쓰일까요? 물론 정보검색에 사용됩니다. 키워드색인시스템을 예로들어 설명해 보겠습니다. 사서는 서명이 ‘부추’인 도서를 색인통제어휘집, 시소러스를 사용하여 색인을 생성합니다. 이용자는 ‘솔의 효능'이라는 검색어를 이용해 검색을 합니다. 검색시스템은 시소러스를 이용하여 이용자의 검색어를 확장합니다. 부추도 검색되고 솔, 정구지로도 검색합니다. 이렇듯 색인시스템과 검색시스템은 밀겹합 되어 있습니다.
  14. 말을 할 때 숨쉬기는 매우 중요합니다. 나 어제 서울시어머니합창단에 가입했어. 나 어제 서울 시어머니합창단에 가입했어. 뭔가 이상하죠? 색인을 잘 못 생성하거나 검색어 분석을 잘못하면 예상밖의 결과물들이 쏟아집니다. 엄청난 양의 결과리스트가 나왔는데… 정작 원하는 정보가 몇건 없는경우 겸색 결과는 몇건 안되는데 거의 원하던 정보인 경우 따라서 이용자는 정보검색 결과에 대해 만족 할 수도 있고 불만족스러울 수 있습니다. 우리는 문헌정보학도이기 때문에 대안을 제시해야 합니다. 바로 정보검색시스쳄평가 방법을 이용해서 평가해야 한다고 얘기해야합니다.
  15. 남색은 이용자가 원하는 정보들의 양입니다. 검정색은 이용자가 원하지 않는 정보들의 양입니다. 가운데 박스들은 각각에서 검색된 검색결과의 양입니다. 검색결과의 양은 B가 A보다 많습니다. 하지만 B는 검색된 부적합정보도 많습니다. A는 검색결과의 양이 적지만 검색된 부적합정보의 양이 적습니다. 즉 검색결과 중 원하는 정보가 차지하는 비율이 큽니다. A와 B중 어떤 시스템의 성능이 더 좋은걸까요?
  16. 안경쓴 연애인 사진을 검색한 결과입니다. 정준하 연애인은 안경을 쓰지 않았는데 검색되었습니다. 정보검색시스템평가에서 많이 사용하는것은 재현율과 정확률입니다. 재현율이라는 것은 전체 적합정보 대비 검색된 정보 중 적합정보의 비율을 의미합니다. 정확률이라는 것은 검색된 전체 정보 중 적합 정보의 비율을 의미합니다.
  17. 정보검색시스템을 평가하는 방법은 이렇게 많습니다. 재현율과 누락률, 정확률과 잡음율은 서로 상대적입니다. 각각에 대해서는 이 그림을 보면서 이해하시면 어렵지 않게 이해가 가능합니다. 지 ~ 이것으로 정보검색숲을 살펴보는 것은 마무리 합니다. 그럼 오늘 배운것을 잠깐 복습해 볼까요.
  18. 오늘 학습한 내용입니다. 잠깐 복습할까요? 우리는 정보검색이 무엇인지 살펴봤습니다. 정보검색이란 이용자의 정보요구에 적합한 정보를 찾는 일련의 과정이라 했습니다. 다음으로 제공되는 정보의 유형에 따라, 다양한 정보검색시스템이 존재한다는 것을 배웠습니다. 정보검색을 하는 기법으로 불리언검색, 클러스터검색, 가중치검색, 연관검색등을 배웠습니다. 다음으로 색인이 무엇인지 배웠고 색인을 생성하는 색인시스템에 대해 배웠습니다. 마지막으로 정보검색시스템을 평가하는 다양한 방법 재현율, 정확률, 잡음율, 누락률 등에 대해 배웠습니다. 모두 기억 나시죠? 앞으로 한 학기 동안 수업할 내용을 짧게 살펴봐서 다소 어렵다 느낄 수 있습니다. 하지만 걱정마세요. 최대한 여러분 눈 높이로 설명해 드리겠습니다. 여기까지 입니다. 모두 수고하셨습니다. 서버 (Server) : 서비스를 제공하는 컴퓨터 혹은 프로그램 인덱서 (Indexer) : 정보자료를 색인하는 컴퓨터 혹은 프로그램 Harvester : 정보를 수집하는 주체 Provider : 정보를 제공해주는 주체 Crawler : 정보를 자동으로 수집하는 장치나 프로그램 Keyword : 정보를 검색할 때에, 특정한 내용이 들어 있는 정보를 찾기 위하여 사용하는 단어나 기호 일련(一連) : 하나로 이어지는 것