1. Main Interface
“+Create New Dataset ” 아래 “Select Publication Titles “ or “Select ProQuest Databases” 중 선택하여 데이터셋 검색을 실행.
⚫ Select Publication Titles : 신문, 저널, 매거진, 뉴스 등 제공 타이틀별 선택하여 데이터셋 구성
⚫ Select ProQuest Databases : PQDT Global, ProQuest Central, 다양한 신문/뉴스 데이터베이스 등
Workbench
“Workbench 에는 최대 10개의 Dataset을 생성을 허용합니다. 계속적인 추가 Dataset 생성이 필요할 경우 해당 Dataset을 Juputer Notebook에
전송 후 TDM Stduio Workbench에서 삭제하여도, Juputer Notebook에는 해당 데이터가 계속 존재 합니다.
2. 콘텐츠 선택( 저널,신문,매거진 ) - Choose Publications
• Select Publication Titles : Dataset 생성을 위한 신문, 저널, 매거진, 뉴스정보원 검색 & 선택 1. 타이틀 검색
: 저널.신문, 매거진 검색
2. 검색된 자료 확인 및
선택 (복수 선택 가능)
4.“Refine Content” 를
클릭하여 검색 화면 이동
3. 자료의 콘텐츠 제공
범위 확인
( 콘텐츠 제공범위 밖의
내용은 검색 할 수 없습니다)
1
2
3
4
3. • Select ProQuest Databases: ProQuest 제공 데이터베이스 선택 후 Dataset을 위한 검색 실행
ProQuest에서 제공하는
데이터베이스를 선택하여
Dataset을 생성할 수 있으며,
학위논문 데이터베이스인 “PQDT
Global”, 다양한 뉴스, 신문
데이터베이스 등을 (복수)선택할 수
있습니다.
“Refine Content” 를 클릭하여 검색
화면 이동
콘텐츠 선택( 데이터베이스 ) – Choose Database
4. 검색 – Refine Content
4. Limit to 메뉴
출판물유형, 레코드(기사)유형,
출판연도에 따라 검색 결과
제한(분류)
⚫ 1개의 Dataset은 최대 2백만 건 이하의 데이터만 처리 할 수 있습니다. 최초 선택한 Documents 수량이 2백만 건을
초과할 경우 keyword 검색 및 분류 기능( Limit to)을 통해 검색결과를 2백만 이하로 선택해 주시기 바랍니다.
Keyword입력
1
2
3
4
1.선택한 타이틀 및 각
Documents 건수 확인
2.선택한 콘텐츠의 전체
Documents 개수.
3. Keywords 입력 검색 실행.
5. 기본검색 - ProQuest 연산자를 이용하여 보다 쉬운 검색 설정
1. AND/OR/NOT 검색 – 검색어 사이에 AND/OR/NOT 입력
예) food AND nutrition → 두 검색어가 모두 포함된 문서 검색
예) food OR nutrition → 두 검색어 중 하나 이상 포함된 문서 검색
예) food NOT nutrition → food는 포함되나 nutrition은 제외된 문서 검색
2. 구문 검색 – 정확한 검색을 위해 “ “ 이용
예) “healthy eating” → 하나의 구문으로 검색
자료검색 – Tips
Best Practices on Searching ProQuest Content
동영상 참고
6. 검색 조건 제한(분류) : 출판연도, 출판물유형, 자료유형
• 선택/검색된 결과는 자료의 출판연도, Source Type, Document Type의 설정 변경
필요한 자료 조건에 따른
Dataset 구성을 위한 추가
기능.
➢ Date Published
➢ Source Type
➢ Document Type
조건(검색결과)확인 후
(우측하단) “Review Dataset”
을 클릭하여 다음단계 이동
검색, 추출하고자 하는 기간을
일단위로 설정 하시면 해당
조건이 검색결과에 반영
선택한 자료 유형에 따라 제공자료 분류
(저널)아티클, 뉴스, 기사, 사설, 광고, 리뷰, 인터뷰,
부고, 연설, 신문1면 등 상세 형식 분류(선택) 가능
7. Create Dataset
• Dataset Details: Dataset의 Name(영문)과 Description(한글 입력가능) 입력 후 Create Dataset 클릭
Dataset “Name”항목은 영문 입력만 가능
8. Dataset Status : Queued to Complete
• 생성된 Dataset은 데이터처리 완료까지 최소 수분에서 최대 1시간 이상 소요( 레코드 개수에 따라 상이함 )
• 최초 Dataset의 Status는 “In-Progress” 상태이며, 데이터처리 완료 후 “Ready for jupyter” 자동 변경
Workbench
9. Open Jupyter Notebook
• Workbench Status Change : Off 를 Running 상태로 전환
• “Open Jupyter Notebook”을 클릭하여 Jupyter Notebook 으로 이동
10. Jupyter Notebook – Start Here.ipynb
• Start Here 폴더: 생성된 Dataset에 대한 접근 및 자료 이용을 위한 설명
• ProQuest TDM Studio Manual 폴더 : 자료 반출/반입 및 이용자 문의에 대한 안내를 FAQ방식으로 제공
• ProQuest TDM Studio Samples 폴더 : 데이터분석에 활용 가능한 Topic modeling, Covert to dataframe, n-gram viewer, Keyword in context
등 널리 활용되는 스크립트 Sample을 제공