SlideShare a Scribd company logo
1 of 49
Last updated – Jun 26, 2014 GTPLUS 김 종 인
Exadata Troubleshooting
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template2
주제
 문제 정의
 문제 진단툴
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template4
어디를 살펴볼것 인가?
 문제 정의
– 성능
– 에러
– Crash
– Hang
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template5
중요한 MOS Notes
 888828.1
– Exadata 환경의 패치와 최신이슈의 가장 중요한 참고문서
environment
– 다른 연관 MOS 문서들의 참조도 포함
 1070954.1 - exachk
– Best Practices 를 만족시키기 위한 DB에서 IB switch 까지 이르는 모든것을
체크해 준다.
– Asrexachk (1450112.1)
 Snmp 가 올바르게 설정되었는지 체크해 준다.
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template6
변경된 것이 있는가?
 최근에 변경된 것의 여부
– 새로운 패치
– 셀 또는 DB 노드의 업그레이드
– 네트워크 변경
– IORM or DBRM 의 사용
 시스템에서 최근에 환경에 변경된 히스토리를 찾아볼것
(.bash_history)
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template7
Sundiag
 /opt/oracle.SupportTools/sundiag.sh 은 DB 노드와 셀노드의
표준툴이다.
 The sundiag tool 은 cellcli 명령을 통해 ILOM snapshots
& Megacli raid card logs 을 포함한 많은 정보들을 수집해준다.
 failure or reboot로 인한 DB 노드,셀노드 단절시 sundiag 를
수행하여야 한다.
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template8
Sundiag
 Sundiag 로 수집되는 추가정보
– oswatcher
– dmesg
– /var/log/messages
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template9
ILOM (Integrated Light Out Manager)
 콘솔 History
– ipmitool sunoem cli "show /SP/console/history”
– ipmitool -I lanplus -H celadm01-ilom -U root -P welcome1 sunoem cli
"show /SP/console/history"
 ILOM 이벤트
– ipmitool -c sunoem cli "show -script /SP/logs/event/list”
– ipmitool -I lanplus –H celadm01-ilom -U root -P welcome1 sunoem cli
"show -script /SP/logs/event/list”
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template10
ILOM
 ipmitool -I lanplus –H celadm01-ilom -U root -P
welcome1 sunoem cli "show faulty”
– 하드웨어 이슈가 있다면 정보를 보여준다
 하드웨어가 다운되어 있고 sundiag를 수행하지 못하는 상황이라면
ILOM snapshot 을 뜨거나 remote snapshot 을 수행
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template11
ILOM 스냅샷
 ILOM 에서 스냅샷을 수집하여 호스트로 입력
– ILOM=cell01-ilom HOST=db01
– ipmitool sunoem cli "set /SP/diag/snapshot dataset=normal" -H $ILOM
-U root –P welcome1
– ipmitool sunoem cli "set /SP/diag/snapshot dump_uri=sftp://
root:welcome1@$HOST/tmp" -H $ILOM -U root -P welcome1
– ipmitool sunoem cli "show /SP/diag/snapshot" -H $ILOM -U root -P
welcome1
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template12
ILOM 스냅샷
 스냅샷 명령을 수행했으면 아래와 같이 진행되는 것을 확인가능
 지정한 위치에 파일이 있음을 확인가능
– cel07-c_10.245.20.169_2013-09-20T16-51-21.zip
set /SP/diag/snapshot dataset=normal
set /SP/diag/snapshot dump_uri=sftp://root:welcome1@172.16.20.1/tmp
cd /SP/diag/snapshot
show
Properties:
dataset = normal
dump_uri = (Cannot show property)
encrypt_output = false
** result = Running **
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template13
ILOM 스냅샷
 ILOM snapshots 은 콘솔 히스토리,이벤트 리스트, 하드웨어
Fault 등을 포함
 ILOM 스냅샷은 또한 하드웨어 Fault 와 노드 리부팅을
발생시킨 원인의 분석정보로서 중요한 데이터이다.
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template14
DB노드 성능
 OSWatcher 체크
– 메모리 사용은 어떠한가?
– CPU 사용은 어떠한가?
– IO 는 어떠한가?
 ExaWatcher/OSWatcher & 성능보고서를 통해 성능
저하를 가져오는 범위를 좁힐수 있다.
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template15
RAC 인스턴스 또는 노드 축출
 $GI_HOME/bin/diagcollect.pl
– 로그와 코어파일 수집
 --crs 옵션,압축화일의 크기를 줄일수 있음 (default –all)
 --aftertime –beforetime 옵션으로 압축화일의 크기를 줄일수 있음
 OCR & vote disks 접근가능여부
– ocrcheck
– crsctl query css votedisk
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template17
RAC 인스턴스 또는 노드 축출
 Exa/OSWatcher 수집은 축출의 경우에 아주 중요한
분석자료로 이용될수 있다.
 전체 디스크의 사용률 모니터링
 다음과 같은 Exadata Diagnostic collection 툴들도 로그와 트레이스
파일 수집에 도움이 될수 있다.
– Diagnostic Assistant (201804.1)
– Trace File Analyzer (1513912.1)
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template16
DB 노드 Hung
 노드 리부팅전에 ILOM 스냅샵 수집을 강력히 권고함
– 리부팅은 ILOM 콘솔 히스토리를 overwrite 할수도 있다.
 MOS 1352805.1 을 참고하여 hung된 노드를 리부팅하거나 SysRq
실행할것
Attempting to gracefully reboot hung Exadata cell or database node (문서 ID
1352805.1)
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template18
DB Hang 또는 성능이슈
 항상 Alertlog화일을 확인해보고 ORA-600/7445 에러가 있는지
살펴보고 I/O 에러 또는 기타 이슈원인에 대해 검토해 본다.
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template19
DB Hang 또는 성능이슈
 Hung 또는 성능이슈 관련 성능리포트를 수집할 필요가 있다.
– ASH
– AWR
– ADDM
– EXA/OSWatcher
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template20
DB Hang 또는 성능이슈
 DB가 Hung 이라면?
SQL> oradebug –g all hanganalyze 1
SQL> oradebug –g all systemstate 258
 Hang 분석,성능과 로그수집을 위해 RDA를 사용할 수도
있다.
 DB 성능이 저하된다면 ASM Disk 쪽을 살펴볼 필요도 있다.
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template21
ASM 디스크
 v$asm_disk 조회시 offline disk 가 있는지
 v$asm_operation 조회시 리밸런싱 작업이 있는지
 셀이 offline 상태라면 v$asm_operation 조회시 resync 가
일어나고 있는지 (list griddisk checks asm)
 디스크 들이 보이는지 확인 (kernel files OSM disk)
– kfod asm_diskstring='o/*/*' disks=all op=disk
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template22
ASM 디스크
 /etc/oracle/cell/network-config/cellip.ora
– 셀에서 디스크는 보이는데 ASM에서 소실
– cellip.ora 편집 (with caution)
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template23
엑사데이타에서 성능 메트릭
 메트릭은 다음의 객체들과 연관이 있다. (cell, cell disk, etc.).
 모든 이용가능한 메트릭은 METRICDEFINITION에 사전정의.
– METRICDEFINITION objects describe the metrics.
 METRICCURRENT 는 현재 값의 Set 이다.
 METRICHISTORY 는 과거 메트릭값의 모음이다.
 THRESHOLD 는 특정한 메트릭에 기초한 alert을 발생시키는 rule 이다.
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template24
성능 메트릭
 메트릭의 분류:
- Cell metrics – CPU 사용률, 네트워크 같은 Cell에 대한 정보
- Cell disk metrics – 셀디스크로 부터 읽은 large block 정보와 같은 셀디스크에
대한 정보
- Grid disk metrics - 그리드디스크로 부터 읽은 large block 정보와 같은 그리드
디스크에 대한 정보
- Host interconnection metrics – 셀에 엑세스 하는 호스트에 대한 I/O 전송정보
- IORM metrics – Category, Database and Consumer Group metrics. IORM에 대한
정보제공
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template25
셀 디스크 메트릭 예)
Number of requests
to Read Small Blocks
Number of requests
to Write Small Blocks
Number of [Mega]bytes
written in Large Blocks
IO latency for Read
CD_IO_RQ_R_SM
CD_IO_RQ_R_SM_SEC
CD_IO_RQ_W_SM
CD_IO_RQ_W_SM_SEC
CD_IO_BY_W_LG
CD_IO_BY_W_LG_SEC
CD_IO_TM_R_SM_RQ
C
R
C
R
C
R
R
IO req
IO/sec
IO req
IO/sec
Mb
Mb/sec
us/req small Blocks
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template26
IORM: DB 레벨 메트릭 예)
Number of requests
for Small Blocks
Number of requests
for Large Blocks
IORM wait time for
read/write Small Blocks
IORM wait time for
read/write Small Blocks
DB_IO_RQ _SM
DB_IO_RQ_SM_SEC
DB_IO_RQ_LG
DB_IO_RQ_LG_SEC
DB_IO_WT_SM
DB_IO_WT_SM_RQ
DB_IO_WT_LG
DB_IO_WT_R_LG_ RQ
C
R
C
R
C
R
C
R
IO req
IO/sec
IO req
IO/sec
us
us/req
us
us/req
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template27
셀 메트릭 데이터
 셀 메트릭 정보 수집 명령어
– cellcli -e list flashcachecontent attributes all|sed -e 's/^[ t]*//' -e 's/t/,/g'
-e 's/ //g' -e 's/$/,$(date '+%Y%m%d%H%M')/' -e 's/^/${celliphost},/'”
– list metriccurrent CD_IO_TM_W_SM_RQ where metricObjectName
like 'FD.*'
– dcli 로 여러셀 수행가능
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template28
셀 트러블슈팅
 Imageinfo
– 어떤 버전으로 운영되고 있는 확인가능
 List alerthistory
– 셀 에러 또는 에러 이력
 $CELLTRACE and $LOG_HOME
– alert history에 없는 추가적인 에러
– alert.log
– ms-odl.trc
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template29
셀 로그
 $CELLTRACE/alert.log file 에서 ora-600/7445 or
크리티컬 로그 확인
 cellcli list alerthistory
– $CELLTRACE/alert.log 에서도 내역확인 가능
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template30
셀 로그
 LIST ALERTHISTORY WHERE begintime > ’Sep 1,
2013 11:37:00 AM PDT‘
– 39 2013-09-09T12:26:53-07:00 "ORA-07445: exception encountered:
core dump “
 ADR_BASE
– adrci 는 셀로그로도 작동
– adrci 의 위치는 $OSS_BIN/bin
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template31
Cellcli 로그
 Incident package information 은 아래와 같이 확인가능
– celldiag.pl -adr /tmp/adrci -aftertime 201105300000 -beforetime
201106200000 -level all
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template32
셀 로그
 /var/log/oracle/deploy/cellcli.lst.0
– Lists 명령어는 셀환경의 변경 또는 수정 확인 가능.
– 최근 셀에 변경이 있었다면 유용할수 있음
 모든 Cell 에서 크리티컬 로그 수집을 위해 sundiag 수행
– 배터리, RAID 카드, 하드디스크, 플래쉬디스크 또는 I/O 이슈
– cell cli 명령이ㅣ 여전히 health dis로 나타난다면 추가적인 정보수집 가능
disks
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template33
Cellcli 명령어
 list griddisk attributes name,status
 list celldisk attributes name, status
– Proactive failure
– Not present
– Confine inactive
 list physicaldisk
– warning – poor performance
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template34
Cell 진단
 /opt/oracle.cellos/iso/lastGoodConfig/cell/cellsrv/deploy/
config/cellinit.ora
– 셀업그레이드 후 또는 네트워크 변경, 셀 서비스가 기동되지 않을때
해당 파일에서 정확한 IP 정보가 들어가 있는지 체크할것.
– 네트워크 변경작업은 ‘ipconf’ 를 이용하여야 하며, 그렇지 않은 경우
네트워크 변경내역이 업그레이드 작업시에 반영되지 않을 수 있다.
 /opt/oracle.cellos/cell.conf
– 셀 업그레이드 후에 셀 IP 정보가 저장되는 파일
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template35
Cell 진단
 lsof 를 이용하는 것도 trobleshooting에 도움이 될수 있다.
– lsof –a +L1 /u01 or lsof +L1
 unlinked open files의 사이즈 문제해결해 도움.
ex) df 100% but du –sk does not match
– lsof –i :161, lsof –i tcp/udp, netstat –an, -a or -lnp
 누가 어떤 Network port 를 사용하고 있는지 확인가능
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template36
셀 부팅 이슈
 셀 부팅시 grub 화면이 나타나지 않고 커서만 반짝일 경우
USB의 손상등 일수 있다.
 엑사데이타의 부팅은 기본으로 USB 이다.
 디스크로 부터 부팅을 시도해 볼수 있다.
– ipmitool chassis bootdev disk
– ipmitool -I lanplus –H celadm01-ilom -U root -P welcome1 sunoem cli
”set /HOST boot_device=disk”
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template37
네트워크 변경
 잘못된 서브넷마스크는 통신장애를 유발할수 있다.
 IP tables 변경은 issue 을 일으킬수 있다.
 GI/DB/Cell 은 RDS 을 이용하지만 여전히 TCP 통신을 수행
한다.
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template38
인피니밴드 스위치
 소프트웨어 & 펌웨어 버전
– “Version” on ibswitch shows current rev
 rpm –qa|grep ofa 현재 ofa stack
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template39
인피니밴드 스위치 Troubleshooting
 물리 & 링크 레이어 health check
– Listlinkup
– Ibdiagnet
– Ibnetdiscover
– Iblinkinfo.pl
 서브넷 매니저 상태
– Sminfo
– Ibdiagnet –r (look for SM section)
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template40
인피니밴드 스위치 Troubleshooting
 토폴로지 확인
– Verifytopology, infinicheck
– 스위치간 링크
– Fat Tree connection compliance
 Layer 3 연결 검증
– IP over IB
– Subnet Masks
– Multicast (saquery)
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template41
네트워크 모니터링 툴
 ibdiagnet
– Options: -ls, -lw, -r, -pc, -p
 iblinkinfo.pl
– Options: -S, -P
 perfquery
– Options: -r, -R, -x
 Some options apply to switches only
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template42
네트워크 모니터링 툴
 smpquery
– Options: nodeinfo <lid>, NodeDesc <lid>, NodeInfo <lid>
 ibswitches
– 현재 연결된 IB 스위치 보기
 ibhosts
– IB환경에 연결된 모든 호스트 보기
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template43
Ping 이 안될시
 subnets 확인 (ifconfig)
– IP 주소가 셋업이 잘 되어있는지
 local port 확인 (ibstat)
 routing table 확인 (netstat)
 link health 확인(ibdiagnet)
 OpenSM 상태확인
 Remote 에서 확인 반복수행
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template44
NM2 스위치가 네트웍이 안될시
 NM2 management 에서 호스트로 ping 여부
 Host 로 ssh 가 되는지
 USB 시리얼 콘솔에서
 외부포트 링크가 UP 인가?
 내부포트 링크가 UP 인가?
– Ethtool eth0
 이전 부팅환경의 정보를 가지고 있는지
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template45
IB 환경 검증
 적어도 1개의 마스터 또는 활성화된 서브넷 매니저가
있는지
 IB 호스트에 구동되어야 하는 서버넷 매니저의 유무
 링크 health state (ibdiagnet, ibstat)
 IP 주소와 서브넷 마스크
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template46
IB 환경 검증
 정확한 토폴로지와 케이블링
 중요 서비스가 구동중인지
 정확한 펌웨어 버전
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template47
다른 검증요소
 ping 작동여부
 ARP 작동여부working
 default gateway 와 통신여부reachable
 링크의 UP 여부
 IP 주소가 올바르게 할당 되었는지
 서버가 listening 상태인지
 패킷이 얼마나 멀리가고 그후에 소멸되는지
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template48
요약
 현재 패치버전을 정확히 확인한다.
 Exachk 을 자주 수행하는 것은 환경을 유효화하고 이전수행
환경과 비교하는것도 도움이 될수 있다.
 sundiag, TFA, DA or diagget 등과 같은 툴들은 복잡한 환경하
에서 접속수집을 원할히 할수 있게 해준다.
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template49
요약
 하드웨어 장애시 메시지가 전송되도록 셀 alerting 이
제대로 구성되었는지 확인
 간단히 확인가능한 요소부터 제거하여 장애유발 원인
파악을 위한 범위축소
 로그확인 재확인
Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template50
요약
 여러 개의 노드에 걸쳐 로그를 수집하는데 도움이 된다.
– TFA (Trace File Analyzer)
/u01/app/11.2.0.4/grid/tfa/exa1/tfa_home/bin# ./tfactl diagcollect
– DA

More Related Content

What's hot

Adapting to Adaptive Plans on 12c
Adapting to Adaptive Plans on 12cAdapting to Adaptive Plans on 12c
Adapting to Adaptive Plans on 12cMauro Pagano
 
Advanced PLSQL Optimizing for Better Performance
Advanced PLSQL Optimizing for Better PerformanceAdvanced PLSQL Optimizing for Better Performance
Advanced PLSQL Optimizing for Better PerformanceZohar Elkayam
 
Oracle Database performance tuning using oratop
Oracle Database performance tuning using oratopOracle Database performance tuning using oratop
Oracle Database performance tuning using oratopSandesh Rao
 
The basic concept of Linux FIleSystem
The basic concept of Linux FIleSystemThe basic concept of Linux FIleSystem
The basic concept of Linux FIleSystemHungWei Chiu
 
Oracle Enterprise manager SNMP and Exadata
Oracle Enterprise manager SNMP and ExadataOracle Enterprise manager SNMP and Exadata
Oracle Enterprise manager SNMP and ExadataMike Chafin
 
Under the Hood of a Shard-per-Core Database Architecture
Under the Hood of a Shard-per-Core Database ArchitectureUnder the Hood of a Shard-per-Core Database Architecture
Under the Hood of a Shard-per-Core Database ArchitectureScyllaDB
 
Schema replication using oracle golden gate 12c
Schema replication using oracle golden gate 12cSchema replication using oracle golden gate 12c
Schema replication using oracle golden gate 12cuzzal basak
 
How to Use EXAchk Effectively to Manage Exadata Environments
How to Use EXAchk Effectively to Manage Exadata EnvironmentsHow to Use EXAchk Effectively to Manage Exadata Environments
How to Use EXAchk Effectively to Manage Exadata EnvironmentsSandesh Rao
 
Db2 for z os trends
Db2 for z os trendsDb2 for z os trends
Db2 for z os trendsCuneyt Goksu
 
Exadata db node update
Exadata db node updateExadata db node update
Exadata db node updatepat2001
 
Oracle statistics by example
Oracle statistics by exampleOracle statistics by example
Oracle statistics by exampleMauro Pagano
 
Adapting and adopting spm v04
Adapting and adopting spm v04Adapting and adopting spm v04
Adapting and adopting spm v04Carlos Sierra
 
ETL Patterns with Postgres
ETL Patterns with PostgresETL Patterns with Postgres
ETL Patterns with PostgresMartin Loetzsch
 
Advanced MySQL Query Tuning
Advanced MySQL Query TuningAdvanced MySQL Query Tuning
Advanced MySQL Query TuningAlexander Rubin
 
How to size up an Apache Cassandra cluster (Training)
How to size up an Apache Cassandra cluster (Training)How to size up an Apache Cassandra cluster (Training)
How to size up an Apache Cassandra cluster (Training)DataStax Academy
 
Tanel Poder - Performance stories from Exadata Migrations
Tanel Poder - Performance stories from Exadata MigrationsTanel Poder - Performance stories from Exadata Migrations
Tanel Poder - Performance stories from Exadata MigrationsTanel Poder
 
Tanel Poder - Troubleshooting Complex Oracle Performance Issues - Part 2
Tanel Poder - Troubleshooting Complex Oracle Performance Issues - Part 2Tanel Poder - Troubleshooting Complex Oracle Performance Issues - Part 2
Tanel Poder - Troubleshooting Complex Oracle Performance Issues - Part 2Tanel Poder
 
Morel, a Functional Query Language
Morel, a Functional Query LanguageMorel, a Functional Query Language
Morel, a Functional Query LanguageJulian Hyde
 

What's hot (20)

Adapting to Adaptive Plans on 12c
Adapting to Adaptive Plans on 12cAdapting to Adaptive Plans on 12c
Adapting to Adaptive Plans on 12c
 
Advanced PLSQL Optimizing for Better Performance
Advanced PLSQL Optimizing for Better PerformanceAdvanced PLSQL Optimizing for Better Performance
Advanced PLSQL Optimizing for Better Performance
 
SQLd360
SQLd360SQLd360
SQLd360
 
Oracle Database performance tuning using oratop
Oracle Database performance tuning using oratopOracle Database performance tuning using oratop
Oracle Database performance tuning using oratop
 
The basic concept of Linux FIleSystem
The basic concept of Linux FIleSystemThe basic concept of Linux FIleSystem
The basic concept of Linux FIleSystem
 
Oracle Enterprise manager SNMP and Exadata
Oracle Enterprise manager SNMP and ExadataOracle Enterprise manager SNMP and Exadata
Oracle Enterprise manager SNMP and Exadata
 
Under the Hood of a Shard-per-Core Database Architecture
Under the Hood of a Shard-per-Core Database ArchitectureUnder the Hood of a Shard-per-Core Database Architecture
Under the Hood of a Shard-per-Core Database Architecture
 
Schema replication using oracle golden gate 12c
Schema replication using oracle golden gate 12cSchema replication using oracle golden gate 12c
Schema replication using oracle golden gate 12c
 
Hive: Loading Data
Hive: Loading DataHive: Loading Data
Hive: Loading Data
 
How to Use EXAchk Effectively to Manage Exadata Environments
How to Use EXAchk Effectively to Manage Exadata EnvironmentsHow to Use EXAchk Effectively to Manage Exadata Environments
How to Use EXAchk Effectively to Manage Exadata Environments
 
Db2 for z os trends
Db2 for z os trendsDb2 for z os trends
Db2 for z os trends
 
Exadata db node update
Exadata db node updateExadata db node update
Exadata db node update
 
Oracle statistics by example
Oracle statistics by exampleOracle statistics by example
Oracle statistics by example
 
Adapting and adopting spm v04
Adapting and adopting spm v04Adapting and adopting spm v04
Adapting and adopting spm v04
 
ETL Patterns with Postgres
ETL Patterns with PostgresETL Patterns with Postgres
ETL Patterns with Postgres
 
Advanced MySQL Query Tuning
Advanced MySQL Query TuningAdvanced MySQL Query Tuning
Advanced MySQL Query Tuning
 
How to size up an Apache Cassandra cluster (Training)
How to size up an Apache Cassandra cluster (Training)How to size up an Apache Cassandra cluster (Training)
How to size up an Apache Cassandra cluster (Training)
 
Tanel Poder - Performance stories from Exadata Migrations
Tanel Poder - Performance stories from Exadata MigrationsTanel Poder - Performance stories from Exadata Migrations
Tanel Poder - Performance stories from Exadata Migrations
 
Tanel Poder - Troubleshooting Complex Oracle Performance Issues - Part 2
Tanel Poder - Troubleshooting Complex Oracle Performance Issues - Part 2Tanel Poder - Troubleshooting Complex Oracle Performance Issues - Part 2
Tanel Poder - Troubleshooting Complex Oracle Performance Issues - Part 2
 
Morel, a Functional Query Language
Morel, a Functional Query LanguageMorel, a Functional Query Language
Morel, a Functional Query Language
 

Similar to Exadata troubleshooting

Kubernetes on GCP
Kubernetes on GCPKubernetes on GCP
Kubernetes on GCPDaegeun Kim
 
Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313Sanghee Lee
 
회사에서 써보는 SQLAlchemy
회사에서 써보는 SQLAlchemy회사에서 써보는 SQLAlchemy
회사에서 써보는 SQLAlchemyJc Kim
 
Cloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcampCloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcampSang-bae Lim
 
2014 모바일 문서보안 및 통제시스템_시온
2014 모바일 문서보안 및 통제시스템_시온2014 모바일 문서보안 및 통제시스템_시온
2014 모바일 문서보안 및 통제시스템_시온시온시큐리티
 
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4Seok-joon Yun
 
[2015-06-12] Oracle 성능 최적화 및 품질 고도화 1
[2015-06-12] Oracle 성능 최적화 및 품질 고도화 1[2015-06-12] Oracle 성능 최적화 및 품질 고도화 1
[2015-06-12] Oracle 성능 최적화 및 품질 고도화 1Seok-joon Yun
 
클라우드 환경에서 알아야할 성능 이야기
클라우드 환경에서 알아야할 성능 이야기클라우드 환경에서 알아야할 성능 이야기
클라우드 환경에서 알아야할 성능 이야기YoungSu Son
 
Osc4.x installation v1-upload
Osc4.x installation v1-uploadOsc4.x installation v1-upload
Osc4.x installation v1-uploadDong-Hwa jung
 
[OpenStack Day in Korea 2015] Track 2-4 - Towards Programmable Network (Conce...
[OpenStack Day in Korea 2015] Track 2-4 - Towards Programmable Network (Conce...[OpenStack Day in Korea 2015] Track 2-4 - Towards Programmable Network (Conce...
[OpenStack Day in Korea 2015] Track 2-4 - Towards Programmable Network (Conce...OpenStack Korea Community
 
리눅스 드라이버 실습 #1
리눅스 드라이버 실습 #1리눅스 드라이버 실습 #1
리눅스 드라이버 실습 #1Sangho Park
 
MySQL Document Store를 활용한 NoSQL 개발
MySQL Document Store를 활용한 NoSQL 개발MySQL Document Store를 활용한 NoSQL 개발
MySQL Document Store를 활용한 NoSQL 개발Oracle Korea
 
Oracle APEX 기초 워크샵 - 실습 가이드 문서: Part 1 (1/2)
Oracle APEX 기초 워크샵 - 실습 가이드 문서:  Part 1 (1/2)Oracle APEX 기초 워크샵 - 실습 가이드 문서:  Part 1 (1/2)
Oracle APEX 기초 워크샵 - 실습 가이드 문서: Part 1 (1/2)Taewan Kim
 
VSD Seoul 2018: customer highlights on InfoScale
VSD Seoul 2018: customer highlights on InfoScaleVSD Seoul 2018: customer highlights on InfoScale
VSD Seoul 2018: customer highlights on InfoScaleVeritas Technologies LLC
 
ClusterPlex HA Solution 제안서
ClusterPlex HA Solution 제안서ClusterPlex HA Solution 제안서
ClusterPlex HA Solution 제안서Sungho Hong
 
On premise db &amp; cloud database
On premise db &amp; cloud databaseOn premise db &amp; cloud database
On premise db &amp; cloud databaseOracle Korea
 

Similar to Exadata troubleshooting (20)

Kubernetes on GCP
Kubernetes on GCPKubernetes on GCP
Kubernetes on GCP
 
SAP HANA vs Oracle
SAP HANA vs OracleSAP HANA vs Oracle
SAP HANA vs Oracle
 
Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313
 
회사에서 써보는 SQLAlchemy
회사에서 써보는 SQLAlchemy회사에서 써보는 SQLAlchemy
회사에서 써보는 SQLAlchemy
 
Cloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcampCloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcamp
 
2014 모바일 문서보안 및 통제시스템_시온
2014 모바일 문서보안 및 통제시스템_시온2014 모바일 문서보안 및 통제시스템_시온
2014 모바일 문서보안 및 통제시스템_시온
 
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
[2015 07-06-윤석준] Oracle 성능 최적화 및 품질 고도화 4
 
[2015-06-12] Oracle 성능 최적화 및 품질 고도화 1
[2015-06-12] Oracle 성능 최적화 및 품질 고도화 1[2015-06-12] Oracle 성능 최적화 및 품질 고도화 1
[2015-06-12] Oracle 성능 최적화 및 품질 고도화 1
 
클라우드 환경에서 알아야할 성능 이야기
클라우드 환경에서 알아야할 성능 이야기클라우드 환경에서 알아야할 성능 이야기
클라우드 환경에서 알아야할 성능 이야기
 
palm box ecm
palm box ecmpalm box ecm
palm box ecm
 
Osc4.x installation v1-upload
Osc4.x installation v1-uploadOsc4.x installation v1-upload
Osc4.x installation v1-upload
 
[OpenStack Day in Korea 2015] Track 2-4 - Towards Programmable Network (Conce...
[OpenStack Day in Korea 2015] Track 2-4 - Towards Programmable Network (Conce...[OpenStack Day in Korea 2015] Track 2-4 - Towards Programmable Network (Conce...
[OpenStack Day in Korea 2015] Track 2-4 - Towards Programmable Network (Conce...
 
Spark sql
Spark sqlSpark sql
Spark sql
 
리눅스 드라이버 실습 #1
리눅스 드라이버 실습 #1리눅스 드라이버 실습 #1
리눅스 드라이버 실습 #1
 
MySQL Document Store를 활용한 NoSQL 개발
MySQL Document Store를 활용한 NoSQL 개발MySQL Document Store를 활용한 NoSQL 개발
MySQL Document Store를 활용한 NoSQL 개발
 
Oracle APEX 기초 워크샵 - 실습 가이드 문서: Part 1 (1/2)
Oracle APEX 기초 워크샵 - 실습 가이드 문서:  Part 1 (1/2)Oracle APEX 기초 워크샵 - 실습 가이드 문서:  Part 1 (1/2)
Oracle APEX 기초 워크샵 - 실습 가이드 문서: Part 1 (1/2)
 
VSD Seoul 2018: customer highlights on InfoScale
VSD Seoul 2018: customer highlights on InfoScaleVSD Seoul 2018: customer highlights on InfoScale
VSD Seoul 2018: customer highlights on InfoScale
 
ClusterPlex HA Solution 제안서
ClusterPlex HA Solution 제안서ClusterPlex HA Solution 제안서
ClusterPlex HA Solution 제안서
 
On premise db &amp; cloud database
On premise db &amp; cloud databaseOn premise db &amp; cloud database
On premise db &amp; cloud database
 
4-1: JMP/Python 에코시스템 성공 사례
4-1: JMP/Python 에코시스템 성공 사례4-1: JMP/Python 에코시스템 성공 사례
4-1: JMP/Python 에코시스템 성공 사례
 

Exadata troubleshooting

  • 1. Last updated – Jun 26, 2014 GTPLUS 김 종 인 Exadata Troubleshooting
  • 2. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template2 주제  문제 정의  문제 진단툴
  • 3. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template4 어디를 살펴볼것 인가?  문제 정의 – 성능 – 에러 – Crash – Hang
  • 4. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template5 중요한 MOS Notes  888828.1 – Exadata 환경의 패치와 최신이슈의 가장 중요한 참고문서 environment – 다른 연관 MOS 문서들의 참조도 포함  1070954.1 - exachk – Best Practices 를 만족시키기 위한 DB에서 IB switch 까지 이르는 모든것을 체크해 준다. – Asrexachk (1450112.1)  Snmp 가 올바르게 설정되었는지 체크해 준다.
  • 5. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template6 변경된 것이 있는가?  최근에 변경된 것의 여부 – 새로운 패치 – 셀 또는 DB 노드의 업그레이드 – 네트워크 변경 – IORM or DBRM 의 사용  시스템에서 최근에 환경에 변경된 히스토리를 찾아볼것 (.bash_history)
  • 6. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template7 Sundiag  /opt/oracle.SupportTools/sundiag.sh 은 DB 노드와 셀노드의 표준툴이다.  The sundiag tool 은 cellcli 명령을 통해 ILOM snapshots & Megacli raid card logs 을 포함한 많은 정보들을 수집해준다.  failure or reboot로 인한 DB 노드,셀노드 단절시 sundiag 를 수행하여야 한다.
  • 7. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template8 Sundiag  Sundiag 로 수집되는 추가정보 – oswatcher – dmesg – /var/log/messages
  • 8. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template9 ILOM (Integrated Light Out Manager)  콘솔 History – ipmitool sunoem cli "show /SP/console/history” – ipmitool -I lanplus -H celadm01-ilom -U root -P welcome1 sunoem cli "show /SP/console/history"  ILOM 이벤트 – ipmitool -c sunoem cli "show -script /SP/logs/event/list” – ipmitool -I lanplus –H celadm01-ilom -U root -P welcome1 sunoem cli "show -script /SP/logs/event/list”
  • 9. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template10 ILOM  ipmitool -I lanplus –H celadm01-ilom -U root -P welcome1 sunoem cli "show faulty” – 하드웨어 이슈가 있다면 정보를 보여준다  하드웨어가 다운되어 있고 sundiag를 수행하지 못하는 상황이라면 ILOM snapshot 을 뜨거나 remote snapshot 을 수행
  • 10. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template11 ILOM 스냅샷  ILOM 에서 스냅샷을 수집하여 호스트로 입력 – ILOM=cell01-ilom HOST=db01 – ipmitool sunoem cli "set /SP/diag/snapshot dataset=normal" -H $ILOM -U root –P welcome1 – ipmitool sunoem cli "set /SP/diag/snapshot dump_uri=sftp:// root:welcome1@$HOST/tmp" -H $ILOM -U root -P welcome1 – ipmitool sunoem cli "show /SP/diag/snapshot" -H $ILOM -U root -P welcome1
  • 11. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template12 ILOM 스냅샷  스냅샷 명령을 수행했으면 아래와 같이 진행되는 것을 확인가능  지정한 위치에 파일이 있음을 확인가능 – cel07-c_10.245.20.169_2013-09-20T16-51-21.zip set /SP/diag/snapshot dataset=normal set /SP/diag/snapshot dump_uri=sftp://root:welcome1@172.16.20.1/tmp cd /SP/diag/snapshot show Properties: dataset = normal dump_uri = (Cannot show property) encrypt_output = false ** result = Running **
  • 12. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template13 ILOM 스냅샷  ILOM snapshots 은 콘솔 히스토리,이벤트 리스트, 하드웨어 Fault 등을 포함  ILOM 스냅샷은 또한 하드웨어 Fault 와 노드 리부팅을 발생시킨 원인의 분석정보로서 중요한 데이터이다.
  • 13. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template14 DB노드 성능  OSWatcher 체크 – 메모리 사용은 어떠한가? – CPU 사용은 어떠한가? – IO 는 어떠한가?  ExaWatcher/OSWatcher & 성능보고서를 통해 성능 저하를 가져오는 범위를 좁힐수 있다.
  • 14. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template15 RAC 인스턴스 또는 노드 축출  $GI_HOME/bin/diagcollect.pl – 로그와 코어파일 수집  --crs 옵션,압축화일의 크기를 줄일수 있음 (default –all)  --aftertime –beforetime 옵션으로 압축화일의 크기를 줄일수 있음  OCR & vote disks 접근가능여부 – ocrcheck – crsctl query css votedisk
  • 15. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template17 RAC 인스턴스 또는 노드 축출  Exa/OSWatcher 수집은 축출의 경우에 아주 중요한 분석자료로 이용될수 있다.  전체 디스크의 사용률 모니터링  다음과 같은 Exadata Diagnostic collection 툴들도 로그와 트레이스 파일 수집에 도움이 될수 있다. – Diagnostic Assistant (201804.1) – Trace File Analyzer (1513912.1)
  • 16. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template16 DB 노드 Hung  노드 리부팅전에 ILOM 스냅샵 수집을 강력히 권고함 – 리부팅은 ILOM 콘솔 히스토리를 overwrite 할수도 있다.  MOS 1352805.1 을 참고하여 hung된 노드를 리부팅하거나 SysRq 실행할것 Attempting to gracefully reboot hung Exadata cell or database node (문서 ID 1352805.1)
  • 17. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template18 DB Hang 또는 성능이슈  항상 Alertlog화일을 확인해보고 ORA-600/7445 에러가 있는지 살펴보고 I/O 에러 또는 기타 이슈원인에 대해 검토해 본다.
  • 18. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template19 DB Hang 또는 성능이슈  Hung 또는 성능이슈 관련 성능리포트를 수집할 필요가 있다. – ASH – AWR – ADDM – EXA/OSWatcher
  • 19. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template20 DB Hang 또는 성능이슈  DB가 Hung 이라면? SQL> oradebug –g all hanganalyze 1 SQL> oradebug –g all systemstate 258  Hang 분석,성능과 로그수집을 위해 RDA를 사용할 수도 있다.  DB 성능이 저하된다면 ASM Disk 쪽을 살펴볼 필요도 있다.
  • 20. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template21 ASM 디스크  v$asm_disk 조회시 offline disk 가 있는지  v$asm_operation 조회시 리밸런싱 작업이 있는지  셀이 offline 상태라면 v$asm_operation 조회시 resync 가 일어나고 있는지 (list griddisk checks asm)  디스크 들이 보이는지 확인 (kernel files OSM disk) – kfod asm_diskstring='o/*/*' disks=all op=disk
  • 21. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template22 ASM 디스크  /etc/oracle/cell/network-config/cellip.ora – 셀에서 디스크는 보이는데 ASM에서 소실 – cellip.ora 편집 (with caution)
  • 22. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template23 엑사데이타에서 성능 메트릭  메트릭은 다음의 객체들과 연관이 있다. (cell, cell disk, etc.).  모든 이용가능한 메트릭은 METRICDEFINITION에 사전정의. – METRICDEFINITION objects describe the metrics.  METRICCURRENT 는 현재 값의 Set 이다.  METRICHISTORY 는 과거 메트릭값의 모음이다.  THRESHOLD 는 특정한 메트릭에 기초한 alert을 발생시키는 rule 이다.
  • 23. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template24 성능 메트릭  메트릭의 분류: - Cell metrics – CPU 사용률, 네트워크 같은 Cell에 대한 정보 - Cell disk metrics – 셀디스크로 부터 읽은 large block 정보와 같은 셀디스크에 대한 정보 - Grid disk metrics - 그리드디스크로 부터 읽은 large block 정보와 같은 그리드 디스크에 대한 정보 - Host interconnection metrics – 셀에 엑세스 하는 호스트에 대한 I/O 전송정보 - IORM metrics – Category, Database and Consumer Group metrics. IORM에 대한 정보제공
  • 24. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template25 셀 디스크 메트릭 예) Number of requests to Read Small Blocks Number of requests to Write Small Blocks Number of [Mega]bytes written in Large Blocks IO latency for Read CD_IO_RQ_R_SM CD_IO_RQ_R_SM_SEC CD_IO_RQ_W_SM CD_IO_RQ_W_SM_SEC CD_IO_BY_W_LG CD_IO_BY_W_LG_SEC CD_IO_TM_R_SM_RQ C R C R C R R IO req IO/sec IO req IO/sec Mb Mb/sec us/req small Blocks
  • 25. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template26 IORM: DB 레벨 메트릭 예) Number of requests for Small Blocks Number of requests for Large Blocks IORM wait time for read/write Small Blocks IORM wait time for read/write Small Blocks DB_IO_RQ _SM DB_IO_RQ_SM_SEC DB_IO_RQ_LG DB_IO_RQ_LG_SEC DB_IO_WT_SM DB_IO_WT_SM_RQ DB_IO_WT_LG DB_IO_WT_R_LG_ RQ C R C R C R C R IO req IO/sec IO req IO/sec us us/req us us/req
  • 26. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template27 셀 메트릭 데이터  셀 메트릭 정보 수집 명령어 – cellcli -e list flashcachecontent attributes all|sed -e 's/^[ t]*//' -e 's/t/,/g' -e 's/ //g' -e 's/$/,$(date '+%Y%m%d%H%M')/' -e 's/^/${celliphost},/'” – list metriccurrent CD_IO_TM_W_SM_RQ where metricObjectName like 'FD.*' – dcli 로 여러셀 수행가능
  • 27. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template28 셀 트러블슈팅  Imageinfo – 어떤 버전으로 운영되고 있는 확인가능  List alerthistory – 셀 에러 또는 에러 이력  $CELLTRACE and $LOG_HOME – alert history에 없는 추가적인 에러 – alert.log – ms-odl.trc
  • 28. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template29 셀 로그  $CELLTRACE/alert.log file 에서 ora-600/7445 or 크리티컬 로그 확인  cellcli list alerthistory – $CELLTRACE/alert.log 에서도 내역확인 가능
  • 29. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template30 셀 로그  LIST ALERTHISTORY WHERE begintime > ’Sep 1, 2013 11:37:00 AM PDT‘ – 39 2013-09-09T12:26:53-07:00 "ORA-07445: exception encountered: core dump “  ADR_BASE – adrci 는 셀로그로도 작동 – adrci 의 위치는 $OSS_BIN/bin
  • 30. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template31 Cellcli 로그  Incident package information 은 아래와 같이 확인가능 – celldiag.pl -adr /tmp/adrci -aftertime 201105300000 -beforetime 201106200000 -level all
  • 31. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template32 셀 로그  /var/log/oracle/deploy/cellcli.lst.0 – Lists 명령어는 셀환경의 변경 또는 수정 확인 가능. – 최근 셀에 변경이 있었다면 유용할수 있음  모든 Cell 에서 크리티컬 로그 수집을 위해 sundiag 수행 – 배터리, RAID 카드, 하드디스크, 플래쉬디스크 또는 I/O 이슈 – cell cli 명령이ㅣ 여전히 health dis로 나타난다면 추가적인 정보수집 가능 disks
  • 32. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template33 Cellcli 명령어  list griddisk attributes name,status  list celldisk attributes name, status – Proactive failure – Not present – Confine inactive  list physicaldisk – warning – poor performance
  • 33. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template34 Cell 진단  /opt/oracle.cellos/iso/lastGoodConfig/cell/cellsrv/deploy/ config/cellinit.ora – 셀업그레이드 후 또는 네트워크 변경, 셀 서비스가 기동되지 않을때 해당 파일에서 정확한 IP 정보가 들어가 있는지 체크할것. – 네트워크 변경작업은 ‘ipconf’ 를 이용하여야 하며, 그렇지 않은 경우 네트워크 변경내역이 업그레이드 작업시에 반영되지 않을 수 있다.  /opt/oracle.cellos/cell.conf – 셀 업그레이드 후에 셀 IP 정보가 저장되는 파일
  • 34. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template35 Cell 진단  lsof 를 이용하는 것도 trobleshooting에 도움이 될수 있다. – lsof –a +L1 /u01 or lsof +L1  unlinked open files의 사이즈 문제해결해 도움. ex) df 100% but du –sk does not match – lsof –i :161, lsof –i tcp/udp, netstat –an, -a or -lnp  누가 어떤 Network port 를 사용하고 있는지 확인가능
  • 35. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template36 셀 부팅 이슈  셀 부팅시 grub 화면이 나타나지 않고 커서만 반짝일 경우 USB의 손상등 일수 있다.  엑사데이타의 부팅은 기본으로 USB 이다.  디스크로 부터 부팅을 시도해 볼수 있다. – ipmitool chassis bootdev disk – ipmitool -I lanplus –H celadm01-ilom -U root -P welcome1 sunoem cli ”set /HOST boot_device=disk”
  • 36. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template37 네트워크 변경  잘못된 서브넷마스크는 통신장애를 유발할수 있다.  IP tables 변경은 issue 을 일으킬수 있다.  GI/DB/Cell 은 RDS 을 이용하지만 여전히 TCP 통신을 수행 한다.
  • 37. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template38 인피니밴드 스위치  소프트웨어 & 펌웨어 버전 – “Version” on ibswitch shows current rev  rpm –qa|grep ofa 현재 ofa stack
  • 38. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template39 인피니밴드 스위치 Troubleshooting  물리 & 링크 레이어 health check – Listlinkup – Ibdiagnet – Ibnetdiscover – Iblinkinfo.pl  서브넷 매니저 상태 – Sminfo – Ibdiagnet –r (look for SM section)
  • 39. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template40 인피니밴드 스위치 Troubleshooting  토폴로지 확인 – Verifytopology, infinicheck – 스위치간 링크 – Fat Tree connection compliance  Layer 3 연결 검증 – IP over IB – Subnet Masks – Multicast (saquery)
  • 40. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template41 네트워크 모니터링 툴  ibdiagnet – Options: -ls, -lw, -r, -pc, -p  iblinkinfo.pl – Options: -S, -P  perfquery – Options: -r, -R, -x  Some options apply to switches only
  • 41. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template42 네트워크 모니터링 툴  smpquery – Options: nodeinfo <lid>, NodeDesc <lid>, NodeInfo <lid>  ibswitches – 현재 연결된 IB 스위치 보기  ibhosts – IB환경에 연결된 모든 호스트 보기
  • 42. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template43 Ping 이 안될시  subnets 확인 (ifconfig) – IP 주소가 셋업이 잘 되어있는지  local port 확인 (ibstat)  routing table 확인 (netstat)  link health 확인(ibdiagnet)  OpenSM 상태확인  Remote 에서 확인 반복수행
  • 43. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template44 NM2 스위치가 네트웍이 안될시  NM2 management 에서 호스트로 ping 여부  Host 로 ssh 가 되는지  USB 시리얼 콘솔에서  외부포트 링크가 UP 인가?  내부포트 링크가 UP 인가? – Ethtool eth0  이전 부팅환경의 정보를 가지고 있는지
  • 44. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template45 IB 환경 검증  적어도 1개의 마스터 또는 활성화된 서브넷 매니저가 있는지  IB 호스트에 구동되어야 하는 서버넷 매니저의 유무  링크 health state (ibdiagnet, ibstat)  IP 주소와 서브넷 마스크
  • 45. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template46 IB 환경 검증  정확한 토폴로지와 케이블링  중요 서비스가 구동중인지  정확한 펌웨어 버전
  • 46. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template47 다른 검증요소  ping 작동여부  ARP 작동여부working  default gateway 와 통신여부reachable  링크의 UP 여부  IP 주소가 올바르게 할당 되었는지  서버가 listening 상태인지  패킷이 얼마나 멀리가고 그후에 소멸되는지
  • 47. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template48 요약  현재 패치버전을 정확히 확인한다.  Exachk 을 자주 수행하는 것은 환경을 유효화하고 이전수행 환경과 비교하는것도 도움이 될수 있다.  sundiag, TFA, DA or diagget 등과 같은 툴들은 복잡한 환경하 에서 접속수집을 원할히 할수 있게 해준다.
  • 48. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template49 요약  하드웨어 장애시 메시지가 전송되도록 셀 alerting 이 제대로 구성되었는지 확인  간단히 확인가능한 요소부터 제거하여 장애유발 원인 파악을 위한 범위축소  로그확인 재확인
  • 49. Copyright © 2013, Oracle and/or its affiliates. All rights reserved. Insert Information Protection Policy Classification from Slide 12 of the corporate presentation template50 요약  여러 개의 노드에 걸쳐 로그를 수집하는데 도움이 된다. – TFA (Trace File Analyzer) /u01/app/11.2.0.4/grid/tfa/exa1/tfa_home/bin# ./tfactl diagcollect – DA