- 1 -
㈜온고테크
기술지원2팀정동화
Solaris messages analysis
Oracle Solaris 5.10 & 5.11
2017. 03
2.
- 2 -
I.Solaris messages
• Solaris는 시스템에서 발생하는 이벤트(하드웨어오류,프로그램,데몬 오류 및 Inoformation정보를 /var/adm/messages파일로 적재가 되며
SMF서비스(svcs ,svcadm,svccfg)에서 system-log가 데몬을 제어 하게 된다.
• System-log서비스로 인해 syslogd라는 데몬이 실행되며, 해당 데몬은 시스템에서 발생한 다양한 메시지를 받아들인후, 이 메시지가 어떤
프로그램에 의해 생성되었으며, 어떤 사용자가 실행한 application에서 나온 메시지냐에 따라 파일에 저장하거나 System Console로 보내어
지게 된다. 설정파일은 /etc/syslog.conf이며 안에 내용중 공백은 반드시 tab으로 이루어 져야 한다.
• Syslogd 데몬 프로세스가 처리할 수 있는 메시지의 중요도는 다음과 같다.
emerg > alert > crit > err > warning > notice > info > debug
문서범주
System & application daemon에서
Info성으로 발생하는 메시지로 무시 &
필터링해도 무방한 메시지
한번 발생시 관련된부분을 체크하여
이상여부를 판단하여야 하며,
지속적발생시에는 심각할수 있음
메시지 발생시 즉각적으로 관련부분에
대한 action plan대로 처리해야함
해당 메시지에 대한 키워드
해당 메시지 캡쳐 혹은 필터링시
사용해야 할 핵심단어 & 문장
3.
- 3 -
I.Solaris messages
Messages
Nov 13 16:49:56 db02 Cluster.CCR: [ID 835212 daemon.error] IP: get_link_resource for clprivnet0 error(object not found)
Nov 13 16:49:56 db02 Cluster.CCR: [ID 530554 daemon.error] IP: get_link_resource(clprivnet0) failed
해당내용은 Solaris11과 Solaris 4.x이후 구성시 나타나는 증상이다.
LDOM구성시 Core,Memory등 자원조정 했을시 도메인에서 explorer 수행시 나타난다.
Root cause
해당 메시지는 오라클의 Bug이며, 평상시에는 나타나지 않는다.
메시지만 나타날뿐 영향이 없으므로 무시하면 된다.
Action Plan
Solaris11,Solaris Cluster4.x
4.
- 4 -
I.Solaris messages
Messages
Oct 28 11:58:17 db02 ntpd[1038]: [ID 702911 daemon.notice] frequency error -626 PPM exceeds tolerance 500 PPM
NTP구성시 나타나는 메시지 이며, 하드웨어 Time(PROM & BIOS)과 NTP시간차이가 0.0005%이상 차이가
날시 나타난다.(difference exceeds 500 parts-per-million)
Root cause
해당 메시지는 실제 시간차이가 나서 나타나는 메시지 이며 간젹조정은 불가능하다.
자주 발생시에는 아래의 Action을 참고하도록 한다.
1. NTP daemon stop후 ntpdate로 강제 시간조정 – DB서버는 SCN문제가 발생할수 있으므로 주의.
2. Slew option해제
3. ntp.conf의 multicast line해제
Action Plan
Solaris
5.
- 5 -
I.Solaris messages
Messages
Nov 12 13:21:16 DB1 mac: [ID 486395 kern.info] NOTICE: igb0 link down
Nov 12 13:21:16 DB1 in.mpathd[96]: [ID 215189 daemon.error] The link has gone down on net0
Nov 12 13:21:16 DB1 in.mpathd[96]: [ID 968981 daemon.error] IP interface failure detected on net0 of group PUBipmp0
IPMP로 구성된 NIC중 한라인이 fail이 발생하였을 경우이다.Root cause
이중화 된 라인중 한라인만 장애가 난 경우이며 아래의 경우를 체크해봐야 한다.
1. 서버측의 NIC port fault
2. 서버와 스위치간의 라인(cable) problem
3. 스위치의 설정 & port fail
Action Plan
Solaris
6.
- 6 -
I.Solaris messages
Messages
Oct 30 17:04:39 db02 mac: [ID 486395 kern.info] NOTICE: ixgbe3 link down
Oct 30 17:04:39 db02 Cluster.PNM: [ID 890413 daemon.notice] APDB10ipmp0: state transition from OK to DOWN.
Oct 30 17:04:39 db02 in.mpathd[66]: [ID 215189 daemon.error] The link has gone down on net11
Oct 30 17:04:39 db02 in.mpathd[66]: [ID 773107 daemon.error] All IP interfaces in group APDB10ipmp0 are now unusable
IPMP로 구성된 NIC port가 모두 offline이 되었을때 발생하는 messages.Root cause
이중화 된 라인모두가 장애가 난 경우이며 아래의 경우를 체크해봐야 한다.
1. 서버측의 NIC port fault
2. 서버와 스위치간의 라인(cable) problem
3. 스위치의 설정 & port fail
- 예외의 경우로는 부팅시 10G NIC의 경우 해당 메시지가 발생할수 있으나 link 확립을 위한 경우이며, 바로
link up이 될것이다.
Action Plan
Solaris – IPMP(IP Multi Pathing)
7.
- 7 -
I.Solaris messages
Messages
## FC link down
Oct 12 12:12:30 db02 qlc: [ID 628150 kern.info] NOTICE: Qlogic qlc(0,0,0): Link OFFLINE
# fp timeout 90초 후 아래 메시지 발생
Oct 12 12:14:00 db02 fctl: [ID 517869 kern.warning] WARNING: fp(8)::OFFLINE timeout
# fcp timeout 20초 발생후 아래 메시지 발생
Oct 12 12:14:20 db02 scsi: [ID 243001 kern.info]
/pci@8300/pci@4/pci@0/pci@0/pci@0/pci@0/pci@0/pci@1/pci@0/pci@8/SUNW,qlc@0/fp@0,0 (fcp20):
Oct 12 12:14:20 db02 offlining lun=e2 (trace=0), target=4c5100 (trace=2800004)
Solaris Storage Line이중화인 MPxIO의 라인이 절체되었을때 발생하는 메시지이다.
메시지 발생은 총 3단계로 이루어진다.
1. 처음에 발생하였을때의 Link OFFLINE message
2. Solaris fp parameter인 fp_offline_ticker값에 의해 90초(기본값)이후 OFFLINE timeout messages
3. Solaris fcp parameter인 fcp_offline_delay값에 의해 20초(기본값)이후 multipath degrade 발생
Root cause
스토리지 이중화 된 라인이 장애가 난 경우이며 아래의 경우를 체크해봐야 한다.
1. 서버측의 HBA port (SFP) fault
2. 서버와 SAN or SAN과 storage간의 라인(cable) problem
3. SAN switch & Storage의 설정 & port (SFP) fail
Action Plan
Solaris – MpxIo(Storage Line 이중화)
8.
- 8 -
I.Solaris messages
Messages
Sep 25 15:54:41 db02 cl_runtime: [ID 108990 kern.notice] NOTICE: CMM: Cluster members: phpgdb01 db02.
Sep 25 15:54:41 db02 cl_runtime: [ID 279084 kern.notice] NOTICE: CMM: node reconfiguration #4 completed.
Sep 25 15:54:41 db02 cl_runtime: [ID 250885 kern.notice] NOTICE: CMM: Quorum device /dev/did/rdsk/d221s2: owner set to node 2
Solaris explorer 수행도중 cluster부분에서 나타나는 메시지이다.Root cause
Explorer 수행중 Clulster부분 gethering시 Cluster meber check부분이며 information이다.
해당부분이 겹칠수 있어서 cluster구성된 node는 같은시간 , 동시에 explorer수행하지 않도록 한다.
Action Plan
Solaris - MpxIo
9.
- 9 -
I.Solaris messages
Messages
Sep 15 13:41:15 db02 ip: [ID 678092 kern.notice] TCP_IOC_ABORT_CONN: local = 000.000.000.000:0, remote = 172.226.040.017:0, start = -2, end
= 6
Sep 15 13:41:15 db02 ip: [ID 302654 kern.notice] TCP_IOC_ABORT_CONN: aborted 0 connection
구성된 네트웍(일반적으로 vip)에 TCP로 연결된부분이 강제로 끊겼을때(TCP Drop) 발생하는 메시지.
일반적으로 Clulster구성시 VIP가 failover되면서 기존에 vip를 소유한 node에서 발생한다..
Root cause
Oracle Clsuter의 경우 HA구성(vip – logical hostt) , RAC의 경우 crs에 등록된 vip가 switchover될때
해당노드에서 나타난다.
Cluster로 구성된 타 노드에서 vip가 정상적으로 Up이 되었고, TCP connect이 이루어 지는지 확인한다.
Action Plan
Solaris , Cluster
10.
- 10 -
I.Solaris messages
Messages
Aug 27 03:50:46 db02 cmlb: [ID 107833 kern.warning] WARNING: /scsi_vhci/ssd@g60060e80166647000001664700006f1a (ssd0):
Aug 27 03:50:46 db02 Corrupt label; wrong magic number
Aug 27 03:50:46 db02 cmlb: [ID 107833 kern.warning] WARNING: /scsi_vhci/ssd@g60060e80166647000001664700006f1a (ssd0):
Aug 27 03:50:46 db02 Corrupt label; wrong magic number
Soalris에서 신규디스크 연결시 나타나는 메시지.
신규디스크(일반적으로 신규로 생성된 LUN & 한번도 사용하지않은 디스크) attach시 솔라리스에서는 기본
솔라리스 label(smi)을 위한 message를 출력
분단위로 출력이 되며, standard output이라 console작업시에는 해당메시지 계속되는 출력때문에 작업에
어려움이 있다.
Root cause
신규디스크 연결시에 기본 labeling을 수행(format -> label -> yes)를 수행하면 메시지 발생이 멈출수 있다..
ZFS경우 labeling절차없이 바로 zpool create “t신규디스크(slice제외)” 를 수행하면 자동으로 EFI labeling이
수행이 된다.
주의)
1. Hitachi의 command device 혹은 EMC gatekeeper device의 경우 labeling수행하면 문제가 발생할수
있으니 반드시 스토리지 엔지니어와 협의후 수행하도록 한다.
2. 스토리지 복제본(BCV,shadow image) 디스크의 경우 복제중에는 해당 메시지가 계속 출력이 될것이다.
Action Plan
Solaris
11.
- 11 -
I.Solaris messages
Messages
Jul 11 16:54:27 dong vdc: [ID 990228 kern.info] vdisk@0 is offline
Jul 11 16:54:28 dong vdc: [ID 625787 kern.info] vdisk@0 is online using ldc@0,0
LDOM구성시 vdisk(virtual disk)의 상태가 끊어졌을때 발생하는 메시지 이다.
1. Vidksk의 부모(Control domain, IO Domain)이 down되었을때,
2. 관리자가 vdisk(OS용,DATA용, ISO(cdrom))를 삭제하였을때
3. LDOM mpgroup으로 구성된 경우 active domain이 down되었을때(using ldc@) – path가 standby 로
넘어감.
Root cause
부모 도메인으로 받은 디바이스 상태를 확인한다.(format, metastat –c, zpool status, df-k)
사용하지 않는 디스크를 계획작업으로 삭제하였을경우 해당 디바이스 tmp device file을 삭제하도록 한다.
Online using ldc message가 나타날경우 control domain이 아니라면 control domain에서 ldm ls-bindings로
mpgroup상태를 확인한다. -> control domain다운되었을 경우에는 게스크도메인에서 해당 디바이스 상태를
확인한다.
Action Plan
Solaris, LDOM
12.
- 12 -
I.Solaris messages
Messages
Nov 1317:56:44 pbavdb01 fmd:[ID377184 daemon.error] SUNW-MSG-ID: SUNOS-8000-KL, TYPE: Defect, VER: 1,SEVERITY: Major
Nov 13 17:56:44 pbavdb01 EVENT-TIME: Fri Nov13 17:56:44 KST 2015
Nov 13 17:56:44 pbavdb01 PLATFORM: unknown,CSN:unknown,HOSTNAME: pbavdb01
Nov 13 17:56:44 pbavdb01 SOURCE:software-diagnosis, REV: 0.1
Nov 13 17:56:44 pbavdb01 EVENT-ID: 03c68083-c5e1-4750-8c9c-c402f6f38b04
Nov 13 17:56:44 pbavdb01 DESC:The system hasrebooted after akernel panic.
Nov 13 17:56:44 pbavdb01 AUTO-RESPONSE: The failed system image wasdumped to the dump device. Ifsavecore isenabled (see dumpadm(1M)) a copy ofthe dump will be written to the savecore directory
/var/crash/data/03c68083-c5e1-4750-8c9c-c402f6f38b04.
Nov 13 17:56:44 pbavdb01 IMPACT: There may be some performance impact while the panic iscopied to the savecore directory. Disk space usage by panics canbe substantial.
Nov 13 17:56:44 pbavdb01 REC-ACTION: Use 'fmadm faulty' to provide a more detailed view of this event. Ifsavecore isnot enabled then please take steps to preserve the crash image. Use 'fmdump -Vp -u 03c68083-c5e1-
4750-8c9c-c402f6f38b04' to view more panic detail. Please refer to the associated reference document at http://support.oracle.
Solaris의 fault manage daemon인 fmd에서 event가 발생하였을때 나타나는 메시지.
Event가 발생하였을 경우 나타나지만 안의 내용중 fauled가 나오면 critical한 메시지로 관련부분을
체크해봐야 한다.
- Event 경우
1. SMF(Solaris 기본 서비스)중 mainterance가 발생하였을경우
2. ZFS 파일시스템에 Error가 있는 경우
3. 시스템이 panid()을 발생시켜 재부팅된 경우..등등.
Root cause
관련 메시지 발생시에는 엔지니어 분석이 필요하다.
Faulted가 발생하면 즉시 조치가 필요한부분이고 엔지니어 분석후 information에 해당하면 (fmadm repair)로
해당메시지를 삭제(repair)할수 있다.
Action Plan
Solaris
13.
- 13 -
I.Solaris messages
Messages
Nov12 13:21:31 DB1 Cluster.RGM.global.rgmd:[ID784560 daemon.notice]resource ora-lsnr-lhstatus onnodeDB1change to R_FM_DEGRADED
Nov12 13:21:31 DB1 Cluster.RGM.global.rgmd:[ID922363 daemon.notice]resource ora-lsnr-lhstatus msg on nodeDB1change to<IPMP Failure.>
Nov12 13:21:31 DB1 Cluster.RGM.global.rgmd:[ID494478 daemon.notice]resource ora-lsnr-lhinresource group oraDB-rg has requested failoverof theresource group onDB1.
Nov12 13:21:31 DB1 Cluster.RGM.global.rgmd:[ID529407 daemon.notice]resource group oraDB-rgstateon nodeDB1change to RG_PENDING_OFFLINE
Solaris Cluster환경에서 관련 Resouce group이 offline되거나 failover될때의 message이다.
해당 예시의 경우는 Resouce group이 Active인 서버에서 VIP interface의 네트웍이 모두 down이 되어 IPMP
Failure로 반대편 노드로 failover되기 위해 해당 Resouce group을 down하는 message이다.
Root cause
해당 메시지 뒤에 반대편 노드에서 다시 online이 되는지 확인하고 반대편 노드에서 해당 Resouce group이
online이 잘 되었는지 확인한다.
Process down(monitoring), IPMP 및 노드의 비정상 down을 제외한 서비스 장애시에는 Active node에서
/var/cluster/rgm/golbal/pingpoing_log/ 밑에 해당 Resouce가 file로 생성이 된다.
Pingpong을 방지하기 위해 해당 노드에서 서비스다시 online못하도록 stale상태를 걸어논것으로 보면 되며,
정상화시 해당 파일을 삭제해 주어야 failback을 할수 있다.
Action Plan
Solaris, Cluster
14.
- 14 -
I.Solaris messages
Messages
May 800:46:34 sh-col in.mpathd[243]:[ID975029 daemon.error]No test addressconfigured oninterfacee1000g1; disablingprobe-basedfailuredetectiononit
May 800:46:34 sh-col in.mpathd[243]:[ID975029 daemon.error]No test addressconfigured oninterfacee1000g0; disablingprobe-basedfailuredetectionon it
해당 메시지는 일반적으로 부팅시 & IPMP daemond을 restart할때 나타나는 메시지이다.
Solaris9에서 사용하던 test ip를 사용하여 NIC의 fault detection을 하던 방식(probe-base)이 아니라는
메시지이다.
Solaris10이후 IPMP를 linked base방식으로 사용할경우 나타난다.
Root cause
Information message이다.
메시지 발생후 system log서비스를 확인해 본다.
svcs –a | grep system-log
ps –ef |grep syslog
Action Plan
Solaris10 later
15.
- 15 -
I.Solaris messages
Messages
May 710:49:29 hyp syslogd:goingdownonsignal15
syslog daemon이 donw되었을시 나오는 메시지
일반적으로 /etc/syslog.conf파일수정후 daemon restart(svcadm restart system-log)시 나타난다.
Root cause
Syslog daemon은 일반적으로 자체적으로 down되는 일은 없다.
해당 config file인 /etc/syslog.conf파일 수정후 daemon을 restart할때 나타나며 주의할점을 파일 수정시
공백은 모두 tab으로 이루어져야 한다.
Action Plan
Solaris
16.
- 16 -
I.Solaris messages
Messages
Nov1316:11:25db02cl_dlpitrans:[ID624622kern.notice]Notifyingclusterthatthisnodeispanicking
Nov1316:11:25db02unix:[ID836849kern.notice]
Nov1316:11:25db02^Mpanic[cpu15]/thread=2a10ba05c20:
Nov1316:11:25db02unix:[ID340138kern.notice]BADTRAP:type=31rp=2a10ba044b0 addr=0mmu_fsr=0occurredinmodule"cl_dcs"duetoaNULLpointerdereference
또다른예시
Sep2000:58:03db02unix:[ID562397kern.notice]Failfast:Abortingzone"global"(zoneID0)because"ucmmd"died30secondsago.
Nov1316:11:25db02genunix:[ID723222kern.notice]000002a10ba04eb0 unix:thread_start+4(2a10ba04f60,18,0,0,0,0)
Nov1316:11:25db02genunix:[ID179002kern.notice] %l0-3:6b3a666162726963 0000000000000000 00106ec000106f10 00106ef000106ef8
Nov1316:11:25db02 %l4-7:0000000000000000 0000000000000000 0000000000000000 0000000000000000
Nov1316:11:25db02unix:[ID100000kern.notice]
Nov1316:11:25db02genunix:[ID672855kern.notice]syncingfilesystems...
Nov1316:11:26db02genunix:[ID904073kern.notice] done
Nov1316:11:27db02genunix:[ID112392kern.notice]Deferreddumpnotavailable
System에 치명적인 error가 발생하여 더 이상 운영할수 없다 판단시 panic()을 일으켜 시스템을
rebooting하며, 현재 memory의 내용을 dump하여 file로 생성한다.
Root cause
panic발생시키는 경우의 수는 다양하며, 일반적인 경우는 filesystem faulted, filesystem metadata faulted,
memory, cpu장애,Cluster 장애(heartbeat 및 핵심 daemon down),Bug 등등이 있다.
panic발생시 제일 먼저 panic string을 보면 대략적으로 이유를 알수있다.(keyword형식)
panicstring으로 확인이 안될시에는 explorer수행후 explorer output file과 dumpadm의 디렉토리에 쌓인
dump파일을 Oracle로 보내어 분석을 의뢰하여, 원인을 알아내어, 재발방지에 대한 대책을 세워야 한다.
Action Plan
Solaris
17.
- 17 -
I.Solaris messages
Messages
messages.1:Sep 21 20:52:11 marsgenunix:[ID470503 kern.warning]
WARNING:Sorry,noswapspacetogrowstackforpid100295(myprog)
Jun 25 17:44:31 oraclelast messagerepeated1 time
Jun25 18:38:18 oracletmpfs:[ID518458 kern.warning]WARNING:/etc/svc/volatile:Filesystem full, swap spacelimitexceeded
Jun 25 18:38:59 oraclelast messagerepeated1 time
Jun 25 19:37:33 oracletmpfs:[ID518458 kern.warning]WARNING:/etc/svc/volatile:Filesystem full, swap space limitexceeded
Jun 25 19:37:33 oracletmpfs:[ID518458 kern.warning]WARNING:/tmp:Filesystem full,swap spacelimitexceeded
응용 프로그램이 추가 익명 메모리를 얻으려고 함을 나타내며. 그러나 이러한 동작을 지원할 스왑 공간이
남아 있지 않다는 것을 알리는 메시지이다.
솔라리스는 물리적 메모리+가상메모리로 /tmp영역에 공간을 산정하며 사이즈가 유동적이다
Freemem이 부족할시 /tmp/영역의 size도 감소하며 해당 메시지는 실제로는 물리적 메모리가 부족할때
나타나는 메시지이다. – 실제 app에서 /tmp영역을 사용하는지도 check해보ㅘ야 한다.
Root cause
물리적 메모리 사용율을 체크하고 메시지가 나올때 즉각적으로 조치를 해야한다.
메모리 사용으로 System Hang이 발생하여 console접속까지 되지 않을때는 실제 사용중인 application이
memory를 releae하거나 System rebooting할때까지는 system이 Hang상태로 유지가 되고 서비스에도 영향을
미친다.
Action Plan
Solaris
18.
- 18 -
I.Solaris messages
Messages
Jun 1 10:46:18 pweb nfs:[ID333984 kern.notice]NFS servernas01 notrespondingstill trying
Jun 1 10:46:19 pweb lastmessagerepeated1 time
Jun 1 10:46:19 pweb nfs:[ID563706 kern.notice]NFS servernas01 ok
NFS 마운트 옵션중, hard(default값) 라는 옵션을 사용 하였을 시, time out 발생하면 "server not responding"
이라는 메세지를 발생 시키고, 계속 마운트를 시도 하게 됩니다
Root cause
해당 예시의 경우 순간적으로 NFS 서버와 NFS 클라이언트 간의 동기화 되어 지지 않았다가, 바로 1초후,정상
동기화 하였던 메시지로 볼수있음
이와 같은 메세지 발생의 원인으로는, 서버와 클라이언트 간의 통신 도중, 많은 I/O 발생으로 인한,
네트워크망 부하가 많을시 나타날수도 있음.
Action Plan
Solaris
19.
- 19 -
I.Solaris messages
Messages
Mar1 10:57:23 dongnfs: [ID626546 kern.notice]NFSwriteerroronhost nfs02: StaleNFS filehandle.
Mar1 10:57:23 dongnfs: [ID702911 kern.notice](filehandle:2e1 14a92a 53739685 2e1 2 0)
NFS 클라이언트에 의해 열려져 있던 파일이 삭제,변경,교체 되었을때, 이로 인해 일어날수 있는 메시지
파일의 삭제 및 변경 작업이 수시로 많이 일어나는, 파일 시스템을 NFS 마운트 하여 사용 하고 있다면, 이미
삭제 되었거나 변경이 되었는데, 클라이언트측에서 이를 순간적으로 인지하지 못하고 acess 하려 한다면
일어날수 있는 메세지
Root cause
지속적으로 발생시에는 NAS 및 NFS server 측에 점검을 해보고 client단에서는 umount 후 다시 mountAction Plan
Solaris
20.
- 20 -
I.Solaris messages
Messages
Mar31 13:11:47 db01 scsi: [ID107833 kern.warning]WARNING:/pci@9,600000/SUNW,qlc@2,1/fp@0,0/ssd@w5006048452a66357,3 (ssd51):
Mar31 13:11:47 db01 ErrorforCommand:write(10) ErrorLevel:Retryable
Mar31 13:11:47 db01 scsi: [ID107833 kern.notice] Requested Block:2112000 ErrorBlock:2112000
Mar31 13:11:47 db01 scsi: [ID107833 kern.notice] Vendor:EMC Serial Number:450DC000g
Mar31 13:11:47 db01 scsi: [ID107833 kern.notice] Sense Key:AbortedCommand
Mar31 13:11:47 db01 scsi: [ID107833 kern.notice] ASC: 0x44 (internaltargetfailure),ASCQ: 0x0, FRU:0x0
디스크로 read / write시 내부적으로 SCSI command를 사용하는데 command전달시 관련된 해당 block에
error가 발생할경우 나타난다.
Error for Command: 에서 read할때인지 write할때인지가 나타나며, Error Level:이 FATAL면 치명적인 error로
점검이 필요하다.
지속적인 read/write시에는 해당메시지에서 Error Level: Retryable로 계속 쓰여지게 된다.
Root cause
두가지 경우로 나뉘며 물리적인 단일디스크에서 발생할경우에는 Disk fault여부를 체크한다.
일반적으로 Error Level이 Retryable로 지속적으로 쌓인후 FATAL로 떨어지게되면 해당 디바이스가 fault로
빠지게된다.
스토리지의 볼륨(논리적 LUN)인경우 Retryable이 가끔 나타날수 있다.(스토리지 내부작업시)
지속적으로 계속 발생시에는 해당 연결라인 스토리지, SAN가 협의후 문제를 찾아내어야 한다.
Action Plan
Solaris
21.
- 21 -
I.Solaris messages
Messages
Mar24 01:05:58 dong SCSI transportfailed:reason'tran_err':retryingcommand
Mar24 02:06:24 dongscsi: [ID243001 kern.warning]WARNING:/scsi_vhci/ssd@g600a0b80002a19a8000003bd46e5e3ff (ssd19):
Mar24 02:06:24 dong SCSI transportfailed:reason'tran_err':retryingcommand
-- 지속적발생후
Mar24 02:38:38 dongscsi: [ID243001 kern.warning]WARNING:/scsi_vhci (scsi_vhci0):
Mar24 02:38:38 dong/scsi_vhci/ssd@g600a0b80002a19a8000003bd46e5e3ff (ssd19): CommandTimeoutonpathfp5/ssd@wg600a0b80002a19a8000003bd46e5e3ff7
SCSI Bus,즉 Data Line (FC->SAN->Storage) 간의 통신중 SCSI command (Data read/write) 를 transfer할수
없을때 나오는 메시지.
1. 물리적 디스크의 경우 디스크단에 연결 인터페이스(controller)가 장애일수 있다.
2. FC로 연결된 외장스토리지의 경우 다양하게 나타날수 있다.
① 스토리지단의 cache문제 & LUN문제(LUN삭제 및 삭제된 디바이스 파일이 남아있을때)
② SAN간의 SFP(지빅) 문제 – 제일 가능성이 높을수 있다..
③ FC로 연결된 스토리지단의 Cable문제
계속 시도를 한다는 메시지로 지속적으로 발생여부를 체크해야 한다.
Root cause
물리적디스크(Server단 Internal disk)일경우 지속적 발생시 Disk를 교체
메시지 발생빈도를 파악후 교체여부 결정
외장 스토리지의 경우 SAN단 케이블단 스토리지단과의 협의후 문제를 파악해서 해결하도록 한다.
해당 디바이스가 있는 FS및 raw deivce의 상태를 체크한다.
# zpool status –xv & # metastat
Action Plan
Solaris
22.
- 22 -
I.Solaris messages
Messages
Nov 5 18:34:30 controlsvc.startd[7]: [ID652011 daemon.warning]svc:/network/http:apache2: Method "/lib/svc/method/http-apache2 start"failedwith exitstatus 96.
Nov 5 18:34:30 controlsvc.startd[7]: [ID748625 daemon.error]network/http:apache2 misconfigured:transitionedto maintenance(see'svcs -xv'fordetails)
SMF의 서비스(서비스데몬)이 error가 발생하여 해당 서비스가 maintenance(유지보수) 모드로 전환이 되었다
관련 서비스는 사용할수 없다는 메시지.
Root cause
보통은 부팅완료후 나타날수 있다.
# svcs –xv로 해당 SMF서비스의 로그파일은 보면 왜 error가 발생하였는지 알수 있다.
대표적으로 설정파일안의 내용의 오류로 자주 발생한다.
Ex) filesystem/local 서비스 maintenance일시 /etc/vfstab안의 내용중 오타 및 잘못된 디바이스 정보
mountpoint정보등 이 있을수 있다.
Action Plan
Solaris10 or later
23.
- 23 -
I.Solaris messages
Messages
Feb25 06:59:02 db1emlxs:[ID349649 kern.info][ 1.0340]emlxs1:WARNING:1540: Firmwareupdaterequired.(AmanualHBAresetorlinkreset(using luxadmorfcadm)is required.)
Feb25 06:59:19 db1emlxs:[ID349649 kern.info][ 1.0340]emlxs3:WARNING:1540: Firmwareupdaterequired.(AmanualHBAresetorlinkreset(using luxadmorfcadm)is required.)
Feb25 06:59:34 db1emlxs:[ID349649 kern.info][ 1.0340]emlxs0:WARNING:1540: Firmwareupdaterequired.(AmanualHBAresetorlinkreset(using luxadmorfcadm)is required.)
해당 메시지는 HBA카드 벤더중 Emulex사용시에만 나타나는 메시지이다.
보통은 HBA firmware를 별도로 맞추는 일이 없지만, Solaris kernel patch후에나 pathc버젼에 내장되어있는
emulex firmware버젼이 맞지 않아서 나오는 메시지이다.
메시지는 지속적으로 발생하지만 실제 HBA연결된 장비의 access에는 영향이 없다.
Root cause
# fcinfo hba-port로 해당 HBA카드의 /dev/cfg/cx 넘버를 확인한다.
# luxadm –e forcelip /dev/cfg/cx 로 firmware를 upgrade한다.
Action Plan
Solaris10 or later