4. Идеи по траблшутингу
Локализация проблемы
Абонент-Control plane
—
Attach failures
—
TAU, смена RAT, HO failures
—
Проблемы с установкой или модификацией dedicated bearers
—
Неуспешное согласование параметров QoS
Абонент-User plane
—
Bandwidth issues; проблема с применением согласованного QoS
—
Packet drops
—
Billing/Charging (CDRs, Gx, Gy) issues
Интерфейс
—
Congestion
—
GTP Echo timeouts, Restart counter, …
—
Connectivity to Diameter peer host
5. Идеи по траблшутингу
Локализация проблемы (продолжение)
Какой сетевой элемент?
Какойreference point?
—
Сопоставить с рекомендованной 3GPP 23.401 процедурой
—
Понять задачи и функционал каждого сетевого элемента
Нарисовать схему call-flow (согласно отснятым трассировкам), сравнить с ожидаемым call-flow
—
Необходимозапастись трассировками во всех релевантных references-point
—
По-возможности, выяснить состояние абонента(ов) перед началом проблемы
6. Идеи по траблшутингу
Опредилитьpattern (шаблон)
Кого проблема затрагивает, кого не затрагивает
—
ОпределенныйeNodeB?
—
ОпределенныйUE производитель/модель?
—
Географический регион?
—
APN?
—
Home subscribers / Roaming subscribers?
—
Time of day? (ЧНН?)
—
Определенные процедуры/сценарии(bearers, QoS, HO scenarios)
—
Специфично для архитектуры ASR5k: Particular PSCs? Sessmgrs? Linecards/ NPU paths?
Когда проблема проявилась впервые?
—
Day One / new config?
—
Какие изменения?
—
При расширении сети/увеличении нагрузки?
7. Идеи по траблшутингу
Выявить отличия
Рабочий/ не рабочий сценарии –с минимальными отличиями
Получение «рабочего» трейсаможет быть так же полезно, как и получение «нерабочего»
—
Рассмотреть возможность воспроизведения рабочего сценария в лаборатории
9. Если доступен, то это лучший вариант для получения (почти) полного представления о активности абонента –как для control, так и дляuser plane
Настройки по умолчанию практически полностью подходят для анализа control plane
Требуется включение дополнительных опций дляuser plane
Do’s
•
Использовать“multi-call trace” в соотв, ситуациях.
•
Если возможно, указывать IMSI.
•
При использовании “next-call”, ограничивать тип звонка(“monitor subscriber type pgwnext-call”)
•
Включать все релевантные протоколы
•
Для траблшутингаuser plane (проблемы с ECS etc.), использовать опцию “19” и“x” (hexdump)
Cons / Ограничения:
•
Требует, что бы проблема была воспроизводимой или ожидаемой (дляконкретногоIMSI или других критериев)
•
“monitor subscriber next-call” может не работать если сценарий звонка включает несколько сессий–наcombo box или по дизайну (напр.dedicated bearers)
•
Может не захватить первые несколько пакетов в случаеPTMSI attach илиHO
•
На combo box, пакет будет отображен в трейсенесколько раз(напримерS5 SGW egress иS5 PGW ingress)
•
При декодировании нескольких протоколов из одного стэка(e.g. S1AP and NAS on S1MME), пакеты будут отображаться дважды.
•
Higher->Lower протоколына выход
•
Lower->Higher протоколына вход
•
Нижележащий уровень может показывать зашифрованный пакет
•
Показывает пакеты, а не события связанные с обработкой в программном обеспечении.
Monitor Subscriber
10. Может быть полезен, когда проблема касается всего интерфейса (а не определенных абонентов).
Do’s
•
Добавлять протоколы по одному, производя оценку объема генерируемых сообщений и нагрузки на систему.
•
Включать только те протоколы, которые реально нужны.
•
Необходима крайняя осторожность при использовании на оборудовании, находящимся в коммерческой эксплуатации
Cons / Ограничения
•
Может генерировать большой объем вывода.
•
Взависимости от активности абонента может оказаться полезен для определенных control plane протоколов, но не применим для user plane
•
Показывает пакеты, но не показывает события, связанные с обработкой в программном обеспечении.
Monitor Protocol
11. Позволяет выборочно включать вывод логов по 250 компонентам
Можно изменять уровеньverbosity от1 (critical)до 7 (debug)
Default уровень 2 (error) для всех компонент
Каждый компонент имеет свой диапазон event IDs; каждыйID это уникальный тип ошибки с определенным severity иформатом соощения.
Два типа:
•
Active logging
—
Включается для конкретной CLI (SSH session)
—
Включается в режиме Exec CLI
—
Вывод направляется непосредственно в CLIсессию
•
Runtime logging
—
Включается в режиме конфигурации
—
Вывод отправляется на сислогсервер и так же отображетсяв “show logs”
Возможно, единственная опция для анализа событий, связаннныхс работой программного обеспечения (в отличии от сбора и отображения input/output пакетов)
Cons / Ограничения
•
Может сгенерировать большое количество вывода
Do’s
•
Всегда, всегда иметь действующий сислогсервер
•
Знать, какой компонент вам нужен
•
Часто, так же необходимо включать и “sessmgr”
•
Будьте осторожны с verbosity выше чем “unusual”
•
Возможно“logging filter active facility all level debug”… только в лаборатории!
•
Настройте уровень логирования“critical” для компонент, которые вы не хотите видеть
•
Отключите логированиедля определенных event IDs или диапазона event IDs, которые вы не хотите видеть
•
Используйте “show logging” , что бы увидеть что именно сейчас включено
Active илиRuntime Logging
12. Включается в режиме конфигурации local context configuration отдельно для абонента
Позволяет запись событий и сообщений по конкретному абоненту на сислогсервер
Комбинация “monitor subscriber”, и“logging filter runtime …” для конкретного абонента:
[local]sim-lte# show configuration | greplogginglogging display event-verbosity fulllogging display pdu-verbosity 5logging display pdu-data hex-asciilogging monitor msid123456001000000[local]sim-lte#
Cons / Ограничения
•
Может генерировать большое количетсвовывода, если включен для user-plane
•
Тежеограничения, что и для “monitor subscriber” в части идентификации абонента (e.g. PTIMSI attach иHO)
Do’s
•
Рекомендуем использовать данную опцию – она почему-то используется редко
•
Включатьдля user-plane только при острой необходимости
•
Убедиться, что сислогсервер доступен и функционирует
Logging Monitor”
13. Общепринятое назначение:
Счетчики отображают текущий статус (напр. кол-во attached абонентов )
Статистикапоказывает исторические данные (напр. кол-во Attach request, полученных с момента загрузки устройства или c момента обнуления счетчиков )
Доступна большинства протоколов…
show egtpcstatistics
show mme-service statistics
…
… а так же внутренняя статистика/счетчики для программного обеспечения:
show session disconnect-reasons
show session progress
show apnstatistics
…
Many stats are available as bulkstatsand can help getting the big picture over time
Много статистики доступно в формате bulkstatи может помочь получить более глобальную картину во времени
Do’s
Собирайте последовательно несколько выводов для того, что получить приращение счетчиков
Собирайте команды с временными метками
—
Это позволит произвести корреляцию между несколькими выводами одной и той же команды, или между выводами команды и пакетной трассой
Stats/Counters
14. Показывает текущее состояние абонента с точки зрения ASR5k
Может требоваться как однократный вывод, так и несколько последовательных
Полезные команды:
show subscriber full
show subscriber mme-only/sgw- only/pgw-only full
show active-charging session full
show mme-service session full
show mme-service dbrecord imsi
Do’s
Собирайте последовательно несколько выводов, что бы получить приращения счетчиков
Собирайте выводы с временными метками
Используйте ключевые опции “mme-only”/”sgw- only”/”pgw-only” для вывода “show subscriber”
—
Они не только фильтруют лишний вывод, но и добавляют дополнительную информацию, специфичную для каждой опции
Иногда полезно использовать опцию “show subscriber debug-info”
“Show subscriber” …
15. Требуются в случеесли:
Когда есть сомнения в том, что ASR5k «наблюдает» в сети
В случае, если пакеты приходят поврежденными
Когда“monitor subscriber” не работает (PTMSI etc.)
Некоторые заказчики имеют постоянные захват трафика на всех интерфейсах
Обычно для control-planе трафика
Может потребоваться захват пакетных трасс на нескольких интерфейсах одновременно
Do’s
Убедитесь, что время на ASR5k и внешнем анализаторе (устройтсведля захвата) засинхронизировано
External traces
17. Подготовка к открытию SR
•
Какие платформы, компоненты, версии ПО подвержены (или не подвержены) сбою?
•
Какие версии программного обеспечения используются?
•
На каком участке сети произошла авария?
•
Когда она была зафиксирована в первый раз?
•
Происходит ли она периодически и если да, то как часто?
•
Работала ли ранее применяемая конфигурация или это новая инсталляция или изменение существующего дизайна?
•
Какие изменения на сети происходили непосредственно до аварии (в аппаратной или программной конфигурации, версиях ПО, количестве трафика и т.п)?
•
Если проблема является воспроизводимой, предоставьте, пожалуйста, соответствующие инструкции по ее воспроизведению.
•
Как сбой повлиял на сетевые сервисы и клиентов, имеют ли место финансовые потери?
•
Какие действия по диагностике и устранению аварийной ситуации предпринимались до открытия сервисного запроса?
18. Описание проблемы
•
Какие платформы, компоненты, версии ПО подвержены (или не подвержены) сбою?
•
Какие версии программного обеспечения используются?
•
На каком участке сети произошла авария?
•
Когда она была зафиксирована в первый раз?
•
Происходит ли она периодически и если да, то как часто?
•
Работала ли ранее применяемая конфигурация или это новая инсталляция или изменение существующего дизайна?
•
Какие изменения на сети происходили непосредственно до аварии (в аппаратной или программной конфигурации, версиях ПО, количестве трафика и т.п)?
•
Если проблема является воспроизводимой, предоставьте, пожалуйста, соответствующие инструкции по ее воспроизведению.
•
Как сбой повлиял на сетевые сервисы и клиентов, имеют ли место финансовые потери?
•
Какие действия по диагностике и устранению аварийной ситуации предпринимались до открытия сервисного запроса?
19. SSD
•
Одним из основных и наиболее полезных источников информации является вывод команды “show support details “:
show support details <to location and filename>
[file: ]{ /flash | /pcmcia1 | /hd}[ /directory]/file_name
tftp://{ host[ :port# ] }[ /directory ]/file_name
[ ftp: | sftp: ]//[ username[ :password ]@ ] { host }[ :port# ][ /directory ]/file_name
•
Всегда собирайте “show support details” (SSD) до и после каких- либо изменений конфигурации и любых плановых профилактических работ (Maintenance Window(MW)).
•
При наблюдении проблемы соберите несколько файлов SSD в различные интервалы времени, что бы дать возможность инженерам поддержки и разработчикам сравнить показания требуемых счетчиков на временном интервале.
•
Так же необходимо приложить SSD, снятое на стабильно работающей системе, до того, как появилась проблема.
20. Crash файл
•
Необходимо проверить наличие crash файла, в случае если он есть – приложить его при открытии сервисного запроса. Проверить наличие crashфайла можно следующей командой:
[local]# shocrash list
Wednesday November 19 16:46:36 AST 2014
== ==== ======= ========== =========== ================
# Time Process Card/CPU/ SW HW_SER_NUM
PID VERSION SMC / Crash Card
== ==== ======= ========== =========== ================
1 2014-Jul-22+05:25:53 sessmgr 04/0/10474 15.0(55300) SAD1738018N/SAD170300J0
.........
36 2014-Nov-19+16:23:57 mmemgr 01/0/04683 16.3(57726) SAD1738018N/SAD170300GK
37 2014-Nov-19+16:24:26 sessmgr 05/0/09044 16.3(57726) SAD1738018N/SAD170400KP
38 2014-Nov-19+16:42:45 mmemgr 01/0/21301 16.3(57726) SAD1738018N/SAD170300GK
39 2014-Nov-19+16:45:27 mmemgr 01/0/05127 16.3(57726) SAD1738018N/SAD170300GK
21. Crash файл(продолжение)
•
Можно посмотреть информацию по конкретному крэшу:
[local]# shocrash number 6
Thursday November 20 04:04:54 AST 2014
********************* CRASH #06 ***********************
SW Version : 16.3(57726)
Similar Crash Count : 34
Time of First Crash : 2014-Nov-19+16:21:22
Fatal Signal 11: Segmentation fault
PC: [07ac136b/X] mmemgr_get_MMEENodeBAssoc()
Faulty address: 0xc
Signal from: kernel
Signal detail: address not mapped to object
Process: card=1 cpu=0 arch=X pid=21526 cpu=~23% argv0=mmemgr
Crash time: 2014-Nov-19+16:05:37 UTC
Recent errno: 11 Resource temporarily unavailable
Stack (131071@0xfffb2000, probably truncated):
[07ac136b/X] mmemgr_get_MMEENodeBAssoc() sp=0xfffb2048
[07ac247c/X] mmemgr_process_mme_enodeb_assoc() sp=0xfffb21f8
23. Case Study: Diameter flaps
•
Кратковременные провалы трафика и рост ошибок на Gxв короткие интервалы времени
24. Case Study: Diameter flaps (продолжение)
Flap@00:27 duration 0.8sec
2014-10-23T00:27:40+06:00 172.13.21.5 evlogd: [local-60sec40.164] [snmp22002 info] [1/0/4528 <diamproxy:1> trap_api.c:690] [software internal system syslog] Internal trap notification 184 (DiameterPeerDown) context Ga_Gy_Gxipaddr172.13.15.15 end point name SHM-ASR5K-ALA-PCRF1.xyz-cell.com
2014-10-23T00:27:40+06:00 172.13.21.5 evlogd: [local-60sec40.164] [diamproxy119111 error] [1/0/4528 <diamproxy:1> diamproxy.c:3550] [software internal system syslog] ALA-PCRF1: Connection closed at state OPEN DWR pending 0
2014-10-23T00:27:40+06:00 172.13.21.5 evlogd: [local-60sec40.967] [snmp22002 info] [1/0/4528 <diamproxy:1> trap_api.c:690] [software internal system syslog] Internal trap notification 185 (DiameterPeerUp) context Ga_Gy_Gxipaddr172.13.15.15 end point name SHM-ASR5K-ALA-PCRF1.xyz-cell.com
2014-10-23T00:27:40+06:00 172.13.21.5 evlogd: [local-60sec40.967] [snmp22002 info] [1/0/4528 <diamproxy:1> trap_api.c:670] [software internal system syslog] Internal trap notification 1036 (DiameterCapabilitiesExchangeSuccess) context Ga_Gy_Gxipaddr172.13.15.15 end point name SHM-ASR5K-ALA- PCRF1.xyz-cell.com
Flap@10:07 duration 0.7sec
2014-10-23T10:07:28+06:00 172.13.21.5 evlogd: [local-60sec28.142] [snmp22002 info] [1/0/4528 <diamproxy:1> trap_api.c:690] [software internal system syslog] Internal trap notification 184 (DiameterPeerDown) context Ga_Gy_Gxipaddr172.13.15.15 end point name SHM-ASR5K-ALA-PCRF1.xyz-cell.com
2014-10-23T10:07:28+06:00 172.13.21.5 evlogd: [local-60sec28.142] [diamproxy119111 error] [1/0/4528 <diamproxy:1> diamproxy.c:3550] [software internal system syslog] ALA-PCRF1: Connection closed at state OPEN DWR pending 0
2014-10-23T10:07:28+06:00 172.13.21.5 evlogd: [local-60sec28.856] [snmp22002 info] [1/0/4528 <diamproxy:1> trap_api.c:690] [software internal system syslog] Internal trap notification 185 (DiameterPeerUp) context Ga_Gy_Gxipaddr172.13.15.15 end point name SHM-ASR5K-ALA-PCRF1.xyz-cell.com
Flap@11:47 duration 0.9sec
….
25. Case Study: Diameter flaps (продолжение)
•
Проблема наблюдается в моменты перераспределения большей части трафика с одной LAG группы на другую
•
Проблема не наблюдается на узле, где установлен PCRF
Предложения по дальнейшим действиям?