Форум 3DNews
Вернуться   Форум 3DNews > Железо > Носители информации

Ответ Создать новую тему
Опции темы Опции просмотра
Непрочитано 31.07.2009, 11:30   [включить плавающее окно]   #1
NaimaD
Мужской Опытный
Автор темы
 
Аватар для NaimaD
 
Регистрация: 22.10.2003
Адрес: Москва
Зависания сервака?

Коллеги, привет!

Есть проблемка с сервером, может, кто-то сталкивался с подобным...

Имеем:
-Сеть (~120 человек)
-Файловый сервер (ProLiant DL380 G3, 2x3,0 GHz Xeon)
-Логический диск 1 = 2x72 Gb 15k rpm SCSI @ зеркальный RAID (система, службы, спулер...) Заполнен на 42%
-Логический диск 2 = 3x146 Gb 10k rpm SCSI @ RAID5 (папки пользователей, общая сетевая папка, 1С база (SQL)...) Заполнен на 95%

Проблема:
Сервак периодически жестоко подвисает (не реагирует вообще ни на что) на 1-5 минут. При этом от него отваливаются все пользователи. Выключение его из локальной сети не помогает. Сервак при этом усиленно моргает лампочками обращения к дискам (конкретно моргает на дисках, из которых состоит RAID5). Сервер пингуется при этом конечно (операционка за это не отвечает), но если умудриться влезть в консоль (на это может уйти минуты 3), то нигде излишне большой загрузки чего бы то ни было не видно (процессор свободен, Perfmon необычной загрузки дисков не показывает).
Эмпирически выяснили, что подвисания происходят чаще всего после сохранения большого объёма данных на сервере (заливаешь на него метров 300 и он виснет, но на процессе заливки это не отражается).

Есть подозрение, что RAID-контроллер в это время делает Array Rebuild (пересчитывает контрольные суммы), но где посмотреть или как узнать не пойму, так что это просто предположение.

Вопрос: что это такое и как бороться?
NaimaD вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 31.07.2009, 12:05   [включить плавающее окно]   #2
SpaceCow
Мужской Заслуженный
 
Аватар для SpaceCow
 
Регистрация: 13.09.2006
Адрес: Питер <-> Москва
Цитата (NaimaD) »
Есть подозрение, что RAID-контроллер в это время делает Array Rebuild (пересчитывает контрольные суммы), но где посмотреть или как узнать не пойму, так что это просто предположение.
Никакого ребилда просто при копировании данных массив делать не должен. Если там периодически происходит ребилд, это может свидетельствовать о периодических отказах одного из дисков. Что чревато.

К контроллеру RAID не идет никакой программы мониторинга?
__________________
Герои должны умирать. Если они выживают, то становятся скучнейшими людьми на свете. /"Тени в раю", Эрих Мария Ремарк/
SpaceCow вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 31.07.2009, 12:23   [включить плавающее окно]   #3
NaimaD
Мужской Опытный
Автор темы
 
Аватар для NaimaD
 
Регистрация: 22.10.2003
Адрес: Москва
Есть две программы: одна "HP Array Diagnostics Utility", другая - "HP Array Configuration Utility". Первая выдаёт plain text'ом кучу информации, включая какие-то дампы, вторая - для настройки массивов, но там написано, что всё ОК и с логическими дисками, и с физическими.

Вот то, что выдаёт первая программа (см. приложение).
Вложения
Тип файла: zip adu_report.zip (8.1 Кб, 103 просмотров)
NaimaD вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 31.07.2009, 12:44   [включить плавающее окно]   #4
SpaceCow
Мужской Заслуженный
 
Аватар для SpaceCow
 
Регистрация: 13.09.2006
Адрес: Питер <-> Москва
NaimaD, вторая, если не ошибаюсь, статус ведь показывает? Любопытно было бы посмотреть, нет ли там чего непосредственно во время "зависания"...

В логах системы ничего нет?
__________________
Герои должны умирать. Если они выживают, то становятся скучнейшими людьми на свете. /"Тени в раю", Эрих Мария Ремарк/
SpaceCow вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 31.07.2009, 13:38   [включить плавающее окно]   #5
NaimaD
Мужской Опытный
Автор темы
 
Аватар для NaimaD
 
Регистрация: 22.10.2003
Адрес: Москва
SpaceCow Вторая показывает что
Цитата
всё ОК и с логическими дисками, и с физическими
.

В логах пусто на эту тему. А во время зависания залезть куда-либо нереально...
NaimaD вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 31.07.2009, 22:39   [включить плавающее окно]   #6
Slider_spb
Мужской Умудрённый
 
Аватар для Slider_spb
 
Регистрация: 27.02.2004
Адрес: Питер
NaimaD Антивируса там никакого не стоит, касперский, например?
__________________
Безвыходных положений не бывает - доказано камасутрой ;)
Slider_spb вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 03.08.2009, 11:12   [включить плавающее окно]   #7
NaimaD
Мужской Опытный
Автор темы
 
Аватар для NaimaD
 
Регистрация: 22.10.2003
Адрес: Москва
Slider_spb антивирус есть, конечно, но не Касперский Я тоже на него грешил, выключал монитор - не помогает. И вообще антивирус настроен не проверять файлы при записи - только при чтении.
NaimaD вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 06.08.2009, 10:41   [включить плавающее окно]   #8
Smirnoff
Мужской Модератор
 
Аватар для Smirnoff
 
Регистрация: 30.12.2004
Адрес: Новосибирск
Цитата (NaimaD) »
RAID5 (папки пользователей, общая сетевая папка, 1С база (SQL)...) Заполнен на 95%
Полагаю, что именно это является проблемой, могу порекомендовать освободить хотя-бы 10% (а лучше - 20%), есть у NTFS такая поганая особенность - очень тормозить начинает при уменьшении свободного места...
__________________
С уважением,
Олег Р. Смирнов
Smirnoff вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 06.08.2009, 11:06   [включить плавающее окно]   #9
SpaceCow
Мужской Заслуженный
 
Аватар для SpaceCow
 
Регистрация: 13.09.2006
Адрес: Питер <-> Москва
Кстати, да, что-то я этот момент проглядел.

Если там еще и фрагментация сильная, то вполне может быть причиной - большой файл начинает писаться на диск, там свободны только отдельные участки и файл при записи начинает биться на множество фрагментов, которые пишутся в отдельные участки диска. Даже в случае с RAID тормоза при сильной фрагментации обеспечены.

Надо выполнить команду: defrag d: -a (d: - буква тома, который тормозит), если фрагментация большая - то освободить хотя бы 20% и провести полную дефрагментацию. Например, поставить на ночь несколько команд defrag d: -f подряд (так как одного прогона не хватит, скорей всего).
__________________
Герои должны умирать. Если они выживают, то становятся скучнейшими людьми на свете. /"Тени в раю", Эрих Мария Ремарк/
SpaceCow вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 10.08.2009, 15:26   [включить плавающее окно]   #10
NaimaD
Мужской Опытный
Автор темы
 
Аватар для NaimaD
 
Регистрация: 22.10.2003
Адрес: Москва
Кстати, огромный вопрос - нужно ли делать дефрагментацию на RAID-массивах. Мысли у людей в Интернете на эту тему разнятся, но самый вразумительный ответ видел только здесь: http://forum.ixbt.com/topic.cgi?id=66:2117:6. Почитал и подумал, что делать не буду (хотя попытки были - за 48 часов дефрагментатор сделал процентов 20, не больше).

Ладно, буду пробовать что-нибудь сделать со свободным местом. Я знаю про эту особенность NTFS5, но меня смутила природа зависания - не просто тормоза "постоянно", а временные зависания, но очень сильные и нерегулярные.

Кстати, есть у кого-нибудь источник информации на тему "какое количество дисков в массиве на какое количество пользователей иметь"? Может, есть смысл выбить себе ещё один диск в массив?

Последний раз редактировалось NaimaD; 10.08.2009 в 15:29.
NaimaD вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 10.08.2009, 15:44   [включить плавающее окно]   #11
SpaceCow
Мужской Заслуженный
 
Аватар для SpaceCow
 
Регистрация: 13.09.2006
Адрес: Питер <-> Москва
NaimaD, не знаю, если массив сравнительно небольшой, то поставить defrag в планировщик на ночь несложно и после первой дефрагментации эта процедура становится незаметной для пользователей.

Цитата (NaimaD) »
какое количество дисков в массиве на какое количество пользователей иметь
Не уверен, что количество жестких дисков разумно привязывать к количеству пользователей. Скорее, к требуемой скорости чтения/записи...

RAID 5 Scaling Tests With Up To Eight Drives - вот тест, к примеру.
__________________
Герои должны умирать. Если они выживают, то становятся скучнейшими людьми на свете. /"Тени в раю", Эрих Мария Ремарк/
SpaceCow вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 10.08.2009, 16:00   [включить плавающее окно]   #12
NaimaD
Мужской Опытный
Автор темы
 
Аватар для NaimaD
 
Регистрация: 22.10.2003
Адрес: Москва
SpaceCow Ну, если за 48 часов не сделал дефрагментацию... то придётся ждать новогодних каникул! )) Работать с сервером, на котором идёт дефрагментация практически невозможно, нас с утра закидывают жалобами, что "всё тормозит" =)

За ссылочку спасибо - и конфигурация похожая, и инфа полезная. 4 Мб/сек на сотню пользователей явно маловато.
NaimaD вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 10.08.2009, 16:04   [включить плавающее окно]   #13
BSE
Мужской Абсолютный
 
Аватар для BSE
 
Регистрация: 08.04.2009
Адрес: Минск / Владивосток
Цитата (NaimaD) »
Ну, если за 48 часов не сделал дефрагментацию
А если вручную сделать: скопировать инфу на другой носитель, полностью очистить массив и последовательно вернуть данные обратно?
__________________
Под косматой елью, в темном подземелье,
Где рождается родник, — меж корней живет старик.
BSE вне форума  
Ответить с цитированием
Непрочитано 10.08.2009, 16:42   [включить плавающее окно]   #14
SpaceCow
Мужской Заслуженный
 
Аватар для SpaceCow
 
Регистрация: 13.09.2006
Адрес: Питер <-> Москва
NaimaD, так поставить в планировщике настройку "выполнять задание не более n часов" - и все В восемь часов вечера запустить, выполнять не более 10 часов, в шесть утра он автоматически выключится. Да, с первого раза не доделает, но все же...

Хотя, место освободить для более эффективного дефрага все равно нужно, не меньше 20% свободными, иначе процесс действительно затянется. Я думаю, сейчас там на томе все в комплексе работает - и система тормозит, и фрагментация, может, и производительности массива маловато...
__________________
Герои должны умирать. Если они выживают, то становятся скучнейшими людьми на свете. /"Тени в раю", Эрих Мария Ремарк/
SpaceCow вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 10.08.2009, 16:44   [включить плавающее окно]   #15
NaimaD
Мужской Опытный
Автор темы
 
Аватар для NaimaD
 
Регистрация: 22.10.2003
Адрес: Москва
Делал только недавно - там одна большая пользовательская папка (где-то 50 Гб) с кучей файлов (около 70000), переносить это на другой том - дело многих часов, к тому же там много индивидуальных уровней доступа на подпапки, если просто делать Move это всё потеряется. Мы делали через backup/restore - на это ушло около 15ти часов (только на restore), для чего пришло приезжать на выходных, контролировать процесс...

Попробую очистить диск по-максимуму, посмотрим, что получится.
NaimaD вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 04.09.2009, 19:08   [включить плавающее окно]   #16
NaimaD
Мужской Опытный
Автор темы
 
Аватар для NaimaD
 
Регистрация: 22.10.2003
Адрес: Москва
В общем, немного освободил место так, чтобы его теперь стало 31% от общего места на диске - проблема осталась... Причём она явно возникает после получение большой порции данных. Когда сервак "отвисает", в Task Manager'е в графике загрузки сетевого интерфейса видно, что в момент зависания и за некоторое время до этого сервер получал данные (загрузка интерфейса около 10% от 1 ГБит, клиенты все сидят на 100 МБит), скажем, минуту-две. Само зависание на этом же графике видно по резкому прекращению всякой сетевой активности...

Дефрагментировать тоже пробовали, но пока не доделали до конца (уж очень много фрагментов - около 3,500,000), особой разницы не видно.

Может, есть ещё какие-нибудь предположения?
NaimaD вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 04.09.2009, 22:24   [включить плавающее окно]   #17
Smirnoff
Мужской Модератор
 
Аватар для Smirnoff
 
Регистрация: 30.12.2004
Адрес: Новосибирск
Цитата (NaimaD) »
ещё какие-нибудь предположения?
1. А какая сетевуха на целевом серваке?
2. Нет ли антивирусов на сервере?..
__________________
С уважением,
Олег Р. Смирнов
Smirnoff вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 05.09.2009, 14:25   [включить плавающее окно]   #18
SpaceCow
Мужской Заслуженный
 
Аватар для SpaceCow
 
Регистрация: 13.09.2006
Адрес: Питер <-> Москва
Что бы предпринял дальше я...

Наиболее вероятные виновники: массив, сетевая и ее драйвер, ОС и софт в целом.

Проверить массив: исключить или свести к минимуму сетевую активность и сильно его нагрузить: погонять в один и несколько потоков большие объемы разнородной информации (много мелких файлов, один большой) как внутри массива, так и с другого массива, внешнего накопителя и т.п. Если удастся без участия сети подвесить - по крайней мере исключим сетевую.

Нагрузить сеть с минимальной нагрузкой на диск (тяжелые пинги в много потоков, генераторы трафика), попробовать забить канал по-максимуму. Если повиснет - исключим массив. Если нет - попробовать поменять сетевую.

Софт: удалить антивирус вообще - бывает, что штатное "отключение" мониторинга и даже остановка служб полностью глюки не убирают, так какие-то драйверы АВ все равно грузятся и работают. Можно попробовать загрузиться с LiveCD (если удастся драйверы подобрать под сетевую и массив), а еще лучше - снять на время массив с системой, воткнуть туда пустой диск, поставить туда чистую систему и проверить с ней. Геморройный тест, конечно, но только так можно наверняка исключить сбой ОС, влияние каких-то сторонних программ и их останков и т.д.

Еще я так и не понял - устойчивой повторяемости глюка удалось добиться? Т.е. можно, произведя какую-то операцию, гарантированно подвесить сервер? Если да, то есть еще варианты диагностики...
__________________
Герои должны умирать. Если они выживают, то становятся скучнейшими людьми на свете. /"Тени в раю", Эрих Мария Ремарк/
SpaceCow вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 08.09.2009, 20:54   [включить плавающее окно]   #19
NaimaD
Мужской Опытный
Автор темы
 
Аватар для NaimaD
 
Регистрация: 22.10.2003
Адрес: Москва
Цитата
устойчивой повторяемости глюка удалось добиться?
Вот, прям сейчас попробовал. Пытался залить на сервак 6.35 Гб музыки, но прервал на середине, т.к. скорость сильно упала, на сервере - ноль эмоций.
Подождал минуту - ноль эмоций.
Стал удалять из сети - медленно. Зашёл на сервак по терминалке, стал удалять локально - сервер сначала начал тупить слегка, потом завис. Терминалка работает нормально, но винда висит, открыть ничего, кроме Task Manager'а невозможно. Через минуту-две отвис и пошёл дальше удалять файлы.

Решил повторить, залив несколько относительно больших файлов (34 файла, 1,12 Гб). Никаких проблем.
Далее - 2837 файлов общим объёмом 340 Мб (картинки) - ОК. Копируем папку на другой раздел - ОК. Удаляем - ОК.

Далее - опять музыка (470 файлов, 3.09 Гб). Копируем на сервер - зависание примерно на 60%. Причём, заранее открыл Perfmon и добавил счётчики дисков - несмотря на отсутствие сетевой активности, сервер что-то усиленно пишет на диск (вернее, на массив RAID5), процессор не загружен. "Тормозов" перед зависанием замечено не было. Queue Length на целевом диске держится в районе 10-15. Сервер отвисает раньше, чем спадает загрузка диска (секунд за 30 до этого). Итого скопировалось 1,91 Гб, 258 файлов.
Копируем папку на другой диск - ОК (хотя и немного медленно, но я могу списать это на фрагментацию). Удаляем - всё ОК.

Провторил последний эксперимент - то же самое повторилось. Удалось скопировать на сервер 245 файлов на 1,83 Гб.

NaimaD добавил :

Далее, повторяем с выключенным сервисом антивируса (та же папка) - такая же история.

Потом попробую переписать ту же папку на сервер с флэшки - сейчас уже не могу, т.к. на серваке начались вечерние операции всякие, нагружающие дисковую подсистему. Как сделаю - отпишусь...
NaimaD вне форума  
Конфигурация ПК
Ответить с цитированием
Непрочитано 09.09.2009, 20:22   [включить плавающее окно]   #20
NaimaD
Мужской Опытный
Автор темы
 
Аватар для NaimaD
 
Регистрация: 22.10.2003
Адрес: Москва
Так, продолжаем

Сейчас попробовал нагрузить чисто сетевой интефейс пингами по 65500 байт. После 65 одновременных потоков срабатывает, видимо, какая-то защита и сервер перестаёт отвечать на пинги (отвечает на каждый 3-4). До этого сетевой интерфейс (на клиентской машине) нагружен процентов на 50 (по сумме IN и OUT). Сервер переваривает абсолютно не поперхнувшись.

Больше не знаю, чем нагрузить именно сетевой интерфейс, так что пока условно считаю, что сетевуха здесь ни при чём.

Далее, копируем выше упомянутую папку на сервер с флэшки - затея толком не удалась, т.к. сервак не первой свежести и USB на нём работает только в режиме 1.1. Скорость ниже плинтуса, и загрузить диски таким макаром не удалось, но я для проформы подождал минут 20-25 (за это время скопировалось 1.3 Гб). С серваком ничего не произошло.

Далее, решил попробовать опять по сети залить ту же папку, но на другой раздел (тот, который не RAID5, а зеркало) - никаких проблем!
Сразу после этого, чтобы ещё раз подтвердить зависания, снова заливаю ту же злосчастную папку на логический диск RAID5 - сервер снова висит. Причём сегодня копирование на этот диск вообще шло с трудом: график загрузки сети в Task Manager'е напоминал частокол (вместо ровной "площадки)", а незадолго до зависания в Perfmon'е было заметно примерно 35-40% снижение скорости записи на диск. С чем связано - не знаю, т.к. вчера экспериментировал примерно в то же время. В любом случае, сервер завис.
Интересно другое: после примерно секунд 30 "зависание" прошло и копирование пошло дальше, хотя и на очень маленькой скорости (с частыми обрывами до нуля на несколько секунд).

Итого: это точно не сетевуха, а, по всей видимости, RAID-контроллер. Он на этой мамке встроенный, двухканальный. Вопрос: что с ним может быть не так?? :О

NaimaD добавил :

Во, пока писал, не заметил, что спустя какое-то время сервер отвис окончательно и скорость копирования возросла до нормальной. В общем, с трудом переварил он эту папку.
NaimaD вне форума  
Конфигурация ПК
Ответить с цитированием
Ответ Создать новую тему

Опции темы
Опции просмотра

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход


Текущее время: 05:10. Часовой пояс GMT +3.


Powered by vBulletin® Version 3.8.4
Copyright ©2000 - 2019, Jelsoft Enterprises Ltd. Перевод: zCarot
Copyright © 2000-2017 3DNews. All Rights Reserved.
Администрация 3DNews требует соблюдения на форуме правил и законов РФ
Серверы размещены в Hostkey