Перейти к содержанию

Периодически падающий сервер


Рекомендуемые сообщения

Уважаемые форумчане,

Имеется кластер для квантово-химических расчетов из четырех машин AtlonXP 2500 под управлением Mandrake 9.2. Три машины выделены в отдельную подсеть 10.0.0.x (x=11..13), называются node1, node2, node3 и общаются меж собой через свитч. Их я буду называть "узлы".

А одна машина является сервером. На ней две сетевухи -- одной присвоен адрес 10.0.0.10 и она воткнута в тот же свитч. Другая подцеплена к институтской локалке с адресами 192.168.0.x. Откликается на имена node0 и exciton. А hostname у нее exciton.

Она является:

1) маршутизатором, чтобы с других компов в институте можно было заходить на узлы.

2) на ней работает NFS сервер, директория /home расшарена и подмонтирована как на узлах, так и еще на нескольких машинах в институской локалке.

3) чтобы виндовские машины имели доступ к некоторым папкам exciton, установлена Samba и соответствующие папки расшарены.

4) в связи с некоторыми веселыми особенностями работы институтского DNS я был вынужден сделать ее еще и DNS-сервером.

Весь этот огород я, как умел, нагородил сам. И вот exciton стал периодически падать, и чем дальше, тем чаще. Сейчас он падает каждый день. Происходит это так. Я (или кто-то другой) захожу со своего компа на узел:

asm@quant:/home/asm>ssh node1

asm@node1's password:

asm@node1:/home/asm>

или так (что приводит к тому же результату):

asm@quant:/home/asm>ssh exciton

asm@exciton's password:

Last login: Thu Apr 14 15:09:15 2005 from 192.168.0.28

asm@exciton:/home/asm> ssh node1

asm@node1's password:

asm@node1:/home/asm>

затем, например, пускаю большую задачу и начинаю смотреть, что она делает:

asm@node1:/home/asm>g98 C2H5OH.com&

asm@node1:/home/asm>less C2H5OH.log

shift-F

И вот тут возможно три варианта: 1) все нормально работает; 2) less (и вообще все файловые операции) начинают тормозить и ждешь секунд 10; 3) сервер падает. Падает он тоже по-разному. Иногда экран у него черный и клава мигает лампочками. Иногда он вроде бы как и не упал, и даже в консоли можно набирать команды. Но это бесполезно -- они все равно не выполняются. Даже reboot. А пару раз было kernel panic. Все это происходит совершенно непредсказумо, но кончается всегда кнопкой reset.

Куда мне копать? Логи читать я пока что не умею и мало что там понимаю. Даже не знаю, где именно искать нужный лог.

Привожу еще exciton:/etc/exports:

#

/home node*(rw,async) ...(другие машины)

и опции монтирования из node*:/etc/fstab:

node0:/home /home nfs noac,async,rsize=8192,wsize=8192

Ссылка на комментарий
Поделиться на другие сайты

Присоединяйтесь к обсуждению

Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.

Гость
Ответить в этой теме...

×   Вставлено с форматированием.   Вставить как обычный текст

  Разрешено использовать не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отображать как обычную ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

Загрузка...
×
×
  • Создать...