Перейти к содержанию

asmys

Members
  • Постов

    2
  • Зарегистрирован

  • Посещение

    Никогда

Сообщения, опубликованные asmys

  1. Уважаемые форумчане,

    Имеется кластер для квантово-химических расчетов из четырех машин AtlonXP 2500 под управлением Mandrake 9.2. Три машины выделены в отдельную подсеть 10.0.0.x (x=11..13), называются node1, node2, node3 и общаются меж собой через свитч. Их я буду называть "узлы".

    А одна машина является сервером. На ней две сетевухи -- одной присвоен адрес 10.0.0.10 и она воткнута в тот же свитч. Другая подцеплена к институтской локалке с адресами 192.168.0.x. Откликается на имена node0 и exciton. А hostname у нее exciton.

    Она является:

    1) маршутизатором, чтобы с других компов в институте можно было заходить на узлы.

    2) на ней работает NFS сервер, директория /home расшарена и подмонтирована как на узлах, так и еще на нескольких машинах в институской локалке.

    3) чтобы виндовские машины имели доступ к некоторым папкам exciton, установлена Samba и соответствующие папки расшарены.

    4) в связи с некоторыми веселыми особенностями работы институтского DNS я был вынужден сделать ее еще и DNS-сервером.

    Весь этот огород я, как умел, нагородил сам. И вот exciton стал периодически падать, и чем дальше, тем чаще. Сейчас он падает каждый день. Происходит это так. Я (или кто-то другой) захожу со своего компа на узел:

    asm@quant:/home/asm>ssh node1

    asm@node1's password:

    asm@node1:/home/asm>

    или так (что приводит к тому же результату):

    asm@quant:/home/asm>ssh exciton

    asm@exciton's password:

    Last login: Thu Apr 14 15:09:15 2005 from 192.168.0.28

    asm@exciton:/home/asm> ssh node1

    asm@node1's password:

    asm@node1:/home/asm>

    затем, например, пускаю большую задачу и начинаю смотреть, что она делает:

    asm@node1:/home/asm>g98 C2H5OH.com&

    asm@node1:/home/asm>less C2H5OH.log

    shift-F

    И вот тут возможно три варианта: 1) все нормально работает; 2) less (и вообще все файловые операции) начинают тормозить и ждешь секунд 10; 3) сервер падает. Падает он тоже по-разному. Иногда экран у него черный и клава мигает лампочками. Иногда он вроде бы как и не упал, и даже в консоли можно набирать команды. Но это бесполезно -- они все равно не выполняются. Даже reboot. А пару раз было kernel panic. Все это происходит совершенно непредсказумо, но кончается всегда кнопкой reset.

    Куда мне копать? Логи читать я пока что не умею и мало что там понимаю. Даже не знаю, где именно искать нужный лог.

    Привожу еще exciton:/etc/exports:

    #

    /home node*(rw,async) ...(другие машины)

    и опции монтирования из node*:/etc/fstab:

    node0:/home /home nfs noac,async,rsize=8192,wsize=8192

×
×
  • Создать...