= bubbalog =Дневникът на моето стадо

Замяна на MPICH2 с LAM/MPI

Monday 15.02.2010 01:18 EET · Публикувано от в = Cluster =, = FreeBSD =, = Parallel =

Ето и първите проблеми. След няколкодневна борба да закача няколко стари машини под 450MHz, така не можа да се подкара тестовата паралелна задачка и винаги излизаше с грешка. След няколкодневна борба, от прочетеното се оказа, че MPICH2 (по прицип MPICH) имал някакви ядове с NFS въпреки, че не намерих логично обяснение за проблема и е нужно да се инсталира и LAM/MPI, което в последствие да замени изцяло MPD. Грешката се проявяваше в терминиране на процеса при опит да се стартира стандартно компилирана тестова програма и изплюваше грешка от типа

%mpiexec 1111/cpi
rank 0 in job 1  sole01.local_45551   caused collective abort of all ranks
exit status of rank 0: killed by signal 9
%

а ако се стартира с повече процеси се терминираше с друга грешка

%mpiexec -n 4 1111/cpi
rank 0 in job 1  sole01.local_45551   caused collective abort of all ranks
exit status of rank 0: killed by signal 4
%

Четене, четене и няма… Грешка в кода и това било… Е да, ма хората как ги подкарват тея стари машини тогава?

Инсталирането е лесно:

# cd /usr/ports/net/lam
# make install clean

След като се инсталира, трябва да се редактира конфигурационния файл lam-bhost.def, като в него се добавят имената на всеки нод включително и на хеднода по един на ред

# ee /usr/local/etc/lam-bhost.def

Процеса се стартира с команда

% lamboot

което стартира процеса автоматично на всички нодове по списъка от конфигурационния файл и се спира с

% lamhalt

От тук натам всичко си е по старо му от първата статия – компилирането, изпълнението… Нямам си идея дали LAM/MPI може да съществува самостоятелно[1] без да се инсталира MPICH2, просто още не съм стигнал до там и това да пробвам, но ще го направя тези дни.

Засега не ми е известно, защо това се случва на старите машини. Всички, заедно с хеднода (на който няма ядове) са интелски, като разликата е, че само на хеднода процесора е с поддръжка на SSE инструкции, а на другите това го няма. Направих си опит и инсталирах (ресторнах бекъпите) на 2 виртуални машини и с тях нямаше никакви ядове, което ме наведе на мисълта, че проблема е просто в по-старата ехника.

Нямам си и идея, дали в бъдеще ще го ползвам това, защото мисля малко по малко да обновя копопарка малко по малко поне до нивото на хеднода (min. 600MHz/256RAM). Мисля обаче, че еинтересно да се спомене този случай и да се иа впредвид.

* * * * *

[1] 23.02.2010 – Пробвано е, може, оказа се различна реализация на MPI

Остави коментар

Писането на кирилица е задължително!
Коментари, които не са на кирилица ще бъдат изтрити без предупреждение.
Всеки коментари съдържащи 1 или повече линка, ще бъдат публикувани след одобрение.