Strona
domowa Ireny i Zbigniewa Kuleszów
Serdecznie witamy na domowych, prywatnych serwerach
Dzisiaj jest: 2026-06-23
Aktualizacja
strony dnia: [an error occurred while processing this directive]
Rocznica
24 lat pracy serwerów i strony zjk.pl :-) (od 2002) 24
lat nieprzerwanej pracy z systemem FreeBSD / 24 years of continuous work with FreeBSD system
UWAGA!
Ten serwis, strona i podstrony mogą używać cookies i podobnych
technologii (brak zmiany ustawienia przeglądarki oznacza zgodę na to)!
W celu zweryfikowania rzeczywistej odporności operacyjnej
infrastruktury przeprowadzono symulacje awarii różnych
kombinacji węzłów oraz analizę zachowania usług podczas
degradacji systemu.
Awaria
pojedynczego serwera
Utrata dowolnego pojedynczego węzła nie powoduje zauważalnych przerw w
działaniu usług dla użytkowników końcowych. Warstwy
redundantne automatycznie przejmują obciążenie, a system kontynuuje
pracę w trybie zdegradowanym. W
niektórych
przypadkach (np. przełączenie MooseFS master) automatyczny failover
wymaga kilku minut na pełną stabilizację. Taka
architektura
umożliwia wykonywanie aktualizacji, prac serwisowych oraz wymiany
sprzętu bez istotnego wpływu na działanie infrastruktury.
Awaria dwóch serwerów
Większość usług
pozostaje dostępna. Dostępność usług redundantnych zależy od kombinacji
uszkodzonych węzłów.
Potencjalnie niedostępne mogą
stać się m.in.:
redundantne serwery pocztowe, para
HA OPNsense, wybrane repliki usług
aplikacyjnych.
Pozostałe elementy infrastruktury kontynuują pracę z ograniczoną
redundancją.
Awaria
trzech serwerów
Usługi wykorzystujące potrójną replikację lub mechanizmy
quorum mogą utracić dostępność, jeśli awaria obejmie wszystkie węzły
danej grupy usługowej. Dotyczy
to m.in.: MooseFS,
SeaweedFS, klastrów PostgreSQL,
mechanizmów replikacji MySQL wymagających quorum.
Architektura została zaprojektowana w taki sposób, aby
degradacja następowała stopniowo i przewidywalnie.
Rozległa awaria wielowęzłowa
Przy
jednoczesnej utracie
czterech lub większej liczby serwerów dostępność usług ulega
dalszej degradacji, jednak wybrane komponenty infrastruktury mogą nadal
działać w ograniczonym zakresie. Celem
projektu nie było
osiągnięcie pełnej odporności na każdą możliwą awarię, lecz budowa
infrastruktury zapewniającej przewidywalne zachowanie systemu,
kontrolowaną degradację usług oraz możliwość długoterminowej, stabilnej
eksploatacji.
Awaria
głównego switcha
"Rozpina" całą wewnętrzna sieć. Aktualnie planowany jest zakup drugiego
switcha zarządzalnego i zmianę konfiguracji sieci z trybu LAGG/LACP na
LAGG/failover z wykorzystaniem drugiego switcha.
Awaria zasilaczy
Elementy krytyczne serwerowni, zapewniające
dostęp do Internetu są chronione podwójnym obwodem z diodami
Schottky-ego - jeden z zasilacza głównego, drugim z
rezerwowego.
Awaria
UPS i sieci
energetycznej
Awaria
dowolnego, jednego UPS pozostaje bez
wpływu na pracę serwerowni. Awaria
dwóch UPS - o
ile zasilanie z sieci energetycznej działa - pozostaje bez wpływu na
pracę serwerowni. Dopiero
awaria wszystkich trzech
źródeł zasilania wyłącza serwerownię.
Czas przywrócenia do pracy
Serwery
posiadają
indywidualną kopie zapasową na drugim dysku w tej samej obudowie - czas
jej przywrócenia to w praktyce tylko czas jej przegrania na
uszkodzony dysk systemowy. Kluczowy jest czas usuwania awarii w
rozumieniu przywróceniu sprawności samego komputera do
działania (np. wymiana dysku).
Czas
Recovery (RTO)
Każdy serwer ma lokalną kopię zapasową na drugim dysku zamontowanym w
tej samej obudowie.
Przywrócenie systemu po awarii
dysku sprowadza się w praktyce do przegrania backupu —
zajmuje to zwykle kilka–kilkanaście minut. Lokalne
kopie służą przede wszystkim do szybkiego recovery operacyjnego,
natomiast pełne archiwum backupowe pozostaje odseparowane od środowiska
produkcyjnego.
Kluczowym czynnikiem jest fizyczny czas
naprawy sprzętu (np. wymiana dysku). Dzięki redundancji usług awaria
pojedynczego serwera nie powoduje przerw w dostępności większości
serwisów.
Czas
czas off-site
Kopie znajdują sie w tm samym pomieszczeniu, jest to więc liczy się
tylko czas
przegrania danych na dysk pośredni + ostateczne dogranie na dysk
docelowy - ok.
30 min.
Lokalne
backupy
Każdy serwer posiada lokalną kopię zapasową na drugim dysku w tej samej
obudowie. Czas przywrócenia systemu po awarii dysku to w
praktyce przegranie backupu na nowy dysk — zajmuje to
zazwyczaj kilka do kilkunastu minut.
Backupy
off-site
Obecnie nie posiadam kopii zapasowych poza lokalizacją (wszystkie
backupy znajdują się w tym samym pomieszczeniu). Jest to świadomy
kompromis wynikający z priorytetów projektu. Czas
wykonania pełnego backupu na dysk pośredni i finalne zapisanie wynosi
około 30 minut.
Monitoring
Posiadam działający
stack Prometheus + Grafana, jednak aktualnie go nie używam. Klasyczne
narzędzia (Munin, Monitorix, Ganglia, MRTG) dają mi bardziej czytelne i
przydatne w moim przypadku informacje.
Tekst PL
EN Tekst
Infrastructure resilience tests
In order to verify the real operational resilience of the
infrastructure, simulations of failures of various combinations of
nodes were performed, along with analysis of service behavior during
system degradation.
Single server failure
Loss of any single node does not cause noticeable service interruption
for end users. Redundant layers automatically take over the load, and
the system continues operating in a degraded mode.
In some cases (e.g. MooseFS master failover), automatic failover requires a few minutes to fully stabilize.
This architecture allows maintenance, updates, and hardware replacement without significant impact on system availability.
Two server failure
Most services remain available. Availability of redundant services depends on the combination of failed nodes.
Potentially affected components include:
redundant mail servers, HA OPNsense pair, selected application replicas.
Other infrastructure components continue operating with reduced redundancy.
Three server failure
Services using triple replication or quorum mechanisms may lose availability if all nodes of a given service group fail.
This applies to, among others: MooseFS,
SeaweedFS, PostgreSQL clusters,
MySQL replication mechanisms requiring quorum.
The architecture was designed so that degradation is gradual and predictable.
Large-scale multi-node failure
In case of simultaneous loss of four or more servers, service
availability degrades further, however selected infrastructure
components may still operate in a limited mode.
The goal of the design was not to achieve full resilience against every
possible failure, but to build an infrastructure providing predictable
system behavior, controlled service degradation, and long-term stable
operation.
Main switch failure
Disconnects the entire internal network. Currently, the planned
improvement is the purchase of a second managed switch and a change of
network configuration from LAGG/LACP mode to LAGG/failover using the
second switch.
Power supply failure
Critical server-room components providing Internet access are protected
by a dual power path with Schottky diodes — one from the main
power supply and one from the backup supply.
UPS and power grid failure
Failure of any single UPS has no impact on server room operation.
Failure of two UPS units — if grid power remains available — still has no impact.
Only failure of all three power sources shuts down the server room.
Recovery time
Each server has a local backup copy on a second disk in the same
enclosure — restoration time is effectively only the time needed
to copy data back to a replacement disk. The key factor is the physical
repair time (e.g. disk replacement).
Thanks to service redundancy, failure of a single server does not interrupt most services.
Recovery time (RTO)
Each server has a local backup copy on a second disk in the same enclosure.
System restoration after disk failure is essentially a data copy operation — typically taking a few to several minutes.
Local backups are primarily used for fast operational recovery, while
full backup archives remain isolated from the production environment.
The key factor is the physical hardware repair time (e.g. disk
replacement). Thanks to service redundancy, a single server failure
does not interrupt most services.
Off-site time
Backups are located in the same physical room, therefore only the time
needed to copy data to a staging disk and then to the final disk is
relevant — approx. 30 minutes.
Local backups
Each server has a local backup copy on a second disk in the same
enclosure. Restoration time after disk failure is typically a few to
several minutes.
Off-site backups
Currently, there are no off-site backups (all backups are stored in the
same physical location). This is a deliberate trade-off based on
project priorities.
Full backup execution to a staging disk and final storage takes around 30 minutes.
Monitoring
A Prometheus + Grafana stack is available but currently not used.
Classical tools (Munin, Monitorix, Ganglia, MRTG) provide clearer and
more practical insights for this environment.
Tekst EN
Powrót na stronę
główną - Informacje o
stronie, prawa autorskie, legalność itd. tutaj
Informacje o przetwarzaniu i ochronie danych osobowych, kontakt i zapytania itd. tutaj
Prywatne
serwery Zbigniewa Kuleszy zjk.pl.
Aktualny dostawca Internetu - Vectra.pl,
Wszelkie prawa zastrzeżone. Zespół
redakcyjny zjk.pl: zjk7@wp.pl
W
sprawie treści i działania strony oraz w
sprawie funkcjonowania i udostępniania treści na serwerach
zjk.pl - kontakt z administratorem: webmaster@zjk.pl
lub zjk7@wp.pl
Copyright (c): Zbigniew Kulesza, Sieradz 2002-2026