Właściwości pamięci dyskowych i taśmowych. |
||
Nośniki do backupu |
||
Taśmy: streamery; autoloadery - jeden naped, urzadzenie zmieniajace, do kilku tasm+ czyszczaca; biblioteki tasmowe - wiele napedow i slotow na tasmy; Zapis liniowy: dane zapisywane są w postaci liniowych ścieżek na całej długości taśmy, przy założeniu nieruchomości głowic. Kiedy taśma osiągnie koniec, głowica przestawia się w dół na nową ścieżkę, a taśma zapisywana jest ponownie przy przeciwnym kierunku przesuwu. Procedura ta odbywa się w obu kierunkach, aż do wyczerpania pojemności taśmy. Możliwość zapisu wielu ścieżek równolegle, powiększając tym samym prędkość zapisu danych bez konieczności zwiększania prędkości przesuwu. Do dyspozycji od 2 do 10 razy więcej miejsca na taśmie od urządzeń zapisu helikalnego. Większy obszar do zapisu danych umożliwia zmniejszenie gęstości upakowania danych, mniejsze niebezpieczeństwo ich utraty przy jednoczesnym zachowaniu dużych pojemności, dzięki mechanizmowi przepisywania danych pomiędzy poszczególnymi ścieżkami danych - korekcja. Przyklady: SLR (Scalable Linear Recording) - zapis/odczyt odbywa się z wykorzystaniem większej liczby ścieżek, co znacznie zwiększa wydajność systemu, Servo sciezka; DLT (Digital Linear Tape) - duża gęstość zapisu umożliwiająca zapis na jednej kasecie DLT do 40GB danych bez kompresji (DLT 8000) jak również duża prędkość transmisji danych, do 6,0 MB/s, W kasecie znajduje się tylko jedna szpula, na której nawinięta jest taśma, w momencie włożenia jej do mechanizmu jest ona wywlekana i zawijana na stałej szpuli znajdującej się w środku napędu, Podstawowym problemem tych napędów jest właściwe prowadzenie taśmy, Technologia Symetrycznych Faz Zapisu; SuperDLT - najnowsza technologia producenta DLT - Quantum, nie dość, że jest kompatybilna w dół (czyta nośniki zapisane w standardzie DLT), to dodatkowo najmniejszy napęd ma 80 GB nieskompresowanej pojemności, technologia ta stanowi kombinację technologii optycznej i magnetycznej, Laserowo wspomagany zapis magnetyczny- magnetyczny zapis danych na powierzchni nośnej i optycznym prowadzeniu głowicy przy pomocy drugiej strony taśmy, Obrotowy naprowadzający mechanizm optyczny, Wiązka głowic magneto-rezystywnych, Niepełny sygnał - maksymalne prawdopodobieństwo odczytu (PRML), Mechanizm zapinania taśmy, Nośnik pokryty warstwą metaliczną, ; LTO (Linear Tape Open) - Hewlett Packard, IBM oraz Seagate - zachowuje zasadnicza koncepcje DLT wprowadzajac wieksza niezawodnosc np. poprawienie transportu nosnika, informacja o polozeniu danych; IBM Magstar;Travan; Zapis helikalny: W przypadku zapisu helikalnego, dane zapisywane są na taśmie przesuwającej się zawsze w jednym kierunku. Sam "ślad magnetyczny" na taśmie ma charakter diagonalnych pasków. Głowice zapisująco-odczytujące umieszczone są na walcach wirujących z prędkością od 2 do 6 tys. obr/min. Urzadzenia ZH maja wiecej czesci ruchomych oraz majacych kontakt z tasma, czyli wieksze prawdopodobienstwo uszkodzenia; DDS/DAT (Digital Data Storage/Digital Audio Tape) - Taśma wywlekana jest z kasety i owijana na wirującym z dużą prędkością bębnie (ok. 2000 obr/min), który umieszczony jest pod odpowiednim kątem względem ruchu taśmy, która przesuwa się liniowo stosunkowo wolno (ok. 8 mm/s). Ponieważ w czasie przewijania taśma porusza się z prędkością ok. 200 razy większą niż w czasie odczytu, średni czas dostępu do plików wynosi zaledwie ok. 40 s. Wraz z danymi na nośnik zapisywany jest odpowiedni kod umożliwiający szybkie odnalezienie pliku. Redundancja - typy: - czasu (powtórzenie działania - niepodzielne transakcje, wady przejściowe lub nieciągłe); -fizyczna (aktywne zwielokrotnione zasoby rezerwowe); -informacji (dodatkowe bity; kod Hamminga); Redundancja - poziomy: 1. poziom zasobow dyskowych (Mirror, RAID), 2. p. sprzętu (fault tolerant), 3.p. systemu operacyjnego (High Availability Clusters), 4. p. baz danych - synchroniczna, asynchroniczna, 5. P. aplikacji (monitory transakcji, zarzadzanie procesami pierwotnymi i zapasowymi), 6. p. transakcji - gwarancja wykonania transakcji - z wylaczeniem awarii stacji klienta; Wiarygodność systemu informatycznego: niezawodność, dostępność, tolerowanie awarii; nadmiarowość i diagnostyka istniejących błędów i usterek w systemie; bezpieczeństwo systemu w sytuacjach wyjątkowych; zabezpieczenie systemu przed niepowołanym dostępem do zasobów; poufność i integralność przetwarzanej lub przesyłanej informacji; przeżywalność systemu - odporność na zagrożenia; Rodzaje uszkodzeń z względu na widoczność awarii: uszkodzenie uciszające (fail-silent fault) - brak działania (fail-stop fault); uszkodzenie "bizantyjskie" (Byzantine fault) - wadliwe działanie; Wady (pod względem trwałości awarii): przejściowe (transient faults), nieciągłe (intermittent) - przypadkowe, trwałe (permanent); Stadia projektu systemu HA: Analiza funkcjonalna aplikacji, Wybór architektury komputerów i systemu, Analiza usług serwisowych producenta, Analiza ekonomiczna, Plan implementacji i eksploatacji zarządzania, Polityka ochrony danych, prawa dostępu, ochrona dostępu, kopie zapasowe, archiwizacja), Zniszczenia rozległe, Plan szkoleń; Elementy RAS w maszynie: monitorowanie pracy z pomocą oddzielnego procesora; Pamieć (RAM), cache typu ECC; dynamiczna dealokacja procesorów i modułów pamięci; oddzielne podsystemy magistrali dla sterowników dysków lustrzanych; wymiana, hot swap, redundancja w odniesieniu do zasilaczy, wentylatorów .....; gwarancja 3 lata; Zatruwanie danych: Standardowo wykrycie niekorygowalnego błędu w pamięci operacyjnej (dwubitowy błąd przy pamięci ECC) powoduje zatrzymanie systemu. Procesor Itanium w momencie pobrania z zewnątrz danej z błędem umieszcza ją w pamięci cache i oznacza jako złą ("zatruwa"). Każdy proces sięgający po taką daną zostaje zatrzymany, a reszta systemu pozostaje nienaruszona. Technologia ChipKill: Najnowsze układy DRAM o bardzo dużych pojemnościach oraz możliwości obsługi bardzo dużych ilości pamięci (rzędu dziesiątek GB) np. w serwerach wymagają wyższego poziomu zabezpieczenia niż oferuje ECC. Dell opracował dla swoich serwerów oraz przyszłych zastosowań technologię znacznie podnoszącą niezawodność i korzystającą z dostępnych modułów pamięci ECC. Jest to technologia działania systemu pamięci jako całości. Składa się ona z następujących dwóch elementów: 1. rozpraszanie słów ECC (np 72 bitowych) pomiędzy różne fizyczne układy. Prawdopodobieństwo wystąpienia błędu bliskich bitów w jednym układzie jest dalece większe niż prawdopodobieństwo wystąpienia "dobrze zgranych" błędów w różnych układach jednocześnie. Wystąpienie błędnego ciągu bitów w konkretnym układzie powoduję błędy pojedynczych bitów w różnych słowach ECC co pozwala na bezproblemową korekcję. 2. wykorzystywanie innych matematycznych algorytmów zabezpieczania bitów wraz ze zwiększeniem ilości bitów nadmiarowych. Np 144 bitowe słowo (128+16ECC) może być wykorzystane do korekcji aż 4 bitów błędnych jednak tylko gdy będą to bity sąsiednie. SMP: Są to najprostsze i najbardziej popularne architektury systemów komercyjnych. Ten podstawowy schemat systemu o pamięci dzielonej zyskał największą popularność ponieważ dobrze odpowiada podstawowym celom aplikacji zwłaszcza OLTP w odniesieniu do małej i średniej wielkości baz danych. Sprzętowa realizacja warstwy komunikacyjnej może wykorzystywać magistralę systemową (w przypadku mniejszej liczby procesorów) lub przełącznicę krzyżową (dla kilkudziesięciu procesorów). Skalowalność w modelu SMP jest uzyskiwana poprzez dodanie kolejnego procesora lub wymianę wolniejszych procesorów na szybsze. Proces ten jest łatwiejszy technologicznie w przypadku implementacji magistrali; przy stosowaniu przełącznicy rozbudowa jest zazwyczaj istotnie ograniczona Przepustowość magistrali systemowej ogranicza znacznie zakres skalowalności. SMP posiada prosty model programowania, a system operacyjny w sposób przeźroczysty zarządza wielozadaniowością i zasobami. Zalety systemów SMP:
Niedostatki systemów SMP:
cc-NUMA: Prostota modelu programowania dla architektur SMP skłoniła do opracowania bardziej rozbudowanego rodzaju architektury, cc-NUMA, który udostępniałby większą wydajność, łącząc zalety systemów SMP i MPP. Budowa tego typu maszyn wykorzystuje najczęściej strukturę hierarchiczną, złożoną z wieloprocesorowych węzłów obliczeniowych. W maszynie typu cc-NUMA, jak wspomniano wcześniej, używany jest jeden system operacyjny oraz liniowo adresowana pamięć operacyjna, fizycznie rozproszona pomiędzy węzły obliczeniowe i dostępna w sposób hierarchiczny. Zatem czas dostępu do informacji nie jest jednakowy i zależy od wzajemnego położenia procesora i modułu pamięci. Stosuje się protokoły zapewniające spójność pamięci podręcznej procesorów. Dodatkowo, podsystem we/wy jest globalnie dostępny przez fizyczne odwołanie się do dowolnego urządzenia skierowane ze strony dowolnego procesora. Segment rynku, na którym systemy cc-NUMA odnoszą największe sukcesy to obliczenia naukowo-techniczne, wymagające bardzo dużych mocy obliczeniowych. Ich popularność w przetwarzaniu typu komercyjnego jest ograniczona. Wynika to z faktu stosunkowo (jeszcze) niewielkiego zapotrzebowania w tym zakresie na tak dużą moc obliczeniową, jaką oferują architektury cc-NUMA oraz niepełnego rozwoju technologii aplikacji relacyjnych baz danych na tego typu architekturę, Jedną z najważniejszych cech architektury jest możliwość wykonywania aplikacji oryginalnie opracowanych dla architektury SMP, chociaż w tym wypadku wymagają one optymalizacji. Innymi cechami korzystnymi jest zdolność do partycjonowania zasobów oraz tworzenia wirtualnej struktury klastrowej. Zalety systemów cc-NUMA:
Niedostatki systemów cc-NUMA:
Równoległe SMP: Równoległa architektura SMP (ang. Parallel SMP, PSMP, por. Rys. 5.4) występuje jako niezależny typ zwłaszcza w zastosowaniach do przetwarzania komercyjnego. Może być ona traktowana jako typ pośredni - między architekturą SMP a architekturą cc-NUMA. Jako węzły obliczeniowe architektura PSMP wykorzystuje układy wieloprocesorowe (z własnym systemem operacyjnym), zapewniające model przetwarzania typu SMP. Węzły te łączy warstwa sieciowa, przez którą komunikują się one wykorzystując model przesyłania wiadomości. Realizacją tej architektury może być klaster komputerów SMP. W praktyce, implementacji PSMP dokonuje się na istniejącej architekturze cc-NUMA lub na bardzo dużych maszynach typu SMP. W pierwszym przypadku rezygnuje się z możliwości, jakie oferuje praca pod kontrolą jednego systemu operacyjnego i traktuje się węzły maszyny cc-NUMA jako oddzielne maszyny SMP. W drugim - dokonuje się partycjonowania zasobów całej maszyny. Zalety systemów PSMP:
Niedostatki systemów PSMP:
Klastry wysokiej dostępności HAC: Szczególnym przypadkiem architektury PSMP są systemy wysokiej dostępności budowane w oparciu o strukturę klastra (ang. High Availability Clusters - HAC). Systemy HAC wiążą się bezpośrednio z ideą systemów pracy ciągłej, odpornych na rodzaju zdarzenia losowe i katastrofy. Są one przeznaczone do uruchamiania aplikacji o znaczeniu podstawowym, typu mission critical i maksymalnego ograniczenia wpływu awarii na ciągłość pracy całego systemu. Typowe rozwiązania dają gwarancję ciągłej pracy w wysokości 99.95% na 24x365 godzin w roku, co oznacza, że w okresie jednego roku może wystąpić jedynie 4.5 godziny nieplanowanego przestoju systemu komputerowego. Istotną cechą wyróżniającą klaster wysokiej dostępności spośród innych typów architektur jest zastosowanie elementów redundantnych i mechanizmów programowych, które zwiększają niezawodność pracy oraz podnoszą jego dostępność dla użytkowników. W przypadku wystąpienia awarii jednego z węzłów, zadaniem warstwy nadzorczej oprogramowania systemu HAC jest dokonanie automatycznej migracji aplikacji z węzła uszkodzonego na pozostałe węzły w sposób przeźroczysty dla użytkownika, z zachowaniem równoważenia obciążenia i ciągłości pracy systemu jako całości. Cechy HAC: takie jak PSMP +
SCSI (ang. Smali Computer System Interface) jest odpowiedni do lokalnych połączeń komputera z zewnętrznymi nośnikami informacji. Magistrala SCSI pozwala na wykonywanie połączeń typu V (dwa komputery połączone z jednym urządzeniem). Kanały mogą być redundantne (zarówno w komputerze jak i w urządzeniu zewnętrznym umieszczonych jest dwa lub więcej sterowników) celem podniesienia niezawodności. Używa się kilku rodzajów standardu SCSI, na przykład: SE (ang. Single Ended), FWD (ang. Fast Wide Differential) i Ultra2, różniących się szerokością magistrali, organizacja sygnałów elektrycznych oraz zasięgiem. Dużą zaletą tego rozwiązania jest fakt, że jest ono uznanym standardem - umożliwia współpracę urządzeń pochodzących od różnych producentów. Wadami standardu SCSI są stosunkowo mała przepustowość (niezależnie od rodzaju), niewielka liczba urządzeń mogących współpracować z jedna magistralą oraz lokalny zasięg. RAID: Przy większych pojemnościach użytkowych jest to rozwiązanie preferowane pod względem ekonomicznym i technologicznym. Przez macierz dyskową RAID rozumie się zespół dysków:
RAID0 Dane są zapisywane z przeplotem dyskowym (stripping), tryb nie zapewnia redundancji danych, najszybszy ze względu na czas zapisu i odczytu. RAID l Określany jako tryb zwierciadlany, stosowany najczęściej z jednoczesnym przeplotem dyskowym; dane zapisywane są jednocześnie na pary dysków. Tryb zapewnia dużą szybkość, pełną redundancje danych, wymaga zwielokrotnienia liczby dysków. RAID 2 Dane są zapisywane z przeplotem bitowym na grupie dysków, część dysków służy do przechowania kodów korekcyjnych. Tryb ten zapewnia pełną redundancje, ale jest wolniejszy od trybu RAID l. RAID 3 Dane są zapisywane z przeplotem bitowym lub bajtowym, jeden z dysków przechowuje sumy KOR. Tryb zapewnia pełną redundancję i wysoką szybkość transmisji dużych bloków danych. RAID 4 Dane dzielone są na bloki logiczne i zapisywane na grupie dysków z jednym dyskiem przeznaczonym dla sum KOR. Tryb zapewnia pełną redundancję i lepszą efektywność obsługi dużych bloków danych (w porównaniu do RAID 3) RAID 5 Dane dzielone są na bloki logiczne i zapisywane na grupie dysków z rozproszonym cyklicznie zapisem sum KOR. Tryb zapewnia pełną redundancję. Jest zalecany do współpracy z systemami transakcyjnymi. NAS (Network Attached Storage) - Systemy przechowywania danych, optymalizowane do dzielenia zasobów dyskowych przez sieć LAN. Przy zastosowaniu NAS serwer nadal zajmuje się przetwarzaniem danych, natomiast dostarczaniem ich do użytkownika zajmuje się właśnie urządzenie NAS. Dodatkową korzyścią jest to, że urządzenie to nie musi być podłączone bezpośrednio do serwera, lecz w dowolnym miejscu w sieci i może składać się z kilku urządzeń NAS. Ponieważ NAS uzyskuje adres IP i komunikacja z nim odbywa się przy pomocy protokołów sieciowych, do urządzenia może mieć dostęp każdy komputer w sieci, bez angażowania w tą operację serwera. Podejście takie zmniejsza obciążenie serwera, uwalniając go od konieczności obsługi dostępu do współdzielonych plików. Serwer może się zająć wyłącznie obsługą aplikacji. Takie rozwiązanie podnosi wydajność całej infrastruktury. NAS komunikuje się z klientami wykorzystując Network File System (NFS) dla klientów UNIX'owych oraz Common Internet File System (CIFS) dla środowiska Windows. Obsługuje FTP, HTTP i inne protokoły sieciowe. Wszystko to sprawia, że urządznia NAS przynoszą niezależność od systemu operacyjnego oraz podnoszą wydajność sieci LAN. Urządzenie te są idealnym rozwiązaniem w sieciach, w których występują klienci oraz serwery pracujące pod kontrolą różnych systemów operacyjnych oraz tam, gdzie gromadzona jest ogromna ilość informacji. Urządzenia typu NAS swoją architekturą przypominają komputery PC segmentu High-End lub serwery segmentu Entry. Główną różnicą jest rozbudowany podsystem zajmujący się pamięcią masową. Urządzenia NAS oferują dostęp do danych niezależnie od systemu operacyjnego, pod kontrolą którego pracuje klient zgłaszający zapotrzebowanie na dostęp do danego pliku. Dzieje się to za sprawą wspierania zarówno Network File System (NFS) jak i Common Internet File System (CIFS). Oba systemy oferują dostęp do zasobów dyskowych przez sieć LAN. SAN (Storage Area Network) - służą wyącznie do transmisji danych dużej objętości, w sposób oddzielony od sygnałów sterujących przesyłanych siecią LAN. Elementami SAN są urządzenia pamięci masowej wykorzystujące protokoły zapewniające dużą przepustowość (Fiber Channel) do których dostęp posiadają serwery sieci LAN. BACKUP: 1. Pełen backup Jest to skopiowanie na nośnik zastępczy wszystkich danych tak, jak one występują w oryginale. Z takiej kopii zapasowej jesteśmy w stanie odtworzyć cały, funkcjonujący system bez potrzeby korzystania z czegokolwiek innego. 2. Backup przyrostowy Zapisujemy tylko dane zmienione od czasu poprzedniego backupu. W celu odtworzenia potrzebujemy najnowszą wersję backupu pełnego, a następnie wszystkie wersje przyrostowy. Może się zdarzyć sytuacja, w której na odtworzenie z backupu przyrostowego będziemy potrzebowali więcej miejsca dyskowego, niż docelowo, ponieważ niektóre przyrosty mogą zapisywać elementy, które będą przez następne kasowane. 3. Backup różnicowy Działa tak, jak przyrostowy, z tą różnicą, że zawsze odnosi się do ostatniego backupu pełnego. Dzięki temu do odtworzenia systemu potrzebujemy ostatnią wersję pełną i ostatnią różnicową. Rotacja typu "S" (Son) To zdecydowanie najtańszy, ale też gwarantujący najniższy poziom zabezpieczenia schemat rotacji. Wymagany jest w tym przypadku co najmniej jeden nośnik, co automatycznie jest wadą tego schematu rotacji (wystarczy uszkodzenie nośnika). Ponadto cechą charakterystyczną rotacji Son jest horyzont backupu ograniczony do... ostatniego przeprowadzonego. Przy takim założeniu codziennie musi być wykonywany pełny backup (brak innych nośników), co z kolei powoduje nadmierne zużycie nośnika. W praktyce rotacja Son jest niewykorzystywana. Rotacja typu "F/S" (Father/Son) Dzięki zwiększeniu liczby nośników do 6 (minimum) zyskuje się dwutygodniowy horyzont backupu. Rotacja ta jest kombinacją backupów całościowych i przyrostowych (lub różnicowych) w okresie dwóch tygodni. Schemat tej rotacji możena przedstawić następująco: backup pełny wykonujemy w piątek (1 nośnik), następnie w dniach od poniedziałku do czwartku następnego tygodnia wykonuje się backup przyrostowy/różnicowy (nośniki od 2 do 5), następnie w kolejny piątek znów wykonuje się backup pełny (6 nośnik). W kolejnym (już drugim) tygodniu, znów wykonujemy backup przyrostowy/różnicowy od poniedziałku do czwartku na nośnikach 2 do 5. Rotacja typu "G/F/S" (Grandfather/Father/Son) Jest to najpopularniejszy i faktycznie najczęściej stosowany schemat rotacji. Odznacza się poszerzeniem (w stosunku do poprzednich metod) horyzontu backupu do 1 roku. W tej rotacji wykorzystuje się co najmniej 19 nośników. Rotacja typu Wieże Hanoi (Tower of Hanoi) Rotacja zdecydowanie najefektywniejsza pod względem wykorzystanej liczby nośników w stosunku do horyzontu backupu. W tym przypadku posiadając n nośników możemy odtworzyć dane sprzed maksimum 2n-1 dni. Przykładowo w przypadku zastosowania 8 nośników horyzont backupu wynosi aż 255 dni (czyli de facto cały rok, uwzględniając 5-dniowy tydzień pracy). Mimo efektywności ten schemat rotacji jest stosunkowo rzadko wykorzystywany - ze względu na trudność w implementacji jest on uwzględniany jedynie w nielicznych aplikacjach do backupu. Strategia ta wymaga od osoby odpowiedzialnej za wykonywanie kopii bezpieczeństwa żelaznej konsekwencji i pełnego skupienia. Zakłada dodawanie nowego nośnika lub nowego zestawu nośników w sposób cykliczny, przy czym dla każdego kolejnego nośnika długość cyklu jest dwa razy dłuższa niż dla poprzedniego. TPC-C Zestaw TPC-C służy do pomiaru osiągów dla zastosowań typu transakcyjnego (ang. On-Line Transaction Processing, OLTP). Został wprowadzony w 1992r. W roku 1999 wprowadzono wersję 3.5. Przeznaczony jest dla porównywania średnich i dużych komercyjnych systemów przeznaczonych do przetwarzania transakcji w środowiskach o wielu użytkownikach. Stanowi mieszankę transakcji zapisu, odczytu, usuwania i uaktualniania. Modeluje działania charakterystyczne dla złożonych środowisk OLTP. TPC-D Zestaw TPC-D stosuje się do pomiaru wydajności w odniesieniu do średnich i dużych komercyjnych systemów wspierania podejmowania decyzji (tzw. business intelligence). TPC-H i TPC-R: W roku 1999 inicjatywa wykorzystania miar TPC-D została zahamowana na rzecz powstałych na jej podstawie dwóch zmodyfikowanych zestawów, o przeznaczeniu zbliżonym do TPC-D: * TPC-H, który, podobnie jak TPC-D, bada wydajność przetwarzania zapytań typu ad hoc, to jest bez pełnej znajomości istoty zapytań; * TPC-R, używającego predefiniowanego zestawu zapytań. |
Menu: |