Car-tech

Heftiest süper bilgisayarları en zorluyor, araştırmacı önerileri

format nasıl atılır? ( windows 7)

format nasıl atılır? ( windows 7)

İçindekiler:

Anonim

Süper bilgisayarlar daha güçlü büyüdükçe, daha fazla dahili bileşen bileşeni sayesinde arızaya karşı daha savunmasız olacaklardır. Geçen hafta SC12 konferansında Utah'daki Salt Lake City'deki birkaç araştırmacı, bu büyüyen soruna olası çözümler sunmuştur.

Günümüzün yüksek performanslı bilgi işlem (HPC) sistemleri 100.000 düğüm veya daha fazlasına sahip olabilir. hafıza, işlemciler, otobüsler ve diğer devre bileşenleri. İstatistiksel olarak, tüm bu bileşenler bir noktada başarısız olacaklar ve yaptıkları zaman operasyonları durduracaklar, SC12'de bir konuşma sırasında North Carolina State Üniversitesi'nde doktora öğrencisi olan David Fiala, dedi.

Sorun Elbette yeni bir tane. Lawrence Livermore Ulusal Laboratuvarı 600-düğümlü ASCI (Hızlandırılmış Stratejik Bilgi İşlem Girişimi) Beyaz süper bilgisayar 2001 yılında çevrimiçi hale geldiğinde, kısmen arızalar arasında kısmen beş saat olan arızalar (MTBF) arasında ortalama bir zaman vardı. Daha sonra ayarlama çabaları ASCI White'ın MTBF'sini 55 saate çıkardı, Fiala dedi.

Fakat süper bilgisayar düğümlerinin sayısı arttıkça sorun da bu şekilde olacak. Fiala, “Bu konuda bir şeyler yapılması gerekiyor. Maalesef övgüye doğru ilerledikçe daha da kötüye gidecektir” diyen Fiala, önümüzdeki on yılın süper bilgisayarlarının bugünün modellerinin yaptığı hesaplama gücünün on katına sahip olmasını beklediklerini ifade ediyor.

Bugünün teknikleri Fiala, sistem hatasıyla uğraşmak için çok iyi ölçeklenemeyeceğini söyledi. Bir çalışan programın geçici olarak durdurulduğu ve durumunun diske kaydedildiği kontrol noktasını gösterdi. Program çökerse, sistem son kontrol noktasından işi yeniden başlatabilir.

NCSUDavid Fiala Fiala'ya göre kontrol noktası ile ilgili problem, düğüm sayısı arttıkça, sistem yükü miktarıdır. kontrol noktası yapmak gerektiği gibi büyür ve üstel bir oranda büyür. Örneğin, 100.000 düğümlü bir süper bilgisayar üzerinde, yalnızca faaliyetin yaklaşık yüzde 35'i işin yürütülmesinde yer alacaktır. Geri kalanı kontrol noktası ile ele alınacak ve -Fiala bir sistem arıza-kurtarma işlemi yapılmalıdır.

Bir milyon ya da daha fazla bileşenden yapılabilen exascale sistemleri için gereken tüm ek donanımlar nedeniyle, sistem güvenilirliği Fiala, bugünün süper bilgisayarlarının da sahip olduğu aynı MTBF'ye sahip olmak için 100 kat daha fazla iyileştirilmesi gerektiğini söyledi.

Eski, iyi tavsiyeler: verileri yedekle

Fiala, araştırmacıların geliştirdiği güvenilirliği geliştirmeye yardımcı olacak teknolojiyi sundu.. Sistemler, diske veri yazmadan algılanan hatalar yaptığında, sessiz veri bozulma problemini çözmektedir.

Temel olarak, araştırmacıların yaklaşımı, aynı anda ve daha sonra cevapları karşılaştırarak, bir programın çoklu kopyalarını veya "klonlarını" çalıştırmayı içerir. RedMPI olarak adlandırılan yazılım, Mesaj Geçiş Arayüzü (MPI) ile bağlantılı olarak çalışmaktadır, bu sayede birden fazla sunucu üzerinde çalışan uygulamaları bölmek için bir kütüphanedir, böylece programın farklı bölümleri paralel olarak çalıştırılabilir.

RedMPI her MPI'yi kesip kopyalar. Bir uygulamanın gönderdiği mesajdır ve mesajın kopyalarını programın klonuna (veya klonlarına) gönderir. Farklı klonlar farklı cevapları hesaplarsa, bu sayılar anında yeniden hesaplanabilir, bu da tüm programın tekrar çalıştırılmasından zaman ve kaynak tasarrufu sağlayacaktır.

"Artıklık uygulamak pahalı değil. Sayım sayısında yüksek olabilir. Bu gerekli, ancak kontrol noktası yeniden başlatılması ile yeniden yazmalara gerek kalmaz, "Fiala dedi. “Elbette, alternatif olarak, doğru cevabı aldığınızı düşününceye kadar işleri yeniden yapmanız yeterli.”

Fiala, üçlü fazlalık için her programın iki yedek kopyasını çalıştırmayı önerdi. Bir programın birden çok kopyasının çalıştırılması başlangıçta daha fazla kaynak alacaktır, ancak zaman içinde programların cevapları kontrol etmek için tekrar çalışması gerekmediği için aslında daha verimli olabilir. Ayrıca, birden çok kopya çalıştırıldığında, sistem kaynaklarından da tasarruf edeceğinden, checkpointing gerekli olmayabilir.

UCSCEthan Miller

"Artık işten çıkarma fikrinin aslında harika bir fikir olduğunu düşünüyorum. Yüzbinlerce düğümün yer aldığı çok büyük hesaplamalar için, hataların sürünme ihtimali kesinlikle var," diyor Ethan Miller, Sunuma katılan California Santa Cruz Üniversitesi'nde bilgisayar bilimleri profesörü. Ancak, böyle bir fazlalığın yaratabileceği ağ trafiği miktarı dikkate alındığında yaklaşımın uygun olmayabileceğini söyledi. İnternod trafiğini en aza indirgeyen aynı düğüm kümesindeki tüm uygulamaları çalıştırmayı önerdi.

Başka bir sunumda, Urbana-Champaign'daki Illinois Üniversitesi'nden doktora öğrencisi olan Ana Gainaru, bir günlük analiz tekniğini sundu. Sistem arızalarının ne zaman olacağını tahmin edecek dosyalar.

İş, sinyal analizini veri madenciliği ile birleştirir. Sinyal analizi normal davranışı karakterize etmek için kullanılır, böylece bir hata oluştuğunda kolayca tespit edilebilir. Veri madenciliği, ayrı rapor edilen hatalar arasındaki korelasyonları arar. Diğer araştırmacılar, birden fazla başarısızlığın bazen birbirleriyle ilişkili olduğunu göstermiştir, çünkü bir teknolojideki başarısızlık, Gainaru'ya göre diğerlerinde performansı etkileyebilir. Örneğin, bir ağ kartı bozulduğunda, ağ iletişimine dayanan diğer sistem süreçlerini kısaltacak.

Araştırmacılar, korelasyondaki başarısızlıkların yüzde 70'inin 10 saniyeden fazla bir fırsat penceresi sunduğunu buldular. Diğer bir deyişle, bir hatanın ilk işareti tespit edildiğinde, sistemin çalışmasını kaydetmek için 10 saniyeye veya daha kritik bir arıza meydana gelmeden önce işi başka bir düğüme taşıyabilir. "Hata tahminleri diğer hata tolerans teknikleriyle birleştirilebilir," dedi.

Joab Jackson, IDG News Service için kurumsal yazılım ve genel haber kırma haberlerini kapsamaktadır. @Joab_Jackson'da Twitter'dan Joab'ı takip edin. Joab'ın e-posta adresi [email protected]