Web siteleri

Yeni Yazılım, Botları Kazıdıran Web Sitesi Verilerini Algılar

BU VİDEOYU İZLEMEDEN HİÇBİR ŞEYİ ÇÖPE ATMAYIN!

BU VİDEOYU İZLEMEDEN HİÇBİR ŞEYİ ÇÖPE ATMAYIN!
Anonim

İş panoları gibi web siteleri kalıcı bir sorunla karşı karşıyadır: Verileri sürekli olarak otomatik robotlar tarafından çalınır.

Veriler, içeriği çalınan diğer rakip iş tahtalarında sona erer. Fikri mülkiyet haklarının ücretsiz olarak yayınlanması gereken herhangi bir web sitesinin veya abonelik modelleri olan herhangi bir web sitesinin yayıldığı bir sorun.

Ama botları tespit etmede uzmanlaşmış Atlanta merkezli bir güvenlik şirketi, bu ekran kazımalarını tespit edebilecek bir yazılım geliştirdi. ve veri madenciliği botları.

[Daha fazla okuma: Windows PC'nizden kötü amaçlı yazılım nasıl kaldırılır]

Pramana'nın ana ürünü HumanPresent, örneğin web tabanlı formlara spam girerek veya ücretsiz kayıt olan otomatik robotları algılar. Spam için kullanılacak e-posta hesapları

Pramana, HumanPresent için "veri madenciliği ve ekran kazıma önleme" adlı bir modül geliştirdi. Pramana'nın CEO'su David Crowder, “Ana ürünüyle aynı prensiplerin birçoğunda çalışıyor, ancak veri madenciliği senaryoları için değiştirildi.”

HumanPresent, bir insanın normalde bir Web ile etkileşimde bulunma şeklindeki farklılıkları fark ederek botları tespit edebilir. sayfa ve botların nasıl davrandığı ile çelişiyor. Klavye vuruşları, fare tıklamaları ve bu eylemlerin zamanlaması gibi 30'dan fazla metriğe benziyor.

HumanPresent tek işlemlere bakıyor, ancak veri madenciliği modülü ya bir botun zamanlanmış bir döneme bakması için değiştirildi. ya da insan sitede, Crowder dedi.

Veri madenciliği botları, bir tarayıcı kullanıcı arayüzünü tamamen engellemeye eğilimlidir. Örneğin, bir bot çok sayıda ve çok sayıda veri içeren bir Web sayfası isteyebilir, ancak asla bir sayfaya kaydırmaz veya tıklamaz. Bir dizi sayfa bu şekilde açılıp görüntüleniyorsa, bu bir veri madenciliği botunun geldiği anlamına gelebilir.

Pramana ziyaretçiye benzersiz bir kimlik atar ve ziyaretçinin davranışını analiz ettikten sonra etiketleyip etiketlemeyeceğine karar verebilir. ziyaretçi bir bot ya da değil. Bir Web sitesi operatörünün durumla başa çıkmayı tercih etmesinin birkaç farklı yolu vardır.

Botun bilgisayarının IP (İnternet Protokolü) adresi kalıcı olarak engellenebilir. Pramana'nın veri madenciliği modülünü test eden bir araba müzayede Web sitesi, şüpheli robotları tamamen yanlış verilerle sunulduğu bir "sanal alana" taşımaya karar verdi.

"Gerçekten de veri madenciliği yapıyorlar - bu tamamen yanlış" dedi Crowder

Diğer seçenekler arasında, Web sitesi ziyaretçisine, bazı botların tamamlayamadığı bir zorluk veya görevle ilgili sorulması yer alıyor.

Veri madenciliği şirketleri çok pahalı. Premium veri satan şirketler, rakiplerinin bir abonelik satın alacağını ve daha sonra kendi sitelerinin verilerini çalmak için otomatik robotları kullanacaklarını görecek. Bir örnekte, kullanılmış araba fiyatlarına ilişkin gigabaytlık verilere sahip bir Web sitesi, verilerin kazındığını ve eBay'de satışa sunulduğunu tespit etti.

"Aslında kendi içerikleriyle rekabet ediyorlar," diye konuşuyor Crowder.

Bazı Web siteleri, veri kazıma işlemini daha kolay hale getiren zayıf tasarımlara sahiptir. Kullanılan araç sitesinde daha fazla veriyi ortaya çıkarmak için URL'ler (Tekdüzen Kaynak Konum Belirleyicileri) sıralı olarak değiştirilebiliyordu, dedi Crowder.

Veri madenciliği modülü, şimdilik HumanPresent ürününe sarılacak, ancak önümüzdeki yılın başında Pramana satmayı planlıyor. ayrı ayrı, Crowder söyledi. Pramana, ya şirket içi bir cihaz olarak ya da hizmet olarak yazılım olarak konfigüre edilebilir.

SaaS (bir hizmet olarak yazılım) teklifi için Pramana teknolojisi bir Web uygulamasına entegre edildi ve oturum bilgisi geri gönderiliyor analiz için Pramana'ya. Crowder, Pramana'nın son sürümündeki gecikme süresini önemli ölçüde azaltabildiğini söyledi. Daha fazla hıza ihtiyaç duyan müşteriler için, cihaz mevcuttur.