Zararlı İçerik Engellemede ve URL Kategorizasyonu

Mesaj gönderen **velociraptor** » 01 Kas 2008, 00:04

Özet:
URL kategorizasyonu yasak liste veritabanının sağlık tutulması ve genişlemesi için kullanılan önemli bir yöntemdir. Ayrıca web sayfalarının kategorizasyonu gerekli olan bütün sahalarda kullanılabilir. Kullanıcıların elektronik ortamda sunulan bilgilere erişmelerindeki hız ve doğruluk gereksinimi nedeniyle, bu ortamlarda tutulan bilgileri sınıflandırma ve kategorilere ayırma yaklaşımlarına ihtiyaç duyulmaktadır. URL tarama kesinliği %100 olan teknik için offline sayfa analizi, bunun merkezi bir veritabanında toplanması ve daha sonra bunun güncellemeler ile kullanıcılara dağıtılması adımlarını içeren bir algoritmadır.

URL Kategorizasyonu:

URL kategorizasyonu yapan bir sistemin amacı, URL önceden tanımlanmış kategorizasyon şemasına göre ayrı etiketlere ya da kategorilere dâhil etmektir. Bu işaretlemeler, filtreleme veya düzeltme gibi amaçlarla kullanılabilir. Günümüzdeki hızlı bilgi artışında otomatik URL kategorizasyonu önemli bir hedeftir. Web tarayıcısı kullanan sınıflandırma sistemlerinin çoğunda işlemler insan desteğiyle yapılmaktadır [1]. Bu işlemleri elle yapmak iyi bir yaklaşım gibi görünse de URL sorgularının milyonlara eriştiği bir ortamda bu sistemler pek de işe yaramamaktadır. Bu ortamlarda bu işlemleri yapacak yeni yaklaşımlara her zaman ihtiyaç duyulmaktadır.

Bu yaklaşımlardan biri ve bizim kullandığımız merkezi yada yük dağılımı yapılmış arka serverlarda metin, resim ve editörler aracılığı ile toplanan URL lerin merkezi sistemden dağıtılması –Push Method- için offline olarak geliştirilen metin tarama, resim tarama ve obje analizi yapılarak daha sonra istenirse editörel bir onaydan sonra URL veritabanına kaydedilmesinin sağlanmasına bu çalışmada crawler analizi denmiştir.
Sistemin doğru çalışabilmesi için ilk olarak kelime haritası oluşturulması gerekmektedir. Kelime haritasının olabildiğince doğru oluşturulması oldukça kritiktir. Söz konusu oluşturma
yöntemi için pek çok metod bulunmaktadır [2]. Kelime haritası oluşturulurken ayrıca yüzlerce test ve filtreleme motorunun geri besleme sonuçları da kullanılmıştır.
Kelime Grubu Oluşturma:
Crawler analizi’nde kelime haritası oluşturma işlemi için önceden tanımlanan kategorilere uyan pek çok sayfa ziyaret edilmiş, her sayfada bulunan kelimeler ayrıştırılarak bir küme oluşturulmuştur. Doğruluk payının yüksek olması için burada oluşturulan kelime kümelerindeki kelime sayılarının adedi içerik filtrelemede kullanılan gruplardaki kelime adetlerinden fazladır. Webjini içerik tarama motorundaki kelime grupları pek çok testten defalarca geçirilerek over-blocking rate i artmasın diye tune edilmiş ve damıtılmıştır.

Şu anda çalışmakta olduğumuz crawler tekniği ise bu aloritmayı biraz daha değiştirip bu küme oluşturulurken ilgili her kelimeye kaç kez rastlandığı ve bu kelimelerin başka hangi kategoriler altında bulunduğu bilgisi de tutulmuştur. Webjini içerik tarama motorunda ise kelimenin grupda kaç defa geçtiği bilgisi 1,3,5 sayılarından biriyle yada kullanıcı tanımlı kümelerde kullanıcının ifade ettiği sayılarla gösterilmiştir. Daha sonraki adımda küme 550 kelimeye yaklaşınca öncelikle kelimeler sıralanmış ve üç karakterden kısa olan kelimeler (“ile”, “de”, “da” vs.) kümeden çıkartılmıştır. Kalan kelimeler alfabetik sıraya göre dizilmiş ve birbirinin kökü olabilecek kelimeler korunup diğerleri kümeden çıkartılmış, korunan kelimelerin görülme sayısına çıkartılan kelimeler eklenmiştir. Daha sonra her bir kümeyi ifade eden 21 adet grup kelime tablosu oluşturulmuştur.

Web tarama/Veritabanı tarama:

Kategorize edilecek URL lerin listesi. Webjini yasak site veritabanından başlangıç için seçilir, daha sonra sayfalar analiz edilirken ayrıca sayfa içerisinde olan linkler eğer webjini yasak veritabanında da yoksa ayrıca geçici olarak oluşturulan bir listeye eklenir ve sonradan o liste de kategorizasyona ilave edilerek devam edilir.

İçerik Tarama:

İçerik taramada sayfada grubu ifade eden kelimelerin değerlendirmesi işlemi yapılır. Burada iki Burada iki yöntem kullanılır. Bit yöntemi ve Frekans yöntemi.
Bit yönteminde kelimenin grubu ifade eden kelimelerin listesinde olup olmaması dikkate alınır. Frekans yönteminde ise kelimenin döküman içerisinde kaç kere tekrar ettiği bilgisi de önem kazanır.[3]

Link Analizi:

Kategorize edilmek istenen sayfanın refer etiği URL lerin tespiti ve daha sonra bu URL lerin ana URL in kategorizasyonunda ağırlık fonksiyonu olarak bu bilgilerin değerlendirilmesi fonksiyonlarının işletilmesi.

HTML Yapı Analizi:

Kategorize edilmek istenen URL in aşağıdaki örnekte olduğu gibi HTML sayfasını oluşturan tagların sıyrılması ve bu tagların adet ve değerlerinin vb.. elde edilmesi.

<HTML>
<HEAD>
<TITLE>
</TITLE>
</HEAD>
<BODY>

<CENTER>

<BR>
<B>
<EM>
<EMBED>
<FONT>

HTML sayfası yapısı bizim karar vermemizde kullandığımız ikinci yöntem.

Benzerlik Ölçümü:

Bir sayfa birden fazla gruba dahil olabilir. URL analiz edilirken kategorize edilmiş grup veritabanındaki bütün gruplar için kendini ifade eden bir değer bulunur. Daha sonra ağırlığı en büyük olan seçilir

Resim

Geliştirme:

Yukarıda anlatılan teknikler platform bağımsız olması ve WEB teknolojileri ile uyumlu olması amacı ile JAVA kullanılarak geliştirilmiştir.

Referanslar:
1. Shanks, V. ve Williams, H.E. (2001). Fast categorisation of large document collections. Proceedings: Eight Symposium on String Processing and Information Retrieval November 13-15, Laguna de San Rafael, Chile içinde (s. 194-204). San Rafael, Chile:IEEE Computeri Society.

2. Joachims, T.. Text categorization with support vector machines: Learning with many relevant features. C. N'edellec ve C. Rouveirol (Ed.), Proceedings of the European Conferenceon Machine Learning içinde (s. 137-142)., 1998 Berlin: Springer.

3. Karypis, G., and Han, E., Concept Indexing A Fast Dimensionality Algorithm with Applications to Document Retrieval and Categorization University of Minnesota, Minneapolis, USA, 2000.

Dr. Ertuğrul AKBAŞ