Web Sayfası Kaynağı

GEODI Web sayfalarını ve RSS haber kaynaklarını da içerik olarak kullanabilir. Web sayfaları çok değişken yapılarda olabilir. Bu değişkenliği desteklemek için Web Sayfası veri kaynağı pek çok opsiyon sunar. 

İstenmeyen Sayfaların İhmal Edilmesi

Bazı web sitelerinde içerik olarak ilgilenmediğiniz Sosyal medya linkleri, reklam sayfaları veya benzeri sayfalar olabilir. Dilediğiniz kadar sayfayı tarama sonuçlarından çıkarabilirsiniz. Sayfa adresleri “;” ile ayrılmalıdır. Adresleri tanımlarken “*” kullanarak genelleştirme yapabilirsiniz.

  • Örneğin: http://www.dece.com.tr/geodi sayfasının taranması istenmiyorsa ; (*geodi* veya *geodi) olarak ihmal edilecek sayfalar alanına yazabilirsiniz.

Web Sayfa Parametrelerinin İşlenmesi

Pek çok web sayfasında parametre kullanılıyor. GEODI aynı sayfanın farklı parametre kullanan biçimlerini farklı sayfa olarak değerlendir. Ancak parametrelerin içeriği değiştirmediği pek çok durum var ve bu durumlarda parametreleri ihmal edebilirsiniz.

Örneğin:

http://portal.netcad.com.tr/display/HELP/Akademik+Bildiriler?

http://portal.netcad.com.tr/display/HELP/Akademik+Bildiriler?showComments=true

aynı sayfayı açarlar. İçerikleri aynıdır. Bu durumda İhmal edilecek parametrelere “showComments” yazarsanız GEODI her ikisini de aynı sayfa olarak değerlendirir.

Sayfa Tarama Kuralları

GEODI Web Sayfası bazında kurallara sahiptir. Bazı kurallar hazır gelir. Örneğin vikipedia sayfalarında sadece içeriğin olduğu “kutucuk” işlenir. Bazı web sayfalarında yer alan sayfalayıcılar (1,2,3,… 10 şeklinde görünen ve sayfaları belirleyen linkler) otomatik olarak işlenir. 

Sorgu sonucuna gelecek sayfa isimleri Nasıl Oluşuyor

Sayfa HTML kaynağı içinde varsa og:title yoksa title da yer alan bilgiler kullanılır.

Bu bigiler yoksa sayfanın browserda görünen adresi kullanılacaktır.