Bireysel arama motorlarının da dahil edilmesi için kendi yönergeleri ve önerileri olduğunu lütfen unutmayın. Aşağıdaki yönergeler çoğu DSpace sitesi için geçerli olsa da, belirli arama motorları için kendilerine ait yönergeleri incelemeniz faydalı olabilir.
DSpace'inizin dizine eklenmesini sağlama
Dspace dizine ekleme: DSpace sitelerine gelen trafiği analiz eden herkes (ör. Google Analytics veya benzerlerini kullanarak), ziyaretçilerin önemli bir kısmının (ve çoğu durumda çoğunluğunun) Google veya Yahoo gibi bir arama motorundan geldiğini fark edecektir. Bu nedenle, içeriğin etkisini en üst düzeye çıkarmaya yardımcı olmak ve böylece daha fazla depozitoyu teşvik etmek için DSpace örneğinizin etkili bir şekilde dizine eklenmesini sağlamak önemlidir.
DSpace, büyük arama motorlarının (Google, Bing, Yahoo, Google Akademik) tüm içeriğinizi kolay ve etkili bir şekilde dizine ekleyebilmesini sağlayan araçlarla birlikte gelir. Ancak, bu araçların çoğu bazı temel kurulumlar sağlar. Sitenizin dizine eklenmesini nasıl sağlayacağınız aşağıda açıklanmıştır.
Optimum indeksleme için şunları yapmalısınız:
DS Alanınızı güncel tutun. Yeni sürümlerde sürekli olarak yeni dizin oluşturma iyileştirmeleri ekliyoruz
DSpace'inizin arama motorları tarafından görülebildiğinden emin olun.
Site haritaları özelliğini etkinleştirin - bu, ör. Google Web Yöneticisi araçlarıyla kaydolma.
Robots.txt dosyanızın "giriş" sayfalarına ve tam metne erişmesine izin verdiğinden emin olun.
Öğe meta verilerinin HTML başlıklarında doğru göründüğünden emin olun.
Dosya indirmelerini Öğe açılış sayfalarına yönlendirmekten kaçının
Herhangi bir nesil PDF kapak sayfasını KAPATIN
Bir yana, OAI-PMH genellikle arama motorları için yararlı olmadığını belirtmek gerekir. OAI-PMH'nin kendi kullanımları vardır, ancak arama motorlarının bunu kullanmasını beklemeyin.
DS Alanınızı güncel tutun
DSpace'e sürekli olarak yeni dizin oluşturma iyileştirmeleri ekliyoruz. Sitenizin tüm bu iyileştirmeleri almasını sağlamak için sitenizi güncel tutmaya çalışmalısınız. Örneğin:
DSpace 5.0'dan itibaren, DSpace robots.txt dosyası artık varsayılan olarak Site Haritalarına referanslar içermektedir (bkz. DS-1936) ve ayrıca bilinen kötü botları engeller (bkz. DS-2335).
DSpace 4.0'dan itibaren DSpace, Google Akademik ekibi tarafından istenen çeşitli geliştirmeler sağlamıştır. Bunlar, kullanıcılara (ve web dizinleyicilerine) DSpace'e eklendikleri tarihe kadar (bkz. DS-1482) içeriğe göz atmanın bir yolunu sağlayarak "dc.date.issued" alanının daha doğru bir şekilde ayarlanmasını sağlar (bkz. DS-1481), ve "citation_pdf_url" HTML <meta> etiketinin arkasındaki mantığın geliştirilmesi (bkz. DS-1483)
DSpace 1.7'den itibaren DSpace, Öğe düzeyindeki meta verilerinin Google Akademik için nasıl kullanılabilir hale getirildiğini geliştirmiştir. 1.7.0 sürümü için DSpace Geliştiricileri, DSpace'in Google Akademik’in Dizine Ekleme Yönergeleri'nde önerdiği "citation_ *" HTML "<meta>" etiketlerini (yani Highwire Press etiketleri) oluşturduğundan emin olmak için doğrudan Google Akademik geliştiricileriyle birlikte çalıştı.
DSpace 1.5'ten itibaren DSpace, site haritaları (bağlantıların hem basit HTML sayfaları hem de sitemaps.org protokolü) için desteğe sahiptir. Ayrıca, öğe görüntüleme sayfalarının HTML HEAD öğesine öğe meta verileri ekleyerek DSpace'inizin düzeninde veya stilinde ne tür değişiklikler yapmış olursanız olun meta verilerin etkili bir şekilde dizine eklenmesini sağlar.
DSpace 1.4'ten itibaren, DSpace "if-değiştirilmiş-beri" HTTP üstbilgisini desteklemektedir. Bu, temel olarak, bir arama motorunun tarayıcısı onu son kez dizine eklediğinden bu yana bir öğe (veya bit akımı) değişmediyse, bu öğenin / bit akımının sunucunuzu yedekleyerek yeniden alınması gerekmediği anlamına gelir.
DSpace'in daha yeni sürümlerinde ek küçük iyileştirmeler / hata düzeltmeleri yapıldı.
DSpace'inizin arama motorları tarafından görülebilir olduğundan emin olun
Öncelikle DSpace örneğinizin görünür olduğundan emin olun, ör. ile: https://www.google.com/webmasters/tools/sitestatus
Siteniz hiç dizine eklenmemişse, tüm arama motorlarının URL'nizi eklemenin bir yolu vardır, örneğin:
Google: http://www.google.com/addurl
Yahoo: http://siteexplorer.search.yahoo.com/submit
Bing: http://www.bing.com/docs/submit.aspx
Site haritaları özelliğini etkinleştir
DSpace, uygun dizine ekleme işlemini etkinleştirmenizi önemle tavsiye ettiğimiz bir site haritası özelliği sağlar. Site Haritaları, DSpace'in içeriğini arama motoru tarayıcılarının kolayca erişebileceği şekilde göstermesine olanak tanır. Site haritaları ayrıca, tarayıcıların DSpace'nizdeki her sayfayı ziyaret etmesine gerek kalmamasına yardımcı olur (yani, tarayıcıların sitenize vergilendirme yapmadan hızlı bir şekilde içeri girip çıkabileceği anlamına gelir). Site haritaları olmadan, arama motoru dizine ekleme etkinliği deponuza önemli yükler yükleyebilir.
HTML site haritaları HTML biçimindeki tüm öğelerin, koleksiyonların ve toplulukların bir listesini sağlarken, Google site haritaları gzipli XML biçiminde aynı bilgileri sağlar.
Site haritalarını etkinleştirmek için tek yapmanız gereken günde bir kez [dspace] / bin / dspace create-site haritaları çalıştırmak.
Sadece bir cron işi (veya Windows'ta zamanlanmış görev) ayarlayın, ör. (Cron):
# Regenerate sitemaps at 6 : 00 AM local time each morning 0 6 * * * [dspace]/bin/dspace generate-sitemaps |
Once you've enabled your sitemaps, they will be accessible at the following URLs:
- XML Sitemaps / Sitemaps.org syntax:
[dspace.url]/sitemap
- HTML Sitemaps:
[dspace.url]/htmlmap
So, for example, if your "dspace.url = http://mysite.org/xmlui" in your "dspace.cfg" configuration file, then the HTML Sitemaps would be at: "http://mysite.org/xmlui/htmlmap"
Site haritanızı arama motorları için bulunabilir yapın
Site haritalarınızı etkinleştirmiş olsanız bile, arama motorları bir bağlantı sağlamadığınız sürece bunları bulamayabilir. Bir arama motorunu site haritalarınız hakkında bilgilendirmenin iki ana yolu vardır:
DSpace'inizin ana sayfasındaki site haritalarına gizli bir bağlantı sağlayın. Sitenizin görünümünü ve hissini (en çok olduğu gibi) özelleştirdiyseniz, DSpace'inizin ön veya ana sayfasında / htmlmap için bir bağlantı olduğundan emin olun. Varsayılan olarak, hem JSPUI hem de XMLUI altbilgide bu bağlantıyı sağlar:
<a href=
"/htmlmap"
></a>
Site haritanızı robots.txt dosyanızda duyurun. Çoğu büyük arama motoru, robots.txt dosyanızda duyurursanız site haritanızı otomatik olarak keşfeder. Varsayılan olarak, hem JSPUI hem de XMLUI bu başvuruları robots.txt dosyalarında sağlar. Örneğin:
# The FULL URL to the DSpace sitemaps
# XML sitemap is listed first as it is preferred by most search engines
# Make sure to replace
"[dspace.url]"
with the value of your
'dspace.url'
setting in your dspace.cfg file.
Sitemap: [dspace.url]/sitemap
Sitemap: [dspace.url]/htmlmap
Bu "Site Haritası:" satırları robots.txt dosyanızın herhangi bir yerine yerleştirilebilir. Arama motorlarının her iki biçimi de bulabilmesi için birden çok "Site Haritası:" satırı da belirtebilirsiniz. Daha fazla bilgi için, bkz. Http://www.sitemaps.org/protocol.html#informing
"Site Haritası:" satırına TAM URL'yi eklediğinizden emin olun. Göreli yollar desteklenmez.
Arama motorları artık doğrudan DSpace örneğinizdeki öğelere, koleksiyonlara ve topluluklara bağlanan önceden oluşturulmuş (ve böylece donanımınız üzerinde en az etkiyle sunulur) XML veya HTML dosyalarına bakacak olan XML ve HTML site haritalarınıza bakacaktır. Tarayıcıların, insan tüketimi için daha fazla olan ve sunucu için daha pahalı olan herhangi bir tarama ekranı boyunca çalışması gerekmez.
İyi bir robots.txt oluşturun
Buradaki hile, sunucunuzdaki yükü en aza indirmektir, ancak aslında dizinleme için hayati bir şeyi engellemez. Arama motorlarının öğe, toplama ve topluluk sayfalarını ve öğeler içindeki tüm bit akışlarını endeksleyebilmesi gerekir; tam metin erişimi, etkili endeksleme için kritik önem taşır; alıntı analizi ve normal anahtar kelime araması için.
Sitenizdeki içeriği kısıtladıysanız, arama motorları içeriğe erişemez; tüm sayfalara anonim kullanıcı olarak erişirler.
Robots.txt dosyanızın sitenizin en üst düzeyinde olduğundan emin olun: ör. Http://repo.foo.edu/robots.txt adresinde ve örn. http://repo.foo.edu/dspace/robots.txt. DSpace örneğiniz örn. http://repo.foo.edu/dspace/, aşağıdaki örneklerde yer alan tüm yollara / dspace eklemeniz gerekir (örn. / dspace / browse-Subject).
BU YOLLARI ASLA engellemeyin
Bazı URL'lere olumsuz bir etki olmadan izin verilmeyebilir, ancak kesinlikle aşağıdaki URL'lere tarayıcılar tarafından erişilebildiğinden emin olabilirsiniz, yani Bunlara İzin Verme: satırlarına KOYMAYIN: DSpace örneğiniz düzgün bir şekilde dizine eklenmeyebilir.
/bitstream
/browse
(UNLESS USING SITEMAPS)/*/browse
(UNLESS USING SITEMAPS)/browse-date
(UNLESS USING SITEMAPS)/*/browse-date
(UNLESS USING SITEMAPS)/community-list
(UNLESS USING SITEMAPS)/handle
/html
/htmlmap
İyi robots.txt örneği
Aşağıda iyi bir robots.txt örneği verilmiştir. Şiddetle tavsiye edilen ayarlar önerilmemektedir. Ek, isteğe bağlı ayarlar yorumlarda görüntülenir - yerel yapılandırmanıza bağlı olarak, ilgili "İzin verme:" satırını kaldırarak bunları etkinleştirmek isteyebilirsiniz.
# The FULL URL to the DSpace sitemaps
# XML sitemap is listed first as it is preferred by most search engines
# Make sure to replace
"[dspace.url]"
with the value of your
'dspace.url'
setting in your dspace.cfg file.
Sitemap: [dspace.url]/sitemap
Sitemap: [dspace.url]/htmlmap
##########################
# Default Access Group
# (NOTE: blank lines are not allowable in a group record)
##########################
User-agent: *
# Disable access to Discovery search and filters
Disallow: /discover
Disallow: /search-filter
# For JSPUI, replace
"/search-filter"
above with
"/simple-search"
#
# Optionally uncomment the following line ONLY
if
sitemaps are working
# and you have verified that your site is being indexed correctly.
# Disallow: /browse
#
# If you have configured DSpace (Solr-based) Statistics to be publicly
# accessible, then you may not want
this
content to be indexed
# Disallow: /statistics
#
# You also may wish to disallow access to the following paths, in order
# to stop web spiders from accessing user-based content
# Disallow: /contact
# Disallow: /feedback
# Disallow: /forgot
# Disallow: /login
# Disallow: /register
UYARI: ek izin verme ifadelerinizin User-agent: * grubu altında tanınması için, belirtilen user-agent: * bloğundan beyaz çizgilerle ayrılamazlar. Beyaz çizgi, yeni bir kullanıcı aracısı bloğunun başlangıcını gösterir. İlk satırda önde gelen bir kullanıcı-aracı bildirimi olmadan, bloklar yoksayılır. Yorum satırlarına izin verilir ve kullanıcı aracısı bloğunu kırmaz.
Örneğin bu uygundur:
User-agent: *
# Disable access to Discovery search and filters
Disallow: /discover
Disallow: /search-filter
Disallow: /statistics
Disallow: /contact
To identify if a specific user agent has access to a particular URL, you can use this handy robots.txt tester.
For more information on the robots.txt format, please see the Google Robots.txt documentation.
DSpace Arama motoru optimizasyonu