DSpace için Cron ile Zamanlanmış Görevler

Scheduled Tasks via Cron

Cron ile Zamanlanmış Görevler

Bazı DSpace özellikleri bir komut dosyasının düzenli olarak çalıştırılmasını gerektirir (cron veya benzeri bir yöntemle). Bu özelliklerden bazıları şunlardır:

bırakılan yeni öğeler hakkında kullanıcıları uyaran e-posta aboneliği özelliği;

görüntülerin küçük resimlerini oluşturan ve indeksleme için belgelerin tam metnini çıkaran 'medya filtresi' aracı;

deponuzdaki bit akışlarını yolsuzluk açısından test eden 'sağlama toplamı denetleyicisi';

büyük arama motorlarının içeriğinizi endeksleme ve onu bulunabilir hale getirme yeteneğini artıran site haritası oluşturucu;

yöneticilerin görevleri (daha sonra çalıştırılacak şekilde) Yönetici arayüzünden "sıralamasına" olanak sağlayan iyileştirme sistemi kuyruğa alma özelliği;

ve kayıt kuruluşu olarak DataCite kullanarak DOI'lerin kaydedilmesi.


Bazı isteğe bağlı periyodik görevler de vardır:

Kullanım istatistiklerini zenginleştirmek için kullanılan coğrafi konum veritabanını güncelleme. Bu yazıda, veritabanı yayıncısı aylık güncellemeler yayınlar.

Düzenli olarak zamanlanan bu görevler, cron (Linux / Mac OSX için) veya Windows Görev Zamanlayıcı (Windows için) aracılığıyla kurulmalıdır.


Önerilen Cron Ayarları

Linux veya Mac OSX kullanıyorsanız, bu cron ayarlarını Tomcat çalıştıran (ve [dspace] kurulum dizinine sahip olan) OS hesabının altına eklemelisiniz. Örneğin, bu kullanıcı olarak oturum açın ve kullanıcının crontab'ını düzenlemek için aşağıdakileri yazın.


crontab -e

Her DSpace kurulumu benzersiz olsa da, DSpace'den en iyi şekilde yararlanmak için bu temel cron ayarlarını etkinleştirmenizi önemle tavsiye ederiz (ayarlar açıklamalarda açıklanmaktadır):

## SAMPLE CRONTAB FOR A PRODUCTION DSPACE
## You obviously may wish to tweak this for your own installation,
## but this should give you an idea of what you likely wish to schedule via cron.
##
## NOTE: You may also need to add additional sysadmin related tasks to your crontab
## (e.g. zipping up old log files, or even removing old logs, etc).
 
#-----------------
# GLOBAL VARIABLES
#-----------------
# Full path of your local DSpace Installation (e.g. /home/dspace or /dspace or similar)
# MAKE SURE TO CHANGE THIS VALUE!!!
DSPACE = [dspace]
 
# Shell to use
SHELL=/bin/sh
 
# Add all major 'bin' directories to path
PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin
 
# Set JAVA_OPTS with defaults for DSpace Cron Jobs.
# Only provides 512MB of memory by default (which should be enough for most sites).
JAVA_OPTS="-Xmx512M -Xms512M -Dfile.encoding=UTF-8"
 
#--------------
# HOURLY TASKS (Recommended to be run multiple times per day, if possible)
# At a minimum these tasks should be run daily.
#--------------
 
# Regenerate DSpace Sitemaps every 8 hours (12AM, 8AM, 4PM).
# SiteMaps ensure that your content is more findable in Google, Google Scholar, and other major search engines.
0 0,8,16 * * * $DSPACE/bin/dspace generate-sitemaps > /dev/null
  
# Send information about new and changed DOIs to the DOI registration agency
# NOTE: ONLY NECESSARY IF YOU REGISTER DOIS USING DATACITE AS REGISTRATION AGENCY
0 4,12,20 * * *  $DSPACE/bin/dspace doi-organiser -u -q ; [dspace]/bin/dspace doi-organiser -s -q ; [dspace]/bin/dspace doi-organiser -r -q ; [dspace]/bin/dspace doi-organiser -d -q
 
#----------------
# DAILY TASKS
# (Recommended to be run once per day. Feel free to tweak the scheduled times below.)
#----------------
 
# Update the OAI-PMH index with the newest content at midnight every day
# NOTE: ONLY NECESSARY IF YOU ARE RUNNING OAI-PMH
# (This ensures new content is available via OAI-PMH)
0 0 * * * $DSPACE/bin/dspace oai import > /dev/null
 
# Clean and Update the Discovery indexes at midnight every day
# (This ensures that any deleted documents are cleaned from the Discovery search/browse index)
0 0 * * * $DSPACE/bin/dspace index-discovery > /dev/null
 
# run the index-authority script once a day at 12:45 to ensure the Solr Authority cache is up to date
45 0 * * * $DSPACE/bin/dspace index-authority > /dev/null
 
 # Cleanup Web Spiders from DSpace Statistics Solr Index at 01:00 every day
# NOTE: ONLY NECESSARY IF YOU ARE RUNNING SOLR STATISTICS
# (This removes any known web spiders from your usage statistics)
0 1 * * * $DSPACE/bin/dspace stats-util -i
 
# Send out subscription e-mails at 02:00 every day
# (This sends an email to any users who have "subscribed" to a Collection, notifying them of newly added content.)
0 2 * * * $DSPACE/bin/dspace sub-daily
 
# Run the media filter at 03:00 every day.
# (This task ensures that thumbnails are generated for newly add images,
# and also ensures full text search is available for newly added PDF/Word/PPT/HTML documents)
0 3 * * * $DSPACE/bin/dspace filter-media
 
# Run any Curation Tasks queued from the Admin UI at 04:00 every day
# (Ensures that any curation task that an administrator "queued" from the Admin UI is executed
# asynchronously behind the scenes)
0 4 * * * $DSPACE/bin/dspace curate -q admin_ui
 
#----------------
# WEEKLY TASKS
# (Recommended to be run once per week, but can be run more or less frequently, based on your local needs/policies)
#----------------
# Run the checksum checker at 04:00 every Sunday
# By default it runs through every file (-l) and also prunes old results (-p)
# (This re-verifies the checksums of all files stored in DSpace. If any files have been changed/corrupted, checksums will differ.)
0 4 * * * $DSPACE/bin/dspace checker -l -p
# NOTE: LARGER SITES MAY WISH TO USE DIFFERENT OPTIONS. The above "-l" option tells DSpace to check *everything*.
# If your site is very large, you may need to only check a portion of your content per week. The below commented-out task
# would instead check all the content it can within *one hour*. The next week it would start again where it left off.
#0 4 * * 0 $DSPACE/bin/dspace checker -d 1h -p
   
# Mail the results of the checksum checker (see above) to the configured "mail.admin" at 05:00 every Sunday.
# (This ensures the system administrator is notified whether any checksums were found to be different.)
0 5 * * 0 $DSPACE/bin/dspace checker-emailer
 
#----------------
# MONTHLY TASKS
# (Recommended to be run once per month, but can be run more or less frequently, based on your local needs/policies)
#----------------
# Permanently delete any bitstreams flagged as "deleted" in DSpace, on the first of every month at 01:00
# (This ensures that any files which were deleted from DSpace are actually removed from your local filesystem.
#  By default they are just marked as deleted, but are not removed from the filesystem.)
0 1 1 * * $DSPACE/bin/dspace cleanup > /dev/null
 
#----------------