K-samsök 1.0 närmar sig

04 november 2009

Här kommer det nyhetsbrev som skickades ut i oktober. Skicka ett mail till ksamsok at raa.se om du vill vara med på sändlistan.
————————————————————————–
K-samsöksprojektet närmar sig nu en första leverans, och därmed den andra viktiga milstolpen i projektet (den första var beta-leveransen i februari 2009). Under året har utvecklingsgruppen på RAÄ arbetat vidare med K-samsök webservice. Mer funktionalitet har tillförts enligt den prio-lista som arbetats fram med K-samsöks intressenter. Arbetet har öpt enligt plan och i början av år 2010 kommer vi att lansera K-samsök 1.0 för användning.

K-samsök och kulturpropositionen
Regeringen bedömer att satsningen på K-samsök är ett viktigt steg att för att tillgängliggöra minnesinstitutionernas information för alla och att projektet ligger i linje med att prioritera gemensamma ingångar till informationen och skapa användarvänliga applikationer som gör nytta för medborgarna. Regeringen pekar även på att K-samsök bör vara kompatibelt med andra lösningar inom ABM och poängterar särskilt att de yngre generationerna tar till sig ny teknik och information och använder den på kreativa sätt.

Regeringen skriver i propositionen att det inte längre bara handlar om att sända ut information utan om nya former för dialog, lärande och skapande. Utvecklingen får naturligtvis inte bara konsekvenser för de ”digitala infödingarna” utan även för andra användare. Exempelvis påverkas också förutsättningar och former för forskning. Tillgänglighet och användbarhet är av avgörande betydelse för att den potential som finns i kulturmiljöinformationen ska kunna utvecklas på bästa sätt.

K-samsök är en plattform, bland flera, som underlättar minnesinstitutionernas arbete med att tillhandahålla öppen och tillförlitlig information som sedan kan användas av andra aktörer i lärande och forskning. Men inte bara där, utan också i andra typer av kreativa och innovativa processer, både nationellt och internationellt.

Regeringen avser att ge RAÄ i uppdrag att förvalta och vidareutveckla K-samsök. Det bör ske i samarbete med berörda myndigheter och institutioner samt ideella organisationer och aktörer, det vill säga följa samma upplägg som projektet har idag.

Riksantikvarieämbetet, Europa och K-samsök
Vid sidan om det nationella arbetet ska RAÄ också delta i samarbetet på den europeiska arenan kring frågor som rör kulturarvsinformationens tillgänglighet och användbarhet. Europeana är en viktig plattform för nationell och internationell samverkan och där behandlas även upphovsrättsfrågor i anslutning till minnesinstitutionerna, tekniska standarder m.m. För de institutioner som vill ansluta sina databaser till K-samsök finns tekniska förutsättningar för att relativt smidigt leverera information även till Europeana. Det är ett av projektets leveransmål och nu när K-samsök börjar närma sig en första driftversion tittar vi, tillsamman med andra nationella leverantörer till Europeana, på hur lösningen för detta ska se ut.

Europeanaleveranser kan göras på olika sätt. En möjlig väg är att mappa om K-samsöks datastruktur till den struktur Europeana använder och leverera data i enlighet med den. Eller, om man så vill: översätta ”K-samsöksspråket” till motsvarande för Europeana. Vi undersöker nu möjligheterna att få stöd för det. Det skulle innebära att varje informationsförvaltare som är knuten till K-samsök inte behöver mappa om eller byta standard. Om man använder något av de protokoll som Europeana förordar (vilket inte är klart än) kommer vi att försöka se till att det kan skickas genom K-samsök.

Slutligen
Regeringen har tagit intryck av den stora vilja som finns inom museisektorn att samverka för att kunna ställa våra gemensamma digitala resurser i samhällets tjänst. Samma anda har präglat arbetet inom K-samsök och det blir spännande att se hur vi kan fortsätta att utveckla denna samverkan. Vi på Riksantikvarieämbetet kommer genom förvaltningen av K-samsök och projektägarskapet att, tillsammans med informationsförvaltande myndigheter och institutioner, ha ett stort ansvar för en fortsatt och vidareutvecklad samverkan.

Har du frågor eller funderingar kring detta, hör gärna av dig till Johan Carlström (johan.carlstrom at raa.se).


Sök bland föremål från Vasamuseet i K-samsök

22 oktober 2009

Nu är föremålen i Vasamuseets databas sökbara via K-samsök med nästan 11 000 objekt. Du hittar alla här på K-samsöks demosida. Verkar dock som om själva skeppet inte finns med. :)

Kanonrör från Regalskeppet Vasa
Foto: Evensen, Stefan

Lejon från Regalskeppet Vasa
Foto: Evensen, Stefan

//Johan Carlström – projektledare


Missing element in ESE

09 oktober 2009

(Posted to the Europeana wiki)

We need another element in ESE in order to be compliant with the semantic web (web 3.0). In the latest version of ESE, there are some elements from the Dublin Core namespace and some elements that have been added, using a Europeana namespace. This is a good strategy and I like what you’ve done with ESE! We have used a similar strategy in the SOCH product in Sweden ( http://www.kulturarvsdata.se/english.html ).

The element we are missing actually solves two problems:

  • it makes the ESE and Europeana compliant with the semantic web
  • it solves all issues concerning duplicates (well, some simple cases are solved anyway but all the difficult cases are solved)

The element is <owl:sameAs>. OWL (web ontology language) is just as established a namespace in web 3.0 as DC is in the world of digital libraries. The sameAs element is probably self-explanatory – it identifies that an object is the exact same instance as another object.

When I have discussed this with different people, I get the answer that this could be included later in the protocol. Fair enough, but don’t create any strange ways of handling duplicates meanwhile in that case! This is the standard tool on the semantic web for handling duplicates and it should be easier to include another parameter in ESE than to do something awkward and non-standard stuff.

You have probably scenarios that you want do discuss. Please do. I’ll start with an example from Sweden:
We have a museum for a very famous ship that sunk in the 1700 century, the ship of Vasa. It has its own museum and of course the ship itself is a digital object. However, it is also an object in another database for historical and archeological findings. By setting the parameter in these two databases, applications and tools can identify the objects as being the same, although there are two different URIs.

In applications using SOCH we can enrich the object by merging information from both these databases.

When we send the objects to Europeana we want

  1. Europeana to harvest the sameAs parameter to recognize the fact that the two objects are the same
  2. Europeana to add a sameAs parameter so that semantic tools finds not only the Europeana version of the object, but also the richer (some 60 parameters) representation we have nationally. (The two Europeana object A and B are the same as the Swedish objects C and D, four URIs for the same object in this case)

Mer från Tekniska museet plus statistik

30 september 2009


Foto: Tekniska museet

Nu finns det bilder kopplade till föremålen från Tekniska museet och som bonus finns nu även museets bilddatabas sökbar via K-samsök, 67 000 fotografier. Det ger drygt 146 000 objekt från Tekniska museet. :)


Foto: Tekniska museet

Det går även att se hur K-samsök växer genom att titta på statistiken på kulturarvsdata.se:s förstasida.


Version 0.98

29 september 2009

juli != semester

24 augusti 2009

Är juli en semestermånad? Inte för alla. Niklas Eklund på Mogul jobbade på ordentligt och jag hjälpte till på ett hörn. Det blidde en del nyheter i K-samsök som kommer att synas senare i höst. Det viktigaste är hantering av koordinater enligt följande:

Tillämpningar kan söka efter alla objekt inom en rektangel med t ex:
boundingBox=/RT90 ”1628000 6585000 1628490.368 6585865.547″
dvs två koordinatpar som definierar rektangelns motstående hörn

Många koordinatsystem stöds (mha geotools) och då anges de med /EPSG:xxxx. Men det finns också konstanter för vissa vanliga system (”RT90″, ”SWEREF99″, ”WGS84″). Default om man inte anger nåt koordinatsystem med ”/”-modifieraren är SWEREF 99 TM (3006).

Som grädde på moset har vi också infört pointDistance:
pointDistance =”675000 6555000 30″ (punkt + avstånd i km)
Man anger alltså en punkt och en radie i km och får då träff på alla objekt inom den cirkeln.

pointDistance-sökningen använder dock en del minne då den läser upp en massa koordinatvärden för att kunna filtrera på avstånd – det är inga jättemängder men vi får testa hur krävande det blir.

Det är inte bara tillämpningarna som kan använda de olika koordinatsystemen, naturligtvis kan producenterna också göra det. Vi transformerar mellan koordinatsystemen i centralnoden efter behov.

//Börje


2 miljoner poster!

06 augusti 2009

Under min semester så passerade K-samsök 2 miljoner indexerade poster!! Man ska iofs inte stirra sig blind på det kvantitativa men det känns ändå bra att se att det idag (090806) finns 2 151 770 objekt i indexet. Yay!! :)

//Johan Carlström är projektledare för K-samsök


Gästblogg: K-samsök på 17 rader kod

29 juni 2009

bashskript_ksamsok

Eftersom K-samsök har ett gränssnitt  mot andra program (ett api) tillgängligt via http är man inte begränsad till att personligen besöka en webbsida för att hämta information därifrån. I stället kan man låta program kommunicera direkt med databasen. Men det behöver inte vara ett stort eller komplicerat program, ett snabbt i hopslängt bashskript duger gott.

Bash är den kommandotolk som används i de flesta GNU/Linuxdistributioner, i Mac OS X och den finns till och med portad till Windows. Bash har ett inbyggt skriptspråk som bland annat kan användas till att ”klistra i hop” olika andra program så att man kan göra nästan vad som helst med resultatet.

K-samsöks api fungerar som de flesta andra och är därför ganska enkelt att arbeta emot, principen är den samma oavsett om man t.ex. vill göra sökningar mot Twitter, Wikipedia eller K-samsök eftersom de alla kommunicerar på samma sätt. På grund av detta behöver man inte heller skriva särskilt mycket kod, det går bra att ta hjälp av redan befintliga program och funktioner, vilket ju är smidigt.

Med hjälp av de två fria programmen cURL och xmlstarlet kan man med några få rader kod komma åt K-samsöks api direkt från den egna kommandotolken.

Så här ser koden ut:

#!/bin/bash

function query()
{
echo ”Which is your query?”
read query
echo ”Number of results (500 max)?”
read number
curl -g ”http://kulturarvsdata.se/ksamsok/sru?operation=searchRetrieve&version=1.1&maximumRecords=$number&api=Test&query=text=$query”  -s \
| xmlstarlet sel -N pres=”http://kulturarvsdata.se/presentation#” -N srw=”http://www.loc.gov/zing/srw/” \
–template –match ”srw:searchRetrieveResponse/srw:records/srw:record/srw:recordData/pres:item” \
–sort A:T:- ”pres:organization” -v ”concat(pres:organization,’            ’,pres:id,’            ’,pres:type,’            ’,pres:entityUri)” –nl \
| sed -e ’s|/object/|/object/html/|g’ -e ’s|/media/|/media/html/|g’ -e ’s|/fmi/|/fmi/html/|g’ \
| grep -v ‘^$’
}

query

Koden definierar en funktion som först frågar användaren vad denne vill söka efter och sedan hur många träffar man maximalt vill ha (det verkar finnas ett tak på 500 träffar när man söker mot api:t). Därefter använder cURL de svar som användaren givit till att skicka en förfrågan till api:t. Som svar kommer då en xml-fil från K-samsök som innehåller de träffar sökningen givit.

Med hjälp av programmet xmlstarlet kan man sedan plocka ut det man är intresserad av från xml-filen. I det här exemplet visas den institution som registrerat posten, id-  numret för posten, vilken typ av post det är och därefter URI:n till posten.

Slutligen kommer lite överkurs, länken ändras så att den går till webbsidan i stället för xml-representationen med programmet sed och tomma rader tas bort med programmet grep.

Det här är ett typiskt exempel på unixfilosofin där man anser att det bästa är att ha små program som gör en sak (och den saken skall programmet göra riktigt bra), det är också vanligt att unixprogram kommunicerar med varandra via vanlig text på det här sättet.

Läs mer:
Bash – http://www.gnu.org/software/bash/
cURL - http://curl.haxx.se/
xmlstarlet – http://xmlstar.sourceforge.net/

>> Micke Nordin är arkeolog och internaut anställd vid Sörmlands museum.


Nytt nyhetsbrev

26 juni 2009

Idag skickades årets första nyhetsbrev ut, läs det här.

Läs de tidigare nyhetsbreven här.


Bidrag till K-samsök från studentgrupp

15 juni 2009

En grupp studenter vid Högskolan på Gotland har utvecklat ett API-skikt och en nedladdningsbar sökruta för K-samsök. API-skiktet innebär att man kan få en sorterad träffbild för sin sökning (observera parametern ”HUR” som gör jobbet). Det finns även en statistikfunktion. All kod är nedladdningsbar och finns för såväl Javamiljö som .NET.

Studenterna har jobbat 10 veckor i sin avslutande projektkurs på det tvååriga utbildningsprogrammet ”Avancerad webbprogrammering”. En mycket bra utbildning eftersom jag har dragit igång den själv för några år sedan:-)

Vår egen demo heter som bekant ”Loppan”. Studenterna kallar sin tillämpning ”Lusen”. Den finns här:

http://www.kulturarvsdata.se/demo/lusen/index.html