Hakukone kuin henkivoima

Vierailuprofessuuriaan Helsingin yliopiston tutkijakollegiumissa hoitava John Durham Peters piti luennon Tampereen yliopistolla. Luennon otsikko oli God and Google, ja itse luento oli yhtä lennokas kuin otsikkokin. Mielikuvitusta kutittava ja mainio.

Peters puhui Googlen toimintatavoista ja hakujätin herättämistä mielikuvista. Google toimi eräänlaisena tapausesimerkkinä digitalisaatiosta ja digitalisaation aiheuttamista muutoksista. Luento pohjautui osaksi Petersin pian julkaistavaan teokseen.

Yksi luennon pääteemoista oli ajatus siitä, että Google on luonut enempi vähempi tarkoituksellisesti itsestään mielikuvaa eräänlaisena jumalallisena, kaikkivoipaisena toimijana. Luennossaan Peters analysoi puhetapoja, joilla yritystä käsitellään, ja vertauskuvia, joita yrityksestä esitetään.

Mielikuvien rakentamisessaan Google on luonut kuvaa itsestään muista poikkeavana yrityksenä. Esimerkkinä tästä Peters mainitsi yrityksen moton:

”Don’t be evil.”

Google on ollut liikemaailman Barack Obama, ja kuten Obama on osoittanut omaavansa peruspoliitikon ominaisuuksia, myös Googlesta on paljastunut perusliikeyritykselle tyypillisiä piirteitä. Kaikkivoipainen hyvyys ei ole ainoa totuus niin Obamasta kuin Googlestakaan.

Yritystä käsittelevistä puhetavoista on erotettavissa teologista diskurssia. Peters nosti yhdeksi esimerkiksi tällaisesta diskurssista Googlen toisen perustajan Sergei Brinin kuvauksen hakukoneesta:

”The perfect search engine would be like the mind of God.”

Peters näkee tämän yhdeksi tavaksi rakentaa Googlesta eräänlaista jumalallista entiteettiä.

Google autocomplete Toisena esimerkkinä hän käytti hakukoneiden käyttämää autocomplete-toimintoa hakukentässä. Tiedonhakijan kirjoittaessa hakutermejään tämä toiminto ehdottaa – tai ennakoi – potentiaalisia hakutermejä.

Kaikkivoipaisuuden tavoitteluksi on tulkittavissa myös Googlen missio organisoida kaikki maailman informaatio:

”Google’s mission is to organize the world’s information and make it universally accessible and useful.” (lähde)

Tälle tavoitteelle Peters näki paralleeleja kirjoitustaidon synnyn ja tarpeen kanssa. Yhtenä kirjoitustaidon taustalla vaikuttavana tarpeena oli kirjanpito, jolla pidettiin kirjaa omaisuudesta. Kirjanpidoksi koottu data merkitsi valtaa, ja valtaa data eri muodoissa merkitsee edelleen.

Peters tulkitsee Googlen rakentavan tällaista kirjanpitoa organisoidessaan ”kaiken maailman informaation”. Se jäljittää henkilöitä, ajatuksia, globaaleja trendejä, kuten flunssatautiaaltoja. Se indeksoi ihmisten kiinnostuksen kohteita ja mielitekoja. Googlen haravoima data kertoo ihmisestä ja ihmisistä, ja hakuindekseineen Google voidaan nähdä jopa modernin ajan elämän kirjana (book of life). Indeksointityöhön liittyy olennaisena osana Internetistä maalattu uhkakuva tai ominaisuus (miten sen nyt ottaa), jonka mukaan kerran nettiin laitettua kuvaa/tekstiä/mitä tahansa ei saa sieltä pois.

Indeksointityössään se ei Petersin mukaan järjestä informaatiota siihen tapaan kuin kirjastot, joilla on esimerkiksi luokitusjärjestelmänsä (kuten yleisten kirjastojen luokitusjärjestelmä) ja luettelointisääntönsä. Aineistojen ja sisältöjen sijaintitieto on kirjastoille tärkeää. Google ei edes yritä tätä, koska Internetissä tarpeet ovat toisenlaiset. Googlen toiminnassa on tapahtunut muutoksia myös siinä, että aiemmin Google pääasiassa organisoi toisten tuottamia sisältöjä. Ajan oloon Google on tullut mukaan myös sisällöntuottobisnekseen.
Google-logoja
Huolimatta vakavaotsaisista tavoitteistaan Google ei ole tosikko: yritys esimerkiksi leikittelee eri tavoin logollaan. I’m feeling lucky -hakutoiminto on toinen esimerkki leikittelystä. Sen olemassa ololle ei löydy taloudellisessa mielessä järkevää syytä: toiminto vie tilaa hakusivulla eikä tuo rahaa Googlelle. Toimintoa käyttää Petersin mukaan noin prosentti tiedonhakijoista.

Kritiikki

Luennon lopuksi Peters purki mielikuvia Googlesta

  • Google ei ole kaikkitietävä (omniscient): Suurin osa maailmasta tai historiasta ei ole netissä. Sieltä ei löydy kaikki maailman informaatio.
  • Google ei ole kaikkialla läsnä (omnipresent): Internet ja sen myötä Google ei ulotu kaikkialle maailmassa.
  • Google ei ole pelkkä hyväntekijä (omnibenevolent): kyse on liikeyrityksestä, jonka yhtenä tehtävänä on tuottaa voittoa osakkeenomistajille. Googlen toiminta Kiinassa oli arveluttavaa suhteessa yrityksen mottoon.

Googlella on hakukonemarkkinoiden monopoli, ja monopoleissa on omat riskinsä. Ulkopuoliset eivät esimerkiksi tunne Googlen hakualgoritmejä, joiden perusteella hakutulokset tarjoillaan. Tässä kritiikissään Peters on samoilla jäljillä Evgeny Morozovin, joka teoksessaan To save everything, click here on huolestunut verkkopalveluista, joiden toiminta perustuu ulkopuolisilta salattuihin algoritmeihin.

Peters nosti esiin Googlen monimuotoisuuden. Se ei ole enää vain hakukone. Esimerkiksi Google-lasit ja robottiautoteknologiakokeilut kertovat siitä, että yrityksellä on kunnianhimoa laajentaa toimialaansa tiedonhakua laajemmalle. Googlen toiminnassa on kyse yhä enemmän analytiikasta. Googlehan on ollut osaltaan rakentamassa Big Data -trendiä ja kehittämässä tiedonlouhintamenetelmiä, esimerkiksi MapReduce. Data-analytiikka on nouseva ala, ja Peters haastoi kuulijoitaan ns. ottamaan haltuun teknologiaa. Teknologioita ja niiden toimintaperiaatteita tulisi pyrkiä ymmärtämään ainakin jollain yleisellä tasolla. Teknologista kehitystä ei saisi jättää monopolien varaan.

Unohdetuksi tuleminen autuus?

Peters veti luennon yhteen viittauksella Konfutseen, Jeesukseen ja Sokrateehen. Mikä oli näille kolmelle henkilölle yhteistä? Petersin mukaan ainakin se, että he eivät jättäneet kirjallista perintöä. Sokrates näki kirjoittamisen hyvin ongelmalliseksi, suorastaan pahaksi. Petersin hypoteesi sille, miksi nämä henkilöt kieltäytyivät kirjoittamasta doktriinejaan, on tämä: heidän viestinsä meille oli, että totutelkaa ajatukseen omasta kuolemasta. Katoamme joskus ja se voi olla yksi parhaimpia asioita, mitä meille voi tapahtua. Google on matkalla toimijaksi, joka päättää, mitkä asiat katoavat ja mitkä eivät.

Editoitu 1.2.2014

Googlesta ja sen roolista kirjoittaa Oskari Onninen uusimmassa Imagessa 2/2014: Jumala. Juttu löytyy myös Readberrystä.

Kokemuksia kokoelmadatan avaamisesta Valtion taidemuseossa

Sanna Hirvonen kertoi Valtion taidemuseon datanavausprosessista. Avauksen kohteena oli kolmen museon hallinnoimien taideteosten metadata. Lisenssinä oli CC0 ja tiedot tulivat Muusa-järjestelmästä. Avauksesta on myös Piia Laitan tiedote Data on auki. Datan avaamisen toivotaan tarjoavan uusia kosketuspintoja ja näkökulmia sisältöihin.

Data on tarjolla sekä rajapinnan kautta että datapakettina (DC-XML-, DC-JSON- ja DC-TEXT-muodossa. API-konsolilla voi testata rajapinnan toimintaa. Muusassa data on rakenteistettu Lightweight Information Describing Objects (LIDO) -skeeman mukaisesti, mutta datadumpit on myllytetty Dublin Core -formaattiin. Syynä tähän on ilmeisesti se, että DC on LIDOa yleisempi.

Datan avauksen työvaiheita olivat

  1. päätös avaamisesta
  2. rajapinnan toteutus, jonka teki Grip Studios Interactive
  3. tiedottaminen ja tiedon jakaminen
  4. ideoiden ja palautteen kerääminen käyttäjiltä. Tätä varten Kiasma järjesti data-työpajan 23.10.2013.

Työpajassa ideoitiin muun muassa mihin museodataa voisi yhdistää. Tarjokkaiksi nousivat muun muassa paikkatieto, aikatieto ja kirjastodata.

Työpajassa esitettiin myös hyviä kysymyksiä: Miten tuoda esiin dataa hyödyntävät sovellukset? Miten vastataan kehittämisehdotuksiin? Miten käyttäjien tuottamaa rikastavaa  dataa hyödynnetään ja liitetäänkö tämä rikaste osaksi ns. master-dataa eli tässä tapauksessa osaksi Muusassa olevaa metadataa? Oman datan käyttöä kannattaa seurata ja millaisia dataa hyödyntäviä sovelluksia syntyy.

Seuraavaksi dataa avanneilla museoilla on työn alla kerätä esimerkkejä datan hyödyntämisestä, virittää yhteistyötä muiden tiedontarjoajien kanssa, kehittää tarjolla olevaa dataa saatujen kokemusten ja palautteen pohjalta ja edetä pilottiprojektien kautta kohti avoimempaa lisenssiä.

Mitä on opittu? Ei kannata odottaa, että maailma on valmis. Sama nousi esiin Sanna Marttilan puheenvuorossakin. Datan ei tarvitse olla 100 % oikeaa ja virheetöntä. ”Likainen data” kelpaa sekin, jos muuta ei ole. Yhteistyöhön kannattaa hakeutua varhain mahdollisten käyttäjien kanssa. Kaikkea ei tarvitse osata itse: neuvoa voi kysyä eri foorumilta tai ostaa palveluja.

Avoin data ja tekijänoikeudet

CC in the box of letters, kalexanderson http://www.flickr.com/photos/kalexanderson/5083631539/sizes/l/
CC in the box of letters, kalexanderson http://www.flickr.com/photos/kalexanderson/5083631539/sizes/l/

Tuula Hämäläinen (Valtion taidemuseo) pohti oikeudellisesta näkökulmasta datan avausta ja CC0-lisenssiä eri toten. Esimerkkitapauksena Hämäläisellä oli Kansalliskirjaston esitys, että Finnassa oleva metadata lisensoitaisiin CC0 1.0 Universal -lisenssillä.

Pohdittavia kysymyksiä, ovat mitä tekijän- ja lähioikeuksia Finnaan haravoitu kuvailutieto voi sisältää. Onko työntekijöiden tuottaman sisällön osalta kaikki oikeudet organisaatiolla, joka datan luovuttaa? Mikäli tekijänoikeuksia omistavat ulkopuoliset osapuolet, dataa ei voi luovuttaa ilman eri sopimuksia tai lisenssejä, jos data on suoja-ajan sisäpuolella.

Huomioitava on myös se, että tekijänoikeus voi olla lyhyillä ilmaisuillakin, esimerkiksi teosten nimillä. Suoja-ajan ulkopuolisten teosten osalta kysymys voi olla moraalisista oikeuksista, yksityisyyden suojasta.

Tekijänoikeusjärjestöjen merkitys on Hämäläisen mukaan korostunut ainakin Suomessa. Järjestöt ajavat myös niiden asemaa, jotka eivät kuulu järjestöön, eivätkä järjestöt ole suhtautuneet kovin positiivisesti CC-lisensointiin.

Alkuperäisten tekijän- ja lähioikeuksien moraaliset oikeudet (respekti- ja isyysoikeus) pitäisi muistaa. Kuka on vastuussa, jos tapahtuu rikkomuksia? Miten lisensoidaan kuva-aineisto? Haksahtamisen vaara on olemassa siinä, että erehdytään luulemaan, että metadataa koskeva CC0-oikeus koskee myös muuta aineistoa ko. tietokannassa. Korvausvastuu voi olla datan julkaisseella organisaatiolla.

Hämäläinen korosti erityisesti näitä seikkoja:

  • käyttölupa voidaan myöntää vain aineistoihin joihin organisaatioilla on oikeudet
  • 3. osapuolten oikeudet: myös datan asettaminen yleisön saataville vaatii luvan, ei vain jatkokäytön lupa.

Europeana, Finna ja avoin data

Tapani Sainio esitteli Europeanan lisensointimallia. Europeanan datassa on kyse pääasiassa tekstimuotoisesta kuvailutiedosta, jonka organisaatio itse valitsee. Humpan henki Europeanassa on mahdollisimman avoin lisenssi, jotta dataa voitaisiin hyödyntää mahdollisimman laajasti. Tämä on varsin somasti linjassa EU:n muun datapolitiikan kanssa (ks. FinnOA-seminaari).

Europeanassa CC0-lisenssi on ollut käytössä syksystä 2012 lähtien. Dataansa luovuttava organisaatio sitoutuu tähän lisenssiin Europeanan Data Exchange Agreementissa. Perusteluja CC0-lisenssin käytölle ovat muun muassa lisenssin selkeys eri osapuolille ja yhdenmukaisuus muiden kansainvälisten lisenssien kanssa. Julkishallinnon suositusluonnos tukee CC0:aa ja CC-BYtä. Finnassa oli syksyllä 2013 kommenttikierros CC0-lisenssin käyttöönotosta.

Avoimuuden potentiaalisia vaikutuksia on, että avoin lisensointi mahdollistaa kaupallisten palvelujen tuotteiden kehittämisen ja että dataa voi käyttää ilman Finnaakin. Käyttöoikeustietojen, esimerkiksi vesileimojen, käytöstä organisaatiot saavat päättää itse.

Miten Europeanan dataa on nyt hyödynnetty muualla? Esimerkiksi Kringla-hakupalvelu on yhdistänyt Europeanan hakutuloksia omiin hakuihinsa (esim. http://www.kringla.nu/kringla/sok?text=pasila&filter=thumbnailExists%3Dj).

Mitä avoin tieto Tapani Sainion mielestä voisi mahdollistaa/aiheuttaa:

  • paremman yhteistyön eri ammattilaisten välillä (sisältöasiantuntijat, koodarit, viestintä)
  • kokonaisvaltaisemman toiminnan kehittämisen (ei rajata asioita vain projekteihin)
  • yhteisöllisyyden lisääntymisen, esim. sosiaalinen media näyttelyissä
  • digitaalisen ja fyysisen välisen rajan hämärtymisen.

Museot ja avoin data -seminaaripäivästä

Museoliitto järjesti lokakuun 2013 lopulla seminaarin avoimesta datasta: Avoin data ja avoimet sisällöt museossa. Päivän aikana tehtiin aina tarpeellista käsitteiden määrittelyä (mitä on avoin data, avoin tieto, avoin sisältö ja avoimet palvelut) ja käytiin datan avausta esimerkkien kautta läpi. Hyvä päivä, hyviä esityksiä. Päivästä bloggasi aiemmin Kaisa Kyläkoski: Avoimesti saatua tietoa museoiden keskustelusta avoimuudesta. Kannattaa käydä lukemassa.

Hami Kekkonen kertoi Helsinki Region Infoshare -hankkeesta, jossa suomalaisittain pioneerihengessä haettu julkaistavaksi soveltuvaa dataa pääkaupunkiseudun julkishallinnolta. HRI:n pilottivaihe kesti 2010–2012 ja nyt vuosi 2013 on mennyt avoimen datan ja datan julkaisemisen vakiinnuttamisessa. Kekkosen mukaan pääkaupunkiseudulla datan avaamisesta tulee kuntien normaalia toimintaa vuoden 2014 aikana. Toimintaa ollaan siirtämässä Helsingin kaupungin tietokeskukseen.

Kuntien teknologisten valintojen tekemiseen HRI ei osallistu. Kunnat päättävät itse teknologioistaan esimerkiksi millaisia rajapintoja järjestelmiin rakennetaan.

Päivän esityksistä on tulossa muutamia merkintöjäni seuraavassa tahdissa:

Suomalaisen OA-julkaisemisen historiaa

Jyrki Ilva teki mainion katsauksen suomalaisen OA-julkaisemisen historiaan ja nykytilaan esityksessään ”Open repositories of past, present and future”.

Osa julkaisutoiminnan perustaa ovat julkaisuarkistot (institutional repository), joiden kehitykseen ovat vaikuttaneet erilaiset tekijät, kuten tutkimusten hallinnointiin ja arviointiin käytetyt järjestelmät (Current research information system, CRIS), väitöskirjojen ja opinnäytteiden digitalisoituminen, digitaalisten objektien hallintajärjestelmät (Digital Object Management Systems, DOMS), OA-julkaisutoiminta, green OA eli rinnakkaisjulkaiseminen ja avoin tutkimusdata. Perusero CRISin ja julkaisuarkiston välillä on se, että CRIS sisältää informaatiota kaikista tutkimusjulkaisuista, kun taas julkaisuarkisto sisältää tietoa OA-kokotekstijulkaisuista.

Green OA eli rinnakkaisjulkaiseminen tuli 2000-luvun alkupuolella. Lähtökohtana oli ajatus siitä, että kun OA-varantoja rakennetaan, tutkijat tulevat julkaistavien tutkimustensa kera perässä. Näin homma ei kuitenkaan toiminut, koska julkaisevilla tutkijoilla ei ollut ykkösprioriteettinään tiedon avoin saatavuus, open access. Rakennetut varannot olivat ns. pistemäisiä, tiettyyn tutkimusalueeseen keskittyviä, esim. ArXiv.

Julkaisuarkistojärjestelmät ja -alustat

Erääksi OA-liikkeen vaikutukseksi voidaan lukea se, että arkistojärjestelmien myötä avoimen lähdekoodin sovellukset lisääntyivät kirjastoissa. Arkistotoiminnan myötä syntyi tarve digitaalisten objektien hallintajärjestelmille ja tuolloin järjestelmäntoimittajilta ei löytynyt sopivia tuotteita. Käytetyimpiä alustoja olivat esimerkiksi DSpace, Fedora ja Eprints.
Pohjoismaissa lähes kaikilla yliopistoilla on julkaisuarkisto ja julkaisujen määrä kasvaa. Suomessa Kansalliskirjasto tarjoaa 40 instituutiolle julkaisuarkisto-palvelua. Arkistopalvelut ovat käytettyjä, mikä johtuu muun muassa hyvästä hakukonenäkyvyydestä.

Julkaisuarkistot eivät saisi olla yksinäisiä saaria, vaan niillä tulee olla integraatiota esimerkiksi CRIS-järjestelmien välille. Esimerkiksi Tanskassa useat yliopistot käyttävät Pure-alustaa ja Ruotsissa DiVA-alustaa molempiin tarkoituksiin: sekä julkaisuarkistona että CRIS-järjestelmänä. Suomessa julkaisuarkistot ja CRIS-järjestelmät ovat enimmäkseen erillisia systeemejä. Yliopistoilla on menossa CRIS-infrastruktuurin päivitys.

Avoin tutkimusdata

Tutkimusten julkaisemisen ohella uutena osa-alueena on tulossa tutkimusdatan julkaiseminen. Pohdinnan alla on aiheuttaako tutkimusdatan julkaiseminen muutostarpeita julkaisuarkistoihin. Millaisia yhteyksiä eri tutkimusten ja tutkimusaineistojen välille voidaan luoda?

Pohdinnassa on myös se, onko OA:n tulevaisuus kirjastojen, kustantamoiden vai molempien toimijoiden ylläpitämissä julkaisuarkistoissa? Ylipäätään mikä on tulevaisuudessa julkaisuarkistojen rooli kirjastopalveluissa? Onko tarkoituksena tarjota saataville omassa organisaatiossa tuotettuja dokumentteja vai tarjota paikallisille käyttäjille muualla tuotettuja dokumentteja? Mikä tulee olemaan julkaisuarkistojen suhde tutkijoille tarkoitettuihin pilvipalvelupohjaisiin sosiaalisiin verkostoitumispalveluihin, kuten Academia.edu ja Mendeley.