Maskinen søger - og finder

Google er søgemaskinen, der er tæt på menneskehedens forestilling om den store altvidende helhed.

Kroniken
FOR ABONNENTER

Google er søgemaskinen, der er tæt på menneskehedens forestilling om den store altvidende helhed, skriver kronikøren, der er professor ved Informatik og Matematisk Modellering på Danmarks Tekniske Universitet. Han understreger, at han hverken har økonomiske eller andre interesser i virksomheden.

I Stephen Spielbergs storfilm 'AI - artificial intelligence', som foregår i en ikke så fjern fremtid, ligger der en Dr. Know-butik på hvert gadehjørne. I Dr. Know-butikken kan man stille spørgsmål til et animeret, Einstein- lignende, orakel. I filmen må robotdrengen David og gigolorobotten Joe på besøg hos Dr. Know for at få hjælp til at finde 'den blå fe', som skal forvandle David til en rigtig dreng. Første gang David spørger til den blå fe, får han at vide, at den er en søanemone på havets bund. Men hos Dr. Know kan man definere konteksten, og da de to venner dernæst beder om svar relateret til 'fakta eventyr', får de endelig det ønskede svar: at den blå fe, som kan trylle dukker om til drenge, findes i en forlystelsespark på Manhattan. Herefter kan handlingen tage endnu en drejning i den mærkelige film. I modsætning til andre effekter i 'AI' er søgemaskiner som Dr. Know ikke science fiction, de findes i stort tal på internettet, og en af de mest benyttede og beundrede for tiden hedder Google.

»Google er søgemaskinernes gud«, skrev internettidsskriftet Shift Magazine i juli måned. Hjemme hos os bruger vi Google som startside til internettet, dels fordi søgning er vores vigtigste brug af nettet, dels fordi siden er simpel, funktionel og loader hurtigt. Hvis du ikke endnu har mødt Google, vil jeg anbefale, at du starter med at taste google.com, næste gang du går på nettet. Hvorfor skal du skynde dig at få kontakt med Google?

Jo, det skal du, fordi Google ser alt, og fordi den er eminent hurtig til at fortælle dig, hvor du kan finde det, du søger. Endda også selvom du ikke rigtigt kan finde ud af at stave til det. For eksempel skriver jeg ved en fejl »Poual Nyrup Rasmussen«, hvorpå Google spørger mig høfligt »Did you mean Poul Nyrup Rasmussen?«. Og i øvrigt viser det sig, at Google har set 9.470 steder på internettet med oplysninger om Poul Nyrup.

Siderne kommer naturligvis ikke bare dumpende i tilfældig rækkefølge, men er ordnet på basis af sund fornuft. Googles evne til at forstå, hvad der er rigtigt - og vigtigt - stammer fra kunstig intelligens-programmer og en kæmpe database af viden, nemlig internettet. Google har et sindrigt prioriteringssystem, PageRank(TM), som betyder at Statsministeriets egen præsentation af Poul Nyrup kommer op på toppen af listen med de anbefalede steder. Hos Google sidder der ikke en hær af eksperter og fortæller maskinerne, hvem George W. Bush er. Ved at studere internettets mange sider om præsidenten (over 2.600.000), og hvordan siderne gensidigt refererer til hinanden, kan søgemaskinen slutte sig til, at det er mest vigtigt at henvise til Det Hvide Hus.

Tirsdag 11. september og i dagene efter tænkte hele internettet på terrorangrebene i New York og Washington. Google havde et meget bedre og bredere overblik end f.eks. CNN, og internettet viste sig som en uvurderlig port til forståelse af den ny verdensorden. Google organiserede hurtigt en side, der linkede til verdens nyhedsmedier (inkl. Politiken i Danmark), til de store hjælpe-organisationers indsamlinger, til de offentlige sider med savnede, til FBI's sider, hvor man kunne give oplysninger, og mange andre relevante sider.

Internettet er den vigtigste kraft i samfundet. Stort set alle funktioner i den fysiske verden er reflekteret af aktivitet på hjemmesider. Mange virksomheders rygrad, data som regnskaber og interne dokumenter, ligger på private dele af nettet. Beskyttelsen af disse data mod en omverden, der er både nysgerrig og potentiel ondsindet, sker via såkaldte firewalls. Men de fleste virksomheder er meget opmærksomme på den virkning, som en troværdig og detaljeret 'web presence' kan have på kunder og investorer.

Moderne virksomheder lægger derfor dokumenter på nettet, der kan give indtryk af virksomhedens baggrund, produkter, udviklingsplaner og regnskabsmeddelelser. I den offentlige administration er der også hemmeligheder, men der er også en stigende interesse for at gøre publikumsadgangen gennemskuelig og effektiv, så mange af de relationer, som befolkningen har med det offentlige, kan ordnes via nettet. Disse to kilder til højkvalitetsdata på nettet gør det endnu vigtigere med søgemaskiner med sund fornuft.
Google er god til at sortere i disse data ud fra nettets sammenhæng og tekstindhold, men der er masser af plads til forbedringer.

Forskningen i automatisk tekstanalyse gør store fremskridt i disse år. På det nye Informatik og Matematisk Modellerings institut på Danmarks Tekniske Universitet (DTU) arbejder vi med at lade computere genkende, forstå og formidle mønstre i dokumentdatabaser. Som resultat af denne type forskning er computeren ved at indtage endnu en af de bastioner, som vi tidligere ville mene var forbeholdt den menneskelige intelligens. Et computerprogram på DTU blev bedt om at analysere en optagelse af en chat på den amerikanske tv-station CNN. Gennem otte timer i april 2000 diskuterede 126 amerikanere dagens nyheder, store og små ting, som skete på tv-kanalerne. Programmet fik ingen baggrundsoplysninger om disse nyheder, men alene nogle generelle statistiske retningslinier, som skulle følges. På baggrund af den store mængde data og den måde, som disse data hang sammen på, kunne maskinen slutte sig til, at der på denne dag var tre gennemgående temaer til debat. Vi bad derefter computeren forklare hvad disse tre diskussioner gik ud på. Maskinen kunne forklare sig via et udvalg af særligt karakteristiske ord.

Til vores store overraskelse viste det sig, at computeren helt klart havde fundet meningen med de tre diskussioner. Den havde fundet en diskussion af våbenkontrol, en diskussion af en verserende mordsag og endelig en intens diskussion af sagen vedrørende den cubanske dreng Elian Gonzales, som blev fundet i havet, efter at han og hans familie havde forsøgt at flygte fra Cuba. Disse og andre eksempler på spontan intelligens tyder på, at om nogle få år, med yderligere sofistikering af programmer og effektivisering af computeren, kan vi forvente, at den ikke bare forstår, hvad der bliver skrevet om en lang række emner på nettet, men også, at computeren kan give udtryk for denne forståelse på en måde, der er umid- delbart tilgængelig for en bruger ved skærmen. Nyhedsagenter, som for eksempel netposten.dk, er spæde forsøg på at lade computeren overvåge specifikke og personlige emner på nettet. Disse maskiner er endnu ikke baseret på avanceret kunstig intelligens, men det er bare et spørgsmål om tid.

Fimaet Google har en stor udviklingsafdeling som følger med i denne udvikling og det er bestemt tænkeligt, at dette vil betyde, at Google bliver en endnu mere voksen og følsom samarbejdspartner fremover. Google går i sprogskole. Søgemaskinen taler og forstår for tiden 26 sprog, herunder heldigvis også dansk. I Googles 'zeitgeist'-arkiv kan man blandt andet se, hvordan de forskellige sprog tegner sig for søgninger.

Mange svenskere har mødt Google - svensk har været helt oppe på én procent af samtlige søgninger. På disse sider kan man også følge med i, hvad der rør sig på nettet. Der er rigtigt mange søgninger på computervirusproblemer og så naturligvis på de rige og de kendte. Der ligger også en lille samling billeder af arbejdspladsen Google, og man kan se, at medarbejderne hele tiden bliver mindet om kundernes interesser, ved at de vigtigste søgeord bliver smækket op på en stor elektronisk opslagstavle. Google kommer vidt omkring. Det spøjse navn stammer fra betegnelsen 'googol', der betyder et ettal med hundrede nuller efter.

Så mange atomer er der ikke i hele universet, så Google betyder større end det største. Internettet er stort faktisk diskuterer man en del for tiden, præcis hvor stort nettet egentlig er. Google hævder selv, at man kender til ca. 1,6 milliard sider, og det skal nok passe. Hvis man taster en tilfældig kombination af tre-fire bogstaver, sker det ofte, at Google kan fortælle en historie. I det hele taget har Google en Peter Plys-agtig personlighed, et naivt uskyldigt look.

Google har et stramt grafisk design, med et simpelt logo og bare de helt essentielle funktioner og oplysninger på forsiden. Dette står i skarp modsætning til andre søgemaskiner som Hotbot og AltaVista, der fylder skærmmatriklen op med en uskøn blanding af reklamer, nyheder og links på forsiden. Google er hyggelig, som for eksempel til Halloween hvor logoet bliver pyntet med græskarmænd. Bag det uskyldige look gemmer sig en sand solstrålehistorie om kommerciel udnyttelse af den nyeste IT-forskning.

I midten af 1990'erne udviklede de to IT-forskere Larry Page og Sergey Brin en metode til ordning af dokument-samlinger. De kaldte deres program PageRank. PageRank er baseret på linkanalyse. På nettet er alle dokumenter kædet sammen via 'links': når du er på en webside og trykker på en fremhævet tekststump - et link - flytter din computer sin opmærksomhed over på den side, som linket peger på. Man kalder det også en hypertext. Med nettet er vi alle blevet hypertextbrugere. Det er så naturlig en teknologi, at man slet ikke forestiller sig, at før der var internet, var hypertext et dybsindigt humanistisk forskningsområde med komplicerede teorier og lærde diskussioner.

PageRank bygger en websides værdi op som summen af værdien af alle de sider, der henviser til den. Hvis mange værdifulde sider henviser til din hjemmeside, er din side også værdifuld. Det er ikke eksperter, der rangordner nettet, men nettet, der ved sin opbygning rangordner sig selv. Definitionen af PageRank kan ved første tanke lyde, som om den bider sig selv i halen - ikke sandt? For at beregne en sides værdi skal jeg jo kende værdien af de henvisende sider, og for at kende deres værdi skal jeg kende værdien af alle de sider, som linker til dem og så videre. Heldigvis er det et af den slags problemer, som kan løses med en computer og lidt matematik. På Google løses PageRank-problemet løbende på et stadig stigende antal sider, efterhånden som internettet vokser og fornyer sig.
Google bliver brugt mere end 100 millioner gange i døgnet, og de fleste søgninger bliver leveret på under et sekund. For at kunne klare dette arbejdspres har Google investeret i verdens største kommercielle klynge af computere. Computerne er Linux-maskiner, og der er over 10.000 af dem i Googles system.

De første versioner af Google blev offentliggjort via Stanford Universitet i San Francisco, hvor Page og Brin i sin tid udviklede PageRank. I 1998 forlod de to forskere Stanford, og under dot.com-bølgen, i 1998-99, blev Google udviklet til en sund forretning med nu omkring 200 ansatte. En af de betydningsfulde forretningssucceser var, da den store portal Yahoo sagde farvel til søgemaskinekonkurrenten Inktomi til fordel for Google. Google har i år vundet den prestigefyldte Webby 'Best Practise'-award for sin klare funktionelle opbygning.

Før Google slog igennem, var søgemaskinen AltaVista meget udbredt, og i en periode var det HotBot, der dækkede internettet bedst og hurtigst. Det er bestemt ikke givet, at Google kan bevare sin position. Der er lige nu en meget lovende udvikling i gang på søgemaskinen Northern Light (northernlight.com), her nøjes man ikke med at præsentere siderne ordnet efter relevans. Northern Light deler sine søgeresultater op i emnegrupper efter en patenteret metode, som i mange tilfælde er en stor hjælp til at forstå søgeresultaterne. En anden udvikling kan man se på dogpile.com., som er en såkaldt metasøgemaskine, der søger i en bred vifte af almindelige søgemaskiner og forsøger at finde mening i de samlede resultater. På amerikansk er en 'dogpile' et kobbel hunde, der kaster sig over et offer, ordet dogpile bliver brugt for eksempel i amerikansk fodbold, når mange spillere overfalder en modspiller.

Hvornår har man brug for en god søgemaskine? Ja, hvis man er forkølet, og sidder derhjemme og nyser foran maskine hvorfor så ikke klage sin nød til Google? Få sekunder senere svarer maskinen, at den kender til 1.210 artikler om at være forkølet. Den henviser til siden netdoktor.dk som den første, hvor man kan læse mange gode råd om, hvordan man slipper af med sin hoste. I hovedsagen får man at vide, at det tager tre dage at slippe af med den. I mellemtiden kan man så følge et af de links, som kommer lidt længere nede på listen. Der kan man læse underholdende børnebøger om et 'Spøgelse med forkølelse'.

Det er gratis at bruge Google, så hvordan løber det rundt? Ideen er simpel: virksomheder kan købe retten til at få vist en lille reklame i forbindelse med søgninger på ord, som er relevante for deres forretning. Firmaet autoweb.com har for eksempel købt ordet 'car' og får et banner vist øverst på siden, oven over søgeresultaterne, når ordet car indgår i en søgning. Autoweb.com betaler så et beløb til Google, hver gang en person søger på dette ord. Andre søgemaskiner er mere grove, og på nogle kan man købe sig til en fin placering i selve søgeresultatet. Et grotesk eksempel herpå er maskinen goshdarn.com, som for eksempel kan finde på at bede en om at glemme søgeordet og i stedet skynde sig over til et virtuelt kasino. Ved siden af at sælge reklamer i forbindelse med søgeord sælger Google også deres søgeteknologi til andre virksomheder, som derved kan tilbyde specialsøgninger på deres sider.

En søgemaskine er en slags forlængelse af vores egen hukommelse. I hjernen husker vi ting og oplevelser, ved at det centrale hjerneorgan thalamus sender 'søgeord' ud til hjernebarken, som så sender større bidder af oplevelser og andre relevante ting, vi husker, tilbage til talamus, som så sender disse tilbage til hjernebarken og så videre. I dette kredsløb genoplever og beregner hjernen de forskellige minders relevans og fremhæver de vigtige associationer - måske ved mekanismer, der minder om PageRank? Hjernen er opbygget af tre lag, et dybtliggende lag, som kaldes krybdyrhjernen, og to nyere tilkomne lag, som vi i et vist omfang deler med pattedyrene. Med internettet og Google kunne det se ud til, at vi er ved at udstyre os selv med et fjerde lag, det store internet. Den afgørende forskel er dog, at det nye lag ikke er personligt, men et, vi deler med alle andre brugere af internettet.

Fra de tidligste dage har menneskeheden forestillet sig et paradis, hvor alle er et med den store altvidende helhed.
Når vi bruger Google, påkalder vi os en fælles fond af viden, og på den måde er søgemaskinerne måske ved at realisere nogle af menneskehedens mest grundfæstede drømme, og så er det måske ikke for meget, når nogle påstår, at Google er guddommelig?

Få fuld adgang om mindre end 2 minutter

De hurtigste bruger mindre end 1,3 minutter på at blive abonnent og få fuld adgang til Politiken i en måned for bare 1 kr.

Bliv abonnent for 1 kr

Mest læste

  • Annonce

Annonce

For abonnenter

Annonce

Forsiden

Annonce