Googles automatiserte bildeopptak og nøkkelen til kunstig "visjon"

Det er ingen hemmelighet at Google har blitt mer aktiv i forskning de siste årene, særlig siden det reorganiserte seg vesentlig tilbake i 2015. Den 22. september 2016 annonserte det at det var åpen kildekodeutgivelse av et program som kunne oppdage gjenstandene og Innstilling av et bilde for å automatisk generere en bildetekst som beskriver det. Selvfølgelig har det ikke det samme nivået av kreativitet som mennesker gjør i å lage prosaen i bildeteksten, men bildekodemaskinen ellers kjent som Inception V3 burde ha fanget oppmerksomhet av grunner som transcenderer overflaten "se på bildeteksten den kan gjøre "motiv. Programvare som dette kan faktisk være en skritt mot noe større på veien til mer avansert kunstig intelligens.

Øyne kan se, men intelligens "oppfatter"

Kunstig synet har vært hos oss i over et århundre. Alt med kamera kan se. Det er en veldig grunnleggende slags ting. Men selv en blind mann kan overgå kameraets forståelse av hva den ser på. Inntil nylig, kunne datamaskiner ikke enkelt og nøyaktig nevne objektene som ble funnet i bilder uten svært bestemte parametere. Å virkelig si at et menneskeskapte objekt har "visjon" ville bety at det i det minste har en konkret evne til å spesifisere hva den ser på, i stedet for bare å se på den uten å samle noen sammenheng. På denne måten kan enheten reagere på sitt miljø basert på synet, akkurat som vi gjør. Perception er en absolutt nødvendighet. Uten det er all mening vi har, ubrukelig.

Oppfattelse gjennom automatisk bildeopptak

Selv om vi generelt tror at hvert bilde er verdt tusen ord, betyr ikke Inception V3 nødvendigvis den meningen. Den automatiske bildetekstingsprogramvaren har svært få ting å si om hva den ser, men den har i det minste en grunnleggende konkret forståelse av hva som er inneholdt i rammen som presenteres for den.

Med denne rudimentære informasjonen har vi tatt et skritt mot programvarens evne til å forstå visuelle stimuli. Å gi en robot denne typen kraft ville tillate det å reagere på slike stimuli, og bringe sin intelligens til like under nivået på de fleste vanlige akvatiske dyr. Det høres kanskje ikke så mye ut, men hvis du ser på hvordan roboter gjør akkurat nå (når de testes utenfor sine svært restriktive parametere), vil du oppdage at dette ville være ganske et sprang i intelligens sammenlignet med den amoebiske måten de kan oppfatte sine egne omgivelser.

Hva dette betyr for AI (og hvorfor det er langt fra perfekt)

Det faktum at vi nå har programvare som (med 93 prosent nøyaktighet) kan vise bilder betyr at vi har noe å overvinne hindringen for å få datamaskiner til å gi mening om deres omgivelser. Selvfølgelig betyr det ikke at vi er hvor som helst i nærheten av den avdelingen. Det er også verdt å nevne at Inception V3 ble trent av mennesker over tid, og bruker informasjonen den "lærte" for å dechifrere andre bilder. For å få sann forståelse for ens miljø må man kunne oppnå et mer abstrakt nivå av oppfatning. Er personen i bildet sint? Er to personer kjemper? Hva er kvinnen på benken gråt om?

Ovennevnte spørsmål representerer hva slags ting vi stiller oss selv når vi møter andre mennesker. Det er den typen abstrakte henvendelse som krever at vi ekstrapolerer mer informasjon enn hva et bilde bildetekst doohickey kan gjøre. La oss ikke glemme at isingen på kaken vi liker å kalle en følelsesmessig (eller "irrasjonell") reaksjon på det vi ser. Det er derfor vi anser blomster vakre, kloakker motbydelig og pommes frites velsmakende. Det er noe vi fortsatt lurer på om vi noen gang vil oppnå på maskinnivå uten at det er vanskelig å kode det. Sannheten er at denne typen "menneskelige" fenomen er sannsynligvis umulig uten begrensende programmering. Selvfølgelig betyr det ikke at vi ikke vil slutte å prøve. Vi er tross alt menneskelig .

Tror du at våre robotoverherdere noensinne vil lære å sette pris på det intrikatiske av et kronblad under et mikroskop? Fortell oss i en kommentar!