Det er ingen hemmelighed, at Google er blevet mere aktivt i forskning i de senere år, især fordi det organiserede sig væsentligt tilbage i 2015. Den 22. september 2016 annoncerede den open source-frigivelsen af ​​et softwareprogram, der kan registrere objekter og Indstilling af et billede for automatisk at generere en billedtekst der beskriver den. Selvfølgelig har det ikke samme niveau af kreativitet som mennesker gør ved at skabe prosa inden for billedteksterne, men billedkoderen, der ellers er kendt som Inception V3, burde have fanget opmærksomhed af grunde, der overstiger overfladisk "se på billedteksterne den kan gøre "motiv. Software som dette kan faktisk være en skridt i retning af noget større på vejen til mere avanceret kunstig intelligens.

Øjne kan se, men intelligens "opfatter"

Kunstig synet har været hos os i mere end et århundrede. Alt med et kamera kan se. Det er en meget grundlæggende slags ting. Men selv en blindmand kan overgå kameraets forståelse af, hvad den ser på. Indtil meget for nylig kunne computere ikke nemt og præcist navngive objekter, der findes i billeder uden meget specifikke parametre. At virkelig sige, at et menneskeskabt objekt har "vision" ville betyde, at den i det mindste har en konkret evne til at præcisere, hvad den ser på, snarere end blot at se på den uden at samle nogen sammenhæng. På denne måde kan enheden reagere på sit miljø baseret på synet, ligesom vi gør. Opfattelse er en absolut nødvendighed. Uden det er enhver mening, vi har, ubrugelig.

Opfattelse gennem automatisk billedtekstering

Selvom vi generelt tror på, at hvert billede er tusind ord, er værdien, V3, ikke nødvendigvis en del af denne opfattelse. Den automatiske billedtekstprogrammer har meget få ting at sige om, hvad den ser, men den har i det mindste en grundlæggende konkret forståelse af, hvad der er indeholdt i rammen, der præsenteres for det.

Med denne rudimentære information har vi taget et skridt i retning af software evne til at forstå visuelle stimuli. At give en robot denne form for magt ville gøre det muligt at reagere på sådanne stimuli og bringe dets intelligens til lige under niveauet for de fleste grundlæggende vanddyr. Det lyder måske ikke så meget, men hvis du kigger på, hvordan robotter gør lige nu (når de testes uden for deres meget restriktive parametre), vil du opdage, at dette ville være et skridt i intelligens i forhold til den amoebiske måde, hvorpå de kan opfatte deres egne omgivelser.

Hvad det betyder for AI (og hvorfor det er langt fra perfekt)

Den kendsgerning, at vi nu har software, der med 93 procent nøjagtighed kan billedtekster indebærer, at vi har noget overvinde hindringen for at få computere til at give mening af deres omgivelser. Det betyder selvfølgelig ikke, at vi er overalt færdige i den afdeling. Det er også værd at nævne, at starten V3 blev uddannet af mennesker over tid og bruger de oplysninger, som den "lærte" at dechifrere andre billeder. For at have en ægte forståelse for ens miljø skal man kunne opnå et mere abstrakt niveau af opfattelse. Er personen i billedet vred? Er to mennesker kæmper? Hvad går kvinden på bænken om?

Ovennævnte spørgsmål repræsenterer de slags ting, vi spørger os selv, når vi møder andre mennesker. Det er den slags abstrakte forespørgsel, der kræver, at vi ekstrapolerer mere information end hvad et billedtekstfelt doohickey kan gøre. Lad os ikke glemme, at glasur på kagen, vi kan lide at kalde en følelsesmæssig (eller "irrationel") reaktion på det vi ser. Det er derfor vi betragter blomster smukke, kloakker modbydelige og pommes frites velsmagende. Det er noget, vi stadig spekulerer på, om vi nogensinde vil nå på maskinniveau uden faktisk at kodificere det. Sandheden er, at denne slags "menneskelige" fænomen er sandsynligt umuligt uden restriktiv programmering. Det betyder selvfølgelig ikke, at vi ikke vil stoppe med at prøve. Vi er trods alt menneskelige .

Tror du, at vores robotoverherdere nogensinde vil lære at sætte pris på det indviklede rosenblad under et mikroskop? Fortæl os i en kommentar!