Suhtelised atribuudid

Originaalartikkel: https://faculty.cc.gatech.edu/~parikh/relative.html

Marri auhinna (parima paberiauhind) võitja, ICCV 2011

Devi Parikh ja Kristen Grauman

"Kes vikerkaares suudab tõmmata piiri, kus lõpeb violetne toon ja algab oranž toon? Eraldi näeme värvide erinevust, aga kus täpselt üks esimene segunevalt teisega sulandub? Nii mõistuse ja hullumeelsusega."

-- Herman Melville, Billy Budd

[ paber ] [ andmed ] [ kood ] [ demod ] [ slaidid ] [ kõne (video) ] [ plakat ] [ tõlked ]

Abstraktne

Inimese nimega visuaalsed "atribuudid" võivad olla kasulikud erinevatele tuvastamisülesannetele. Olemasolevad tehnikad piiravad neid omadusi aga kategooriliste siltidega (näiteks, kas inimene "naeratab" või mitte, stseen on "kuiv" või mitte) ega suuda seega tabada üldisemaid semantilisi seoseid. Teeme ettepaneku modelleerida suhtelisi atribuute. Arvestades koolitusandmeid, mis näitavad, kuidas objekti/stseeni kategooriad erinevate atribuutide järgi suhestuvad, õpime iga atribuudi järjestusfunktsiooni. Õpitud järjestamisfunktsioonid ennustavad iga omaduse suhtelist tugevust uudsetes piltides. Seejärel loome generatiivse mudeli atribuutide järjestamise väljundite ühisruumi peale ja pakume välja null-shot-õppe uudse vormi, millega juhendaja on seotudnägemata objektide kategooria varem nähtud objektidele atribuutide kaudu (näiteks "karud on karusmad kui kaelkirjakud"). Lisaks näitame, kuidas pakutud suhtelised atribuudid võimaldavad uute piltide jaoks rikkalikumaid tekstikirjeldusi, mis on praktikas inimese tõlgendamise jaoks täpsemad. Näitame lähenemist nägude ja looduslike stseenide andmekogumitele ning näitame selle selgeid eeliseid võrreldes nende uute ülesannete traditsioonilise binaarse atribuudi ennustamisega.

Motivatsioon

Binaarsed atribuudid on piiravad ja võivad olla ebaloomulikud. Kui ülaltoodud näidetes võib vasakpoolses ülanurgas ja paremas ülanurgas olevat pilti iseloomustada vastavalt loodusliku ja tehislikuna, siis millisena kirjeldaksite üleval keskel olevat pilti? Ainus mõtekas viis seda iseloomustada on teiste piltide suhtes: see on vähem loomulik kui vasakpoolne pilt, kuid parem kui parempoolne pilt.

Ettepanek

Selles töös teeme ettepaneku suhteliste atribuutide modelleerimiseks. Vastupidiselt atribuudi olemasolu ennustamisele näitab suhteline atribuut atribuudi tugevust pildil teiste kujutiste suhtes. Lisaks sellele, et suhtelised atribuudid on loomulikumad, pakuvad nad rikkalikumat suhtlusviisi, võimaldades seega juurdepääsu üksikasjalikumale inimlikule järelevalvele (ja seega potentsiaalselt suuremale äratundmistäpsusele), samuti võimalust luua uudsete piltide informatiivsemaid kirjeldusi.

Me töötame välja lähenemisviisi, mis õpib iga atribuudi jaoks järjestusfunktsiooni, võttes arvesse suhtelise sarnasuse piiranguid näidete paaridele (või üldisemalt osalise järjestamise korral mõne näite puhul). Õpitud järjestamise funktsioon suudab hinnata piltide tegelikku väärtust, mis näitab atribuudi olemasolu suhtelist tugevust neis.

Tutvustame nullkaadri õppimise ja kujutise kirjeldamise uudseid vorme, mis kasutavad suhtelisi atribuutide ennustusi.

Lähenemine

Suhteliste atribuutide õppimine: iga suhtelist atribuuti õpitakse järjestamise õppimise kaudu võrdleva järelevalve all, nagu on näidatud allpool.

Erinevus laia marginaaliga järjestamise funktsiooni (paremal) õppimise vahel, mis jõustab treeningpunktides (1–6) soovitud järjestuse, ja laia marginaaliga binaarklassifikaatori (vasakul), mis eraldab ainult kaks klassi (+ ja -) ja teeb seda. ei pruugi säilitada soovitud punktide järjestust, on näidatud allpool:

Uudne nullkaadri õppimine : Uurime järgmist seadistust

  • N kategooriat kokku: S nähtud kategooriat (saadaval on seotud pildid) + U nägemata kategooriat (nende kategooriate jaoks pole pilte saadaval)
  • S nähtud kategooriaid kirjeldatakse üksteise suhtes atribuutide kaudu (kõik kategooriate paarid ei pea olema kõigi atribuutide jaoks seotud)
  • U nähtamatuid kategooriaid kirjeldatakse nähtud kategooriate (alamhulga) suhtes atribuutide (alamhulga) kaudu.

Esmalt koolitame välja suhteliste atribuutide komplekti, kasutades nähtud kategooriate järelevalvet . Neid atribuute saab ka väliste andmete põhjal eelnevalt välja õpetada. Seejärel koostame iga vaadeldud kategooria jaoks generatiivse mudeli (Gaussi mudeli), kasutades suhteliste atribuutide vastuseid nähtud kategooriate piltidele . Seejärel järeldame nähtamatute kategooriate generatiivsete mudelite parameetrid, kasutades nende suhtelisi kirjeldusi nähtud kategooriate suhtes . Allpool on toodud selle lihtsa lähenemisviisi visualiseerimine, mida me selleks kasutame:

Katsepilt määratakse maksimaalse tõenäosusega kategooriasse.

Kujutiste suhteliste tekstiliste kirjelduste automaatne genereerimine: Kirjeldatava kujutise I korral hindame kõiki õpitud järjestamisfunktsioone I-s. Iga atribuudi jaoks tuvastame kaks võrdluspilti, mis asuvad kummalgi pool I ja ei ole I-st ​​liiga kaugel ega sellele liiga lähedal. Seejärel kirjeldatakse pilti I. nende kahe võrdluspildi suhtes, nagu allpool näidatud:

Nagu ülalpool näha, saab meie lähenemisviis lisaks pildi kirjeldamisele teiste piltidega võrreldes kirjeldada pilti ka teiste kategooriate suhtes, mille tulemuseks on puhtalt tekstiline kirjeldus. On selge, et suhtelised kirjeldused on täpsemad ja informatiivsemad kui tavalised kahendkirjeldused.

Katsed ja tulemused

Teeme katseid kahe andmekogumiga:

(1)Välistseenituvastus (OSR), mis sisaldab 2688 pilti 8 kategooriast: rannik C, mets F, maantee H, linnasisene I, mägi M, avatud maa O, tänav S ja kõrge hoone T. Kasutame põhifunktsioone, et esindada pilte.

(2) Avalike tegelaste nägude andmebaasi (PubFig) alamhulk , mis sisaldab 772 pilti 8 kategooriast: Alex Rodriguez A, Clive Owen C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson S, Viggo Mortensen V ja Zac Efron Z. Kasutame piltide esitamiseks ühendatud sisu- ja värvifunktsioone.

Iga andmestiku jaoks kasutatud atribuutide loend koos binaarsete ja suhteliste atribuutide märkustega on näidatud allpool.

Nullkaadri õpe:

Võrdleme oma pakutud lähenemisviisi kahe lähtetasemega. Esimene neist on Score-based Relative Attributes (SRA). See lähtejoon on sama, mis meie lähenemisviis, välja arvatud see, et see kasutab järjestusfunktsiooni skooride asemel binaarse klassifikaatori (binaarseid atribuute) hindeid. See lähtejoon aitab hinnata järjestusfunktsiooni vajadust suhteliste atribuutide parimaks modelleerimiseks. Meie teine ​​lähtejoon on otsese atribuudi ennustamise (DAP) mudel, mille on kasutusele võtnud Lampert jt. CVPR 2009. See lähtejoon aitab hinnata omaduste suhtelise käsitlemise eeliseid, mitte kategoorilisi. Hindame neid lähenemisviise erineva arvu nähtamatute kategooriate, atribuutide koolitamiseks kasutatavate andmete erineva hulga, nähtamatute kategooriate kirjeldamiseks kasutatavate atribuutide erineva arvu ja nähtamatute kategooriate kirjeldamise erineva "lõdvuse" taseme jaoks. Eksperimentaalse seadistuse üksikasjad leiate meie artiklist. Tulemused on näidatud allpool:

Automaatselt loodud piltide kirjeldused:

Selleks, et hinnata meie suhteliste kujutiste kirjelduste kvaliteeti binaarsete kolleegidega, viisime läbi inimuuringu. Loosime pildi kirjelduse, kasutades meie lähenemisviisi, samuti binaarseid atribuute. Esitasime katsealustele selle kirjelduse koos kolme pildiga. Üks kolmest pildist oli kirjeldatav pilt. Uuritavate ülesandeks oli järjestada kolm pilti selle põhjal, milline neist oli nende arvates kõige tõenäolisem kirjeldatav. Mida täpsem on kirjeldus, seda suurem on võimalus katsealustel õige pilt tuvastada. Katseisikutele esitatava ülesande illustratsioon on näidatud allpool:

Uuringu tulemused on toodud allpool. Näeme, et katsealused saavad meie pakutud suhtelisi atribuute kasutades õiget kujutist binaarsete atribuutidega võrreldes täpsemalt tuvastada.

Piltide binaarsete kirjelduste ja kategooriatega seotud kirjelduste näidised on näidatud allpool:

Pilt

Binaarsed kirjeldused

Suhtelised kirjeldused

ei ole loomulik

mitte avatud

perspektiiv

loomulikum kui kõrghoone, vähem looduslik kui mets,

avatum kui kõrghoone, vähem avatud kui rannik

perspektiivsem kui kõrghoone

ei ole loomulik

mitte avatud

perspektiiv

loomulikum kui linnas sees, vähem loomulik kui maanteel

avatum kui tänav, vähem avatud kui rannik,

perspektiivsem kui maanteel, vähem perspektiivi kui linnas sees

loomulik

avatud

perspektiiv

loomulikum kui kõrghoone, vähem looduslik kui mägi

rohkem avatud kui mägi

vähem perspektiivi kui avatud maa

Valge

mitte naeratav

Nähtav Otsmik

rohkem valge kui AlexRodriguez

rohkem naeratav kui JaredLeto , vähem naeratav kui ZacEfron

rohkem VisibleForehead kui JaredLeto , vähem VisibleForehead kui MileyCyrus

Valge

ei naerata

pole nähtav Otsmik

rohkem valge kui AlexRodriguez , vähem valge kui MileyCyrus vähem naeratav kui HughLaurie rohkem nähtav otsmik kui ZacEfron, vähem nähtav otsmik kui MileyCyrus

mitte Young

BushyBrows

RoundFace

rohkem noor kui CliveOwen, vähem noor kui ScarlettJohansson

rohkem Bushy kulmud kui ZacEfron, vähem Bushy kulmud kui AlexRodriguez rohkem RoundFace kui CliveOwen, vähem RoundFace kui ZacEfron

Andmed

Pakume õpitud suhtelisi atribuute ja nende ennustusi kahele meie artiklis kasutatud andmekogumile: välitingimustes stseenituvastus (OSR) ja avaliku elu tegelaste nägude andmebaasi (PubFig) alamhulk .

LOE ME

Laadi alla (v2)

Suhteliste näoatribuutide andmestik. See sisaldab märkusi 29 suhtelise atribuudi kohta 60 kategoorias avalikust tegelaste nägude andmebaasist (PubFig).

Kood

Muutsime Olivier Chappelle'i RankSVM-i rakendust, et koolitada suhtelisi atribuute sarnasuse piirangutega. Meie muudetud koodi leiate siit.

Kui kasutate meie koodi, viidake järgmisele paberile:

D. Parikh ja K. Grauman

Suhtelised atribuudid

Rahvusvaheline arvutinägemise konverents (ICCV), 2011.

Demod

Suhteliste atribuutide erinevate rakenduste demod leiate siit. Nende rakenduste kirjelduse leiate paberitest siin.

Väljaanded

D. Parikh ja K. Grauman

Suhtelised atribuudid

Rahvusvaheline arvutinägemise konverents (ICCV), 2011. (Suuline)

Marri auhinna (parima paberiauhinna) võitja

[ slaidid ] [ kõne (video) ] [ plakat ] [ suhtelised kirjeldused demo ]

Järgmised on meie muud dokumendid, mis kasutavad suhtelisi atribuute:

A. Biswas ja D. Parikh

Klassifikaatorite ja atribuutide samaaegne aktiivne õppimine suhtelise tagasiside kaudu

IEEE arvutinägemise ja mustrite tuvastamise (CVPR) konverents, 2013

[ projekti leht ja andmed ] [plakat] [ demo ]

A. Parkash ja D. Parikh

Klassifikaatori tagasiside atribuudid

Euroopa arvutinägemise konverents (ECCV), 2012 (suuline)

[ slaidid ] [ kõne (video) ] [ projekti leht ja andmed ] [ demo ]

A. Kovaška, D . Parikh jaK. GraumanWhittleSearch: Pildiotsing suhteliste atribuutide tagasisidegaIEEE konverents arvutinägemise ja mustrituvastuse (CVPR), 2012
[ projekti leht ] [ plakat ] [ demo ]

D . Parikh , A . Kovaška, A. Parkashja K. GraumanInim-masina täiustatud suhtluse suhtelised omadused (kutsutud artikkel)
AAAI tehisintellekti konverents (AAAI), 2012 (suuline)