Toshiba Corporation har utvecklat en AI med 3D-igenkänning som kan mäta avstånd med en stereokameras noggrannhet, genom att använda bilden som tagits med en kommersiell kamera och analysera suddig bild orsakad av kameralinsen med hjälp av djupinlärning. Denna teknik kommer att eliminera användningen av stereokameror, vilket så småningom minskar kostnaden och utrymmet. Toshiba kommer att presentera denna prestation vid den internationella konferensen om datorsyn (ICCV2019) som kommer att hållas i Sydkorea den 30 oktober 2019, klockan 10.
Bildavkänning blir viktigare och applikationer som robotar som rör objekt, autonoma obemannade fordon, fjärrstyrda drönare som inspekterar infrastruktur etc., kräver mer än bara bilder av ämnena, de behöver en liten enhet för att analysera 3D-data för att inkludera form och avstånd. Därför har forskningen ökat för att utveckla en mätteknik med monokulära kameror (de är lätta att miniatyrisera) genom att använda djupinlärning för bättre inlärning av form, bakgrund och andra landskapsdata för det avbildade objektet.
Denna metod har en nackdel; avståndets noggrannhet uppskattas med hjälp av en monokulär kamera beroende på inlärda landskapsdata som orsakar ett noggrannhetsfall på grund av de bilder som tagits i olika landskap. För att övervinna detta har Toshiba utvecklat färgfiltrerat bländarefotografering där tvåfärgsfilter är fäst vid linsen och färgen och storleken på den resulterande suddigheten på bilden analyseras enligt avståndet från motivet. Även om detta löser problemet med beroendet av data, kostar det tid och pengar att modifiera befintliga linser.
Toshiba har övervunnit detta problem genom att utveckla AI med 3D-igenkänningsteknik som använder djupinlärning för att analysera hur bilden är suddig utifrån dess position på linsen, för att uppnå avståndsmätning med samma höga precision som ett stereokamerasystem, med en normal monokulär kamera men utan behov av landskapsdata. Hittills ansågs det teoretiskt omöjligt att mäta avståndet baserat på suddighetsformen, vilket är detsamma för objekt med både avstånd och långt när de ligger lika långt från fokuspunkten. Men de analytiska resultaten har visat en väsentlig skillnad mellan suddighetsformerna nära och långt föremål, även om de är lika långt från fokuspunkten. Med det analyserade Toshiba framgångsrikt suddighetsdata från fångade bilder av en djupinlärningsmodul utbildad med den djupa neurala nätverksmodellen.
När ljuset passerar genom linsen är det känt att den skapade suddigheten förändras beroende på ljusets våglängd och dess position i linsen. I det utvecklade nätverket bearbetas position och färg separat för att korrekt uppfatta förändringar i suddighetsform, och sedan, efter att ha passerat en viktad uppmärksamhetsmekanism, för att kontrollera var på ljusstyrkan som ska fokuseras för att korrekt mäta avståndet. Genom inlärning uppdateras nätverket för att minska ett fel mellan det uppmätta avståndet och det faktiska avståndet. Med den här AI-modulen har Toshiba bekräftat att en enstaka bild som tagits med en kommersiellt tillgänglig kamera realiserar samma avståndsmätnoggrannhet som skyddas med stereokameror. Mer information finns på den här officiella sidan av Toshiba.
Toshiba kommer att bekräfta systemets mångsidighet med kommersiellt tillgängliga kameror och linser och påskynda bildbehandlingen med sikte på offentlig implementering under räkenskapsåret 2020.