objektdetektion
Objektdetektion är en central uppgift inom datorseende vars syfte är att hitta och klassificera förekomster av objekt av intresse i bilder eller videoströmmar samt ange deras exakta positioner. Resultatet består vanligen av ett antal bounding boxes, varje ruta kopplad till en klass och ofta en tillförlitlighetspoäng. Det skiljer sig från enklare objektklassificering, där hela bilden klassificeras, och från lokalisering utan klassificering.
Metoderna domineras av djupa neurala nätverk. Traditionellt följer det en tvåstegsstruktur där först regioner av intresse
Träning kräver stora, märkta dataset som COCO och PASCAL VOC. Annotationer innehåller vanligtvis varje föremåls klass,
Bedömning används mAP (mean Average Precision) vid olika IoU-trösklar för att mäta både klassificeringsnoggrannhet och lokaliseringsprecision.
Användningar sträcker sig från övervakning och trafikanalys till autonoma fordon, robotik, kvalitetskontroll i tillverkning samt bildsökning
Utmaningar inkluderar variation i belysning, occlusion, små objekt, snabba rörelser och krav på realtidsprestanda. Robustinhet mot
Framtiden pekar mot 3D-detektion från LIDAR eller stereo, videodetektion i realtid och bättre generalisering med mindre