Veřejné datové sady jsou jedním z nejdůležitějších stavebních kamenů výzkumu strojového učení. Díky těmto datovým sadám může kdokoli trénovat a vyhodnocovat své modely na osobních zařízeních nebo cloudových službách. Tato obecná kritéria umožňují testovat a vyhodnocovat různé metody, protože mají předdefinované rozdělení trénovacích a testovacích dat.
Klasifikace obrázků Jeden z nejpopulárnějších problémů v počítačovém vidění. Modely klasifikace obrázků však již byly dobré. Když zarovnání Předchůdce modelu byl trénován na proprietárním WebImageText pro klasifikaci, čímž dosáhl nejmodernějšího výkonu na datovém souboru Fashion-Gen. Tato pozorování odhalují, že klasifikaci obrázků lze dále zlepšit pomocí modelů obrázek-text.
Veřejné rozsáhlé datové sady pro klasifikaci obrázků a textu však mají omezenou velikost a jazykovou rozmanitost (viz tabulka 1). V tomto článku se tedy autoři představili GLAMI-1M. Obecná vícejazyčná škála klasifikace obrázků a textu módních produktů. Stručně popišme datovou sadu; Dataset obsahuje 1,1 milionu obrázků módních produktů a jejich popisů 13 jazyků. Popisy produktů jsou převzaty z webových stránek elektronického obchodu. Obrázky jsou kategorizovány 191 tříd (Viz obrázek 2) s vysoce kvalitními štítky. 75 % obrázků kompletní testovací sady a 1M tréninkové sady je označeno lidskou značkou.
Vzhledem k tomu, že data jsou shromažďována z webových stránek elektronického obchodu, představují různé problémy, jako je řešení nevyvážených distribucí tříd s dlouhým koncem, hlučné štítky, multimodální vstupy, vícejazyčné texty a další.
Existuje několik datových sad Fashion-Gen (viz tabulky 2 a 3), ale pouze jedna dvojjazyčná datová sada obrázek-text, Fashion-MMT. Je však desetkrát menší než GLAMI-1M.
Nyní k otázce, Jak se data shromažďují a čistí?
Módní položky v datové sadě se vybírají z indexu GLAMI ve dvou krocích:
- Položky s vysoce kvalitními lidskými anotacemi jsou vzorkovány na základě zdroje anotace. Ke generování testovací sady se použije 100 000 náhodně vybraných vzorků.
- Položky jsou vzorkovány z méně spolehlivého systému heuristického označování, aby se získala trénovací sada 1 milionu položek.
Kromě toho nedocházelo k překrývání mezi obrázky a texty tréninkové a testovací sady, ověřené o MD5 hash A Kosinová jednota.
Tabulka 4 poskytuje některé další informace o datové sadě.
Výzkumníci také vyvinuli základ pro multimodální klasifikaci a textově podmíněné generování obrázků v GLAMI-1M.
Nejprve si promluvme o klasifikaci.
v Vícerozměrná klasifikace, Vstupy pocházejí z různých režimů, zde; Text (název + popis), vizuální (obrázek) a klasifikace (popisek). Pro základní linii použili EmbraceNet, protože dokáže převzít kódované vstupy z jakéhokoli modelu a zkombinovat je do jediného modelu.
Teď mluvení Textově podmíněné generování obrázků,
Trénovali menší verzi obrazového modelu na nějaké podmnožině datové sady.
Výsledky z obou výchozích hodnot lze vidět v tabulce 6 a na obrázcích 5,6,7.
Závěrem, GLAMI-1M Největší veřejně dostupná vícejazyčná datová sada pro klasifikaci obrázků a textu. Má potenciál pomoci urychlit výzkum v oblasti generování obrázků na základě textu, klasifikace obrázků a textu a vícejazyčného strojového překladu. Také je to užitečné pro komplexní katalog módních produktů na webových stránkách elektronického obchodu.
Koukni se Papír A Odkaz na Github. Veškerá zásluha za tento výzkum patří výzkumníkům v tomto projektu. Také se nezapomeňte připojit Naše stránka Reddit A Kanál rozporuSdílíme nejnovější zprávy o výzkumu AI, skvělé projekty AI a další.
Vineeth Kumar je konzultační kouč ve společnosti MarktechPost. V současné době pokračuje v bakalářském studiu na Indian Institute of Technology (IIT), Kanpur. Je nadšencem strojového učení. Zajímá se o výzkum a nejnovější vývoj v oblasti hlubokého učení, počítačového vidění a příbuzných oborů.
„Cestovní cestovatel. Odborník na pivo. Jemně okouzlující fanoušek alkoholu. Internetový feťák. Zanícený učenec slaniny.“