Nedávný výzkum umělé inteligence (AI) z České republiky, „GLAMI-1M“, navrhuje vícejazyčnou datovou sadu pro klasifikaci obrazu a textu a klasifikaci

Nedávný výzkum umělé inteligence (AI) z České republiky, „GLAMI-1M“, navrhuje vícejazyčnou datovou sadu pro klasifikaci obrazu a textu a klasifikaci

Veřejné datové sady jsou jedním z nejdůležitějších stavebních kamenů výzkumu strojového učení. Díky těmto datovým sadám může kdokoli trénovat a vyhodnocovat své modely na osobních zařízeních nebo cloudových službách. Tato obecná kritéria umožňují testovat a vyhodnocovat různé metody, protože mají předdefinované rozdělení trénovacích a testovacích dat.

Klasifikace obrázků Jeden z nejpopulárnějších problémů v počítačovém vidění. Modely klasifikace obrázků však již byly dobré. Když zarovnání Předchůdce modelu byl trénován na proprietárním WebImageText pro klasifikaci, čímž dosáhl nejmodernějšího výkonu na datovém souboru Fashion-Gen. Tato pozorování odhalují, že klasifikaci obrázků lze dále zlepšit pomocí modelů obrázek-text.

Veřejné rozsáhlé datové sady pro klasifikaci obrázků a textu však mají omezenou velikost a jazykovou rozmanitost (viz tabulka 1). V tomto článku se tedy autoři představili GLAMI-1M. Obecná vícejazyčná škála klasifikace obrázků a textu módních produktů. Stručně popišme datovou sadu; Dataset obsahuje 1,1 milionu obrázků módních produktů a jejich popisů 13 jazyků. Popisy produktů jsou převzaty z webových stránek elektronického obchodu. Obrázky jsou kategorizovány 191 tříd (Viz obrázek 2) s vysoce kvalitními štítky. 75 % obrázků kompletní testovací sady a 1M tréninkové sady je označeno lidskou značkou.

Vzhledem k tomu, že data jsou shromažďována z webových stránek elektronického obchodu, představují různé problémy, jako je řešení nevyvážených distribucí tříd s dlouhým koncem, hlučné štítky, multimodální vstupy, vícejazyčné texty a další.

Existuje několik datových sad Fashion-Gen (viz tabulky 2 a 3), ale pouze jedna dvojjazyčná datová sada obrázek-text, Fashion-MMT. Je však desetkrát menší než GLAMI-1M.

Nyní k otázce, Jak se data shromažďují a čistí?

Módní položky v datové sadě se vybírají z indexu GLAMI ve dvou krocích:

  1. Položky s vysoce kvalitními lidskými anotacemi jsou vzorkovány na základě zdroje anotace. Ke generování testovací sady se použije 100 000 náhodně vybraných vzorků.
  2. Položky jsou vzorkovány z méně spolehlivého systému heuristického označování, aby se získala trénovací sada 1 milionu položek.
READ  Spalničky, záškrt, svrab mezi mnoha nemocemi na vzestupu v ČR - Brněnský deník

Kromě toho nedocházelo k překrývání mezi obrázky a texty tréninkové a testovací sady, ověřené o MD5 hash A Kosinová jednota.

Tabulka 4 poskytuje některé další informace o datové sadě.

Výzkumníci také vyvinuli základ pro multimodální klasifikaci a textově podmíněné generování obrázků v GLAMI-1M.

Nejprve si promluvme o klasifikaci.

v Vícerozměrná klasifikace, Vstupy pocházejí z různých režimů, zde; Text (název + popis), vizuální (obrázek) a klasifikace (popisek). Pro základní linii použili EmbraceNet, protože dokáže převzít kódované vstupy z jakéhokoli modelu a zkombinovat je do jediného modelu.

Teď mluvení Textově podmíněné generování obrázků,

Trénovali menší verzi obrazového modelu na nějaké podmnožině datové sady.

Výsledky z obou výchozích hodnot lze vidět v tabulce 6 a na obrázcích 5,6,7.

Závěrem, GLAMI-1M Největší veřejně dostupná vícejazyčná datová sada pro klasifikaci obrázků a textu. Má potenciál pomoci urychlit výzkum v oblasti generování obrázků na základě textu, klasifikace obrázků a textu a vícejazyčného strojového překladu. Také je to užitečné pro komplexní katalog módních produktů na webových stránkách elektronického obchodu.


Koukni se Papír A Odkaz na Github. Veškerá zásluha za tento výzkum patří výzkumníkům v tomto projektu. Také se nezapomeňte připojit Naše stránka Reddit A Kanál rozporuSdílíme nejnovější zprávy o výzkumu AI, skvělé projekty AI a další.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *