Nedávný výzkum umělé inteligence (AI) z České republiky, „GLAMI-1M“, navrhuje vícejazyčnou datovou sadu pro klasifikaci obrazu a textu a klasifikaci

Veřejné datové sady jsou jedním z nejdůležitějších stavebních kamenů výzkumu strojového učení. Díky těmto datovým sadám může kdokoli trénovat a vyhodnocovat své modely na osobních zařízeních nebo cloudových službách. Tato obecná kritéria umožňují testovat a vyhodnocovat různé metody, protože mají předdefinované rozdělení trénovacích a testovacích dat.

Klasifikace obrázků Jeden z nejpopulárnějších problémů v počítačovém vidění. Modely klasifikace obrázků však již byly dobré. Když zarovnání Předchůdce modelu byl trénován na proprietárním WebImageText pro klasifikaci, čímž dosáhl nejmodernějšího výkonu na datovém souboru Fashion-Gen. Tato pozorování odhalují, že klasifikaci obrázků lze dále zlepšit pomocí modelů obrázek-text.

Veřejné rozsáhlé datové sady pro klasifikaci obrázků a textu však mají omezenou velikost a jazykovou rozmanitost (viz tabulka 1). V tomto článku se tedy autoři představili GLAMI-1M. Obecná vícejazyčná škála klasifikace obrázků a textu módních produktů. Stručně popišme datovou sadu; Dataset obsahuje 1,1 milionu obrázků módních produktů a jejich popisů 13 jazyků. Popisy produktů jsou převzaty z webových stránek elektronického obchodu. Obrázky jsou kategorizovány 191 tříd (Viz obrázek 2) s vysoce kvalitními štítky. 75 % obrázků kompletní testovací sady a 1M tréninkové sady je označeno lidskou značkou.

Vzhledem k tomu, že data jsou shromažďována z webových stránek elektronického obchodu, představují různé problémy, jako je řešení nevyvážených distribucí tříd s dlouhým koncem, hlučné štítky, multimodální vstupy, vícejazyčné texty a další.

Existuje několik datových sad Fashion-Gen (viz tabulky 2 a 3), ale pouze jedna dvojjazyčná datová sada obrázek-text, Fashion-MMT. Je však desetkrát menší než GLAMI-1M.

Nyní k otázce, Jak se data shromažďují a čistí?

Módní položky v datové sadě se vybírají z indexu GLAMI ve dvou krocích:

Položky s vysoce kvalitními lidskými anotacemi jsou vzorkovány na základě zdroje anotace. Ke generování testovací sady se použije 100 000 náhodně vybraných vzorků.
Položky jsou vzorkovány z méně spolehlivého systému heuristického označování, aby se získala trénovací sada 1 milionu položek.

READ Spalničky, záškrt, svrab mezi mnoha nemocemi na vzestupu v ČR - Brněnský deník

Kromě toho nedocházelo k překrývání mezi obrázky a texty tréninkové a testovací sady, ověřené o MD5 hash A Kosinová jednota.

Tabulka 4 poskytuje některé další informace o datové sadě.

Výzkumníci také vyvinuli základ pro multimodální klasifikaci a textově podmíněné generování obrázků v GLAMI-1M.

Nejprve si promluvme o klasifikaci.

v Vícerozměrná klasifikace, Vstupy pocházejí z různých režimů, zde; Text (název + popis), vizuální (obrázek) a klasifikace (popisek). Pro základní linii použili EmbraceNet, protože dokáže převzít kódované vstupy z jakéhokoli modelu a zkombinovat je do jediného modelu.

Teď mluvení Textově podmíněné generování obrázků,

Trénovali menší verzi obrazového modelu na nějaké podmnožině datové sady.

Výsledky z obou výchozích hodnot lze vidět v tabulce 6 a na obrázcích 5,6,7.

Závěrem, GLAMI-1M Největší veřejně dostupná vícejazyčná datová sada pro klasifikaci obrázků a textu. Má potenciál pomoci urychlit výzkum v oblasti generování obrázků na základě textu, klasifikace obrázků a textu a vícejazyčného strojového překladu. Také je to užitečné pro komplexní katalog módních produktů na webových stránkách elektronického obchodu.

Koukni se Papír A Odkaz na Github. Veškerá zásluha za tento výzkum patří výzkumníkům v tomto projektu. Také se nezapomeňte připojit Naše stránka Reddit A Kanál rozporuSdílíme nejnovější zprávy o výzkumu AI, skvělé projekty AI a další.

Vineeth Kumar je konzultační kouč ve společnosti MarktechPost. V současné době pokračuje v bakalářském studiu na Indian Institute of Technology (IIT), Kanpur. Je nadšencem strojového učení. Zajímá se o výzkum a nejnovější vývoj v oblasti hlubokého učení, počítačového vidění a příbuzných oborů.

READ Najděte 5 unikátních českých lokalit

Sidney Watkins

„Cestovní cestovatel. Odborník na pivo. Jemně okouzlující fanoušek alkoholu. Internetový feťák. Zanícený učenec slaniny.“

Nedávný výzkum umělé inteligence (AI) z České republiky, „GLAMI-1M“, navrhuje vícejazyčnou datovou sadu pro klasifikaci obrazu a textu a klasifikaci

Recenze Eurovize 2024: Iko České republiky „S podstavcem“

Eurojury 2024: Výsledky z 🇸🇰 Slovenska, 🇦🇩 Andorry a 🇨🇿 Česka

DVIDS – Novinky – 7ATC hostí CETC 24, Vyškov, Česká republika

Belgie a Česká republika usilují o sankce EU zaměřené na ruské „vměšování“

Irák a Česká republika zkoumají možnosti partnerství

Napsat komentář Zrušit odpověď na komentář

yPLAY.cz

You may also like