Hierarchical Image Classification With Self-Supervised Vision Transformer Features

Karagüler, Caner

Please use this identifier to cite or link to this item: https://hdl.handle.net/11147/12699

Title:	Hierarchical Image Classification With Self-Supervised Vision Transformer Features
Other Titles:	Özdenetimli görü dönüştürücü öznitelikleri ile hiyerarşik imge sınıflandırması
Authors:	Karagüler, Caner
Advisors:	Özuysal, Mustafa
Keywords:	Convolutional neural networks Image classification Data sets
Publisher:	Izmir Institute of Technology
Abstract:	There are lots of works about image classification and most of them are based on convolutional neural networks (CNN). In image classification, some classes are more difficult to distinguish than others because of non-even visual separability. These difficult classes require domain-specific classifiers but traditional convolutional neural networks are trained as flat N-way classifiers. These flat classifiers can not leverage the hierarchical information of the classes well. To solve this issue, researchers proposed new techniques that embeds class-hierarchy into the convolutional neural networks and most of these techniques exceed existing convolutional neural networks' success rates on large-scale datasets like ImageNet. In this work, we questioned if a hierarchical image classification with self- supervised vision transformer features can exceed hierarchical convolutional neural networks. During this work, we used a hierarchical ETHEC dataset and extract attention features with the help of vision transformers. Using these attention features, we implemented 3 different hierarchical classification approaches and compared the results with CNN alternative of our approaches. Görüntü sınıflandırma ile ilgili pek çok çalışma bulunuyor ve bunların çoğu evrişimli sinir ağları (CNN) temel alınarak gerçekleştirilmiştir. Görüntü sınıflandırmada, eşit olmayan görsel ayrılabilirlik nedeniyle bazı sınıfları diğerlerinden ayırt etmek daha zordur. Bu zor sınıfların ayrılabilmesi için, ilgili alana özgü sınıflandırıcılar gerekmektedir, ancak geleneksel evrişimli sinir ağları, düz N-yollu sınıflandırıcıları olarak eğitildiği için sınıflar arasındaki hiyerarşik bilgiden yeteri kadar yararlanamazlar. Bu sorunu çözmek için araştırmacılar, sınıf hiyerarşisini evrişimli sinir ağlarına dahil eden yeni teknikler keşfettiler ve bu tekniklerin çoğu, ImageNet gibi büyük ölçekli veri kümelerinde mevcut evrişimli sinir ağlarının başarı oranlarını geçmektedir. Bu çalışmada, özdenetimli görü dönüştürücü özniteliklerini kullanan bir hiyerarşik imge sınıflandırıcının hiyerarşik evrişimli sinir ağlarını geçip geçemeyeceğini sorguladık. Bu çalışma sırasında hiyerarşik bir ETHEC veri seti kullandık ve görüntü transformatörleri yardımıyla dikkat öznitelikleri çıkardık. Bu dikkat özelliklerini kullanarak 3 farklı hiyerarşik sınıflandırma yaklaşımı uyguladık ve sonuçları yaklaşımlarımızın CNN alternatifi ile karşılaştırdık.
Description:	Thesis (Master)--Izmir Institute of Technology, Computer Engineering, Izmir, 2022 Includes bibliographical references (leaves. 49-53) Text in English; Abstract: Turkish and English
URI:	https://hdl.handle.net/11147/12699 https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=CG8WvdvvxJP04Unr7Yecf_EdZpsGvLascURfMxTrn8VOtZoubVojsCUf04qgffb_
Appears in Collections:	Master Degree / Yüksek Lisans Tezleri

Files in This Item:

File	Description	Size	Format
10458869.pdf	Master Thesis File	5.85 MB	Adobe PDF	View/Open

Show full item record

CORE Recommender

Page view(s)

328

checked on Jun 16, 2025

Download(s)

120

checked on Jun 16, 2025

Google Scholar^TM

Check

Files in This Item:

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM