BlooooooG


  • Home

  • Categories

  • Archives

  • Tags

  • Search

Deep Cross-media Knowledge Transfer

Posted on 2018-08-23 | In Research Note | Visitors

Deep Cross-media Knowledge Transfer(DCKT)论文阅读笔记

1534937560038

CVPR 2018

当前的跨模态检索方法通常需要依赖有标签的数据来训练模型,然而,收集跨模态数据并且标注是很耗费人力的事情,所以怎样将现有数据中有价值的信息迁移到新的数据中是应用中很重要的问题。

为实现这个目标,本文提出了深度跨媒体知识迁移(DCKT)方法,该方法能够将大规模跨模态数据集的信息迁移到小规模数据集中,用来提升在小规模跨模态数据集上模型的训练效果。

我们考虑下面的问题:在大规模跨模态数据集和另一个小规模数据集有着不同的标签空间时,应该怎样进行从大规模数据集(源域)到小规模数据集(目标域)的知识的迁移? DCKT方法的主要贡献如下:

双级别迁移架构,同时使得模态级别和相关度级别的域差异最小,将模态内语义和模态间相关知识进行迁移,来丰富训练信息,提高目标域的检索准确度;

渐进迁移机制,基于自适应反馈的跨媒体域一致性度量方法,根据目标域迁移难度的由易到难,迭代的选择训练样本。这种机制可以逐渐减少巨大的跨媒体域差异,增强模型的鲁棒性。

Read more »

Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models

Posted on 2018-08-22 | In Research Note | Visitors

Generative Cross-modal Learning Network(GXN)论文阅读笔记。

1534905869973

CVPR 2018

文本提出将生成模型加入到文本-图像特征的提取中来进行跨模态检索,除了传统的在全局语义级别上进行的跨模态特征的提取之外,还引入了在局部级别上进行的跨模态特征的提取,这是基于两个生成模型:图像-文本和文本-图像生成模型来实现的。

总的来看,模型包含三个步骤:观察(look),想象(imagine)和匹配(match)。给定一个图片或者文本的查询,首先“观察”这个查询,提取一个抽象(abstract)的表示;然后,在另一个模态中“想象”查询目标(文本或图像)应该的“样子”,并且得到一个更加准确的 grounded representation,我们通过让一个模态的特征表示(待学习)来生成另一个模态的数据,然后将生成的数据与真实的数据进行比较;之后,使用相关度得分来匹配正确的图像-文本对,相关度得分是基于 grounded 和 abstract 表示的组合来计算的。

Read more »

Adversarial Cross-Modal Retrieval

Posted on 2018-08-20 | In Research Note | Visitors

Adversarial Cross-Modal Retrieval(ACMR)论文阅读笔记。

1534732156716

ACM MM 2017 Best Paper

本文提出了一个对抗跨模态检索方法(ACMR),基于对抗学习来寻找有效的共同子空间,模型的核心是两个过程间的相互作用,特征映射器和模态分类器。特征映射器主要进行表示学习的任务,也就是在公共子空间中,为不同模态的数据生成一个与模态无关的表示,它的目标是为了“迷惑”模态分类器。而模态分类器则是尝试分别数据的模态类型,从而引导特征映射器的学习。

此外,通过特征映射器的学习,可以保留跨模态数据潜在的语义结构,并且进行标签预测,这种方式可以保证学习到的特征表示在同一个模态中是有鉴别性的,又在跨模态中保持不变性。

对于跨模态间的结构不变性,之前提出的方法中,只关注了基于对的数据项的关系,而本文是通过利用模态之间更多的关系约束来解决的,即三元组约束。

Read more »

Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval

Posted on 2018-08-15 | In Research Note | Visitors

Self-Supervised Adversarial Hashing(SSAH)论文阅读笔记。

1534227945479

CPVR 2018

本文提出了一个自监督对抗哈希方法(SSAH)来进行跨模态检索,使用了两个对抗网络联合学习不同模态数据的高维特征和对应的Hash码,同时,整合一个自监督的语义网络通过多标签标注的形式发现语义信息,这些语义信息再被用作对抗网络的监督信息,来最大化两个模态间的语义相关度以及特征分布的一致性。

Read more »

Online asymmetric similarity learning for cross-modal retrieval

Posted on 2018-08-14 | In Research Note | Visitors

Cross-Modal Online Similarity function learning(CMOS)论文学习笔记。

1534225141256

CVPR 2017

本文提出了一个跨模态在线相关学习方法(CMOS),通过保留异构数据之间的语义相关性来学习他们的非对称的相关函数。数据间的语义相关性通过一系列在跨模态三元组数据上的双向铰链损失(hinge loss)约束来建模。

这个在线相关学习问题通过基于边距的在线PA(Passive-Aggressive)算法来解决,并且对大规模数据集展现了很好的扩展性。文中接着在再生核希尔伯特空间(reproducing kernel Hilbert space)中线性组合多个核函数来学习相关函数。

Read more »

Unsupervised Generative Adversarial Cross-modal Hashing

Posted on 2018-08-12 | In Research Note | Visitors

UGACH论文阅读笔记

1533782404956

AAAI 2018

本文设计了一个基于图的无监督关联方法来捕获不同数据模态间潜在的相关结构,以及一个生成对抗网络来学习这个潜在的相关结构。

在UGACH方法中,给定任意模态数据,生成式模型会尝试拟合多模态之间潜在的相关关系的分布,然后从另一个模态选择相关数据来“骗过”判别器,而判别器模型则会学习去分辨输入是生成的相关数据还是真实的相关数据,真实的相关数据从相关图中采样得到。

文中提出了一个基于相关图的方法来获得不同模态的相关性,模态不同但是拥有相同语义的数据之间的Hamming距离会更小。我们将相关图融合到GAN中,为GAN提供数据的相关关系,来提高跨模态检索的准确度。

Read more »

Deep Cross-Modal Hashing

Posted on 2018-08-12 | In Research Note | Visitors

DCMH论文阅读笔记。

1533708837904

CVPR 2018

Read more »

Cross-media Retrieval

Posted on 2018-08-12 | In Research Note | Visitors

跨媒体检索综述。

1533863237140

介绍

近年来,文本、图像、视频和语音等多媒体数据大量增加,而且用不同类型的数据描述同一件事情或话题也很常见,这些不同类型的数据被称为多模态数据。随着多模态数据量的不断增加,用户想要高效地在网上检索信息就变得十分困难。

目前,大多数检索策略都是基于单个模态的,包括关键词搜索和基于内容的搜索方法等,这些方法只能通过相似性搜索来查找相同模态的数据,比如文本检索、图像检索、音视频检索。因此,支持多模态相似性检索的模型在信息检索中有着很大的需求。

多模态检索是指将数据的一种类型作为查询,来查找相关的另一种类型的数据,比如以文搜图、以图搜文等。更宽泛的说,多模态检索中,用户可以提交任意模态的数据,通过检索得到相关的跨模态的不同类型的数据。

多模态检索的主要挑战是如何测量不同模态数据的相似度,而现在研究的主要目的就是使得跨模态检索的结果更加准确,并且可扩展性更高。

Read more »
1 … 13 14
Wendell Gu

Wendell Gu

138 posts
4 categories
68 tags
GitHub
© 2021 Wendell Gu
Powered by Jekyll
Theme - NexT.Mist
Storage Service - UPYUN