Building the howto100m Video Corpus

Data Skeptic19 Aug 2019

Building the howto100m Video Corpus

Video annotation is an expensive and time-consuming process. As a consequence, the available video datasets are useful but small. The availability of machine transcribed explainer videos offers a unique opportunity to rapidly develop a useful, if dirty, corpus of videos that are "self annotating", as hosts explain the actions they are taking on the screen.

This episode is a discussion of the HowTo100m dataset - a project which has assembled a video corpus of 136M video clips with captions covering 23k activities.

Related Links

The paper will be presented at ICCV 2019

Antoine on Github

Antoine's homepage

Upptäck Premium

Prova 14 dagar kostnadsfritt

Allt en och samma app

Lyssna på dina favoritpoddar och ljudböcker på ett och samma ställe.

Noga utvalt innehåll

Njut av handplockade tips som passar din smak – utan ändlöst scrollande.

Fortsätt när du vill

Fortsätt lyssna där du slutade – även offline.

Premium

99 kr/ månad

Tillgång till alla Premium-poddar
Reklamfritt premium-innehåll
Avsluta när du vill

Prova 14 dagar gratis

Premium

129 kr/ månad

Tillgång till alla Premium-poddar
Reklamfritt premium-innehåll
Avsluta när du vill
Ett extra konto

Prova 14 dagar gratis

Populärt inom Vetenskap

svd-nyhetsartiklar

dumma-manniskor

allt-du-velat-veta

kapitalet-en-podd-om-ekonomi

paranormalt-med-caroline-giertz

rss-ufobortom-rimligt-tvivel

rss-i-hjarnan-pa-louise-epstein

rss-vetenskapsradion

rss-vetenskapspodden

det-morka-psyket

rss-broccolipodden-en-podcast-som-inte-handlar-om-broccoli

barnpsykologerna

rss-vetenskapsradion-2

bildningspodden

4health-med-anna-sparre

Berättelserna och rösterna du älskar att lyssna på

Obegränsad lyssning på alla dina favoritpoddar och ljudböcker

Upptäck Premium