рекомендации

пятница, 4 октября 2019 г.

25 открытых наборов данных для Data Science


Ключом к совершенствованию в глубоком обучении (или во многих других областях) является практика. Практикуйтесь на самых разных задачах - от обработки изображений до распознавания речи. Каждая из этих проблем имеет свои уникальные нюансы и подходы.

Но где вы можете получить эти данные? Многие исследовательские работы, которые вы видите сегодня, используют проприетарные наборы данных, которые обычно не публикуются для широкой публики. Это становится проблемой, если вы хотите учиться и применять свои новые навыки.

Если вы столкнулись с этой проблемой, у нас есть решение для вас. Мы подготовили для вас список открытых общедоступных наборов данных.

В этой статье мы составили коллекцию высококачественных наборов данных, над которыми каждый энтузиаст глубокого обучения должен работать, чтобы применять и улучшать свои навыки. 

Как использовать эти наборы данных?

Перво-наперво - эти наборы данных огромны по размеру! Поэтому убедитесь, что у вас быстрое интернет-соединение без ограничения траффика.

Существует множество способов использования этих наборов данных. Вы можете использовать их для применения различных методов глубокого обучения. Вы можете использовать их, чтобы отточить свои навыки, понять, как идентифицировать и структурировать каждую проблему, придумать уникальные варианты использования и опубликовать свои выводы, чтобы все могли их увидеть!

Наборы данных делятся на три категории - обработка изображений, обработка естественного языка и обработка аудио/речи.

Наборы изображений


MNIST - один из самых популярных наборов данных для глубокого обучения. Это набор рукописных цифр, содержащий обучающий набор из 60000 примеров и набор тестов из 10000 примеров. Это хорошая база данных для опробования методов обучения и моделей глубокого распознавания реальных данных, затрачивая при этом минимум времени и усилий на предварительную обработку данных.

Размер: ~50 Мб
Количество записей: 70,000 изображений в 10 классах


COCO - это большой и богатый набор данных для обнаружения объектов, сегментации и создания титров. У него есть несколько особенностей:

Сегментация объектов;
Распознавание в контексте;
Сегментация суперпиксельных кадров;
330K изображений (> 200K подписанных);
1,5 миллиона экземпляров объектов;
80 категорий объектов;
91 категория вещей;
5 подписей на изображение;
250 000 человек с ключевыми точками.

Размер: ~25 Гб (сжатый)
Количество записей: 330K изображений, 80 категорий объектов, 5 подписей на изображение, 250,000 человек с ключевыми точками.


ImageNet представляет собой набор изображений, которые организованы в соответствии с иерархией WordNet. WordNet содержит около 100 000 фраз, а ImageNet предоставляет в среднем около 1000 изображений для иллюстрации каждой фразы.

Размер: ~150 Гб
Количество записей: общее количество изображений: ~ 1 500 000; каждое с несколькими ограничивающими прямоугольниками и соответствующими метками классов


Open Images - это набор данных из почти 9 миллионов URL-адресов для изображений. Эти изображения были снабжены аннотациями, охватывающими тысячи классов. Набор данных содержит обучающий набор из 9 011 219 изображений, набор для проверки из 41 260 изображений и тестовый набор из 125 436 изображений.

Размер: 500 ГБ (сжатый)
Количество записей: 9 011 219 изображений с более чем 5k метками


VQA - это набор данных, содержащий открытые вопросы об изображениях. Эти вопросы требуют понимания видения и языка. Некоторые из интересных особенностей этого набора данных:

265 016 изображений (COCO и абстрактные сцены);
Как минимум 3 вопроса (5,4 вопроса в среднем) на изображение;
10 основополагающих ответов на каждый вопрос;
3 вероятных (но, вероятно, неправильных) ответа на вопрос;
Автоматическая оценка метрики.

Размер: 25 Гб (сжатый)

Количество записей: 265 016 изображений, не менее 3 вопросов на изображение, 10 основополагающих ответов на каждый вопрос.


Это набор реальных изображений для разработки алгоритмов обнаружения объектов. Он требует минимальной предварительной обработки данных. Он похож на набор данных MNIST, упомянутый в этом списке, но содержит лучше помеченные данные (более 600 000 изображений). Данные были собраны из номеров домов, просмотренных в Google Street View.

Размер: 2,5 Гб

Количество записей: 630420 изображений в 10 классах


Этот еще один набор данных для классификации изображений. Он состоит из 60000 изображений 10 классов (каждый класс представлен в виде строки на изображении выше). Всего имеется 50 000 обучающих изображений и 10 000 тестовых изображений. Набор данных разделен на 6 частей - 5 обучающих сетов и 1 тестовый. Каждый сет включает 10000 изображений.

Размер: 170 Мб
Количество записей: 60000 изображений в 10 классах


Fashion-MNIST состоит из 60000 обучающих и 10000 тестовых изображений. Это MNIST-подобная база данных модных продуктов. Разработчики считают, что MNIST использовался чрезмерно часто, поэтому они создали его как прямую замену этого набора данных. Каждое изображение в оттенках серого и связано с меткой из 10 классов.

Размер: 30 Мб
Количество записей: 70000 изображений в 10 классах

Обработка естественного языка


Это набор данных мечты для любителей кино. Он предназначен для бинарной классификации настроений и содержит гораздо больше данных, чем любые предыдущие наборы данных в этом поле. Помимо примеров учебных и тестовых обзоров, имеются также немаркированные данные для использования. Также были включены необработанный текст и предварительно обработанные пакеты форматов слов.

Размер: 80 Мб
Количество записей: 25 000 обзоров фильмов для обучения и 25 000 для тестирования


Этот набор данных, как следует из названия, содержит информацию о группах новостей. Чтобы собрать этот набор данных, были взяты 1000 статей Usenet  из 20 различных групп новостей. Статьи имеют типичные особенности, такие как сюжетные линии, подписи и цитаты.

Размер: 20 Мб
Количество записей: 20 000 сообщений, взятых из 20 групп новостей.


Sentiment140 - это набор данных, который можно использовать для анализа настроений. Популярный набор данных, он идеально подходит для начала вашего путешествия по НЛП. Эмоции были предварительно удалены из данных. Окончательный набор данных имеет следующие 6 функций:

полярность твита;
идентификатор твита;
дата твита;
запрос;
имя пользователя твитера;
текст твита.

Размер: 80 Мб (сжатый)
Количество записей: 160000 твитов


Упомянутый в наборе данных ImageNet выше, WordNet представляет собой большую базу данных английских синтаксисов. Synsets - это группы синонимов, каждый из которых описывает свою концепцию. Структура WordNet делает его очень полезным инструментом для НЛП.

Размер: 10 Мб
Количество записей: 117 000 наборов связаны с другими наборами посредством небольшого числа "концептуальных отношений".


Это открытый набор данных, выпущенный Yelp для учебных целей. Он состоит из миллионов отзывов пользователей, атрибутов бизнеса и более 200 000 фотографий из нескольких мегаполисов. Это очень часто используемый набор данных для задач НЛП во всем мире.

Размер: 2,66 Гб JSON, 2,9 ГБ SQL и 7,5 Гб фотографий  (все сжатые)
Количество записей: 5 200 000 обзоров, 174 000 бизнес-атрибутов, 200 000 фотографий и 11 мегаполисов


Этот набор данных представляет собой коллекцию полного текста Википедии. Он содержит почти 1,9 миллиарда слов из более чем 4 миллионов статей. 

Размер: 20 Мб
Количество записей: 4 400 000 статей, содержащих 1,9 млрд. слов


Этот набор данных состоит из сообщений блогов, собранных тысячами блоггеров с blogger.com. Каждый блог представлен отдельным файлом. Каждый блог содержит минимум 200 вхождений часто используемых английских слов.

Размер: 300 МБ
Количество записей: 681 288 сообщений, более 140 миллионов слов


Этот набор состоит из обучающих данных для четырех европейских языков. Задача здесь состоит в том, чтобы улучшить существующие методы перевода. Вы можете участвовать в любой из следующих языковых пар:

Французско-английский
Испанский английский
Немецко-Английский
Чешско-английский

Размер: ~ 15 Гб
Количество записей: ~ 30 000 000 предложений и их переводы.

Наборы данных аудио/речи


Еще одна запись в этом списке для вдохновленных набором данных MNIST! Этот был создан для решения задачи идентификации произносимых цифр в аудиосэмплах. Это открытый набор данных, поэтому есть надежда, что он будет расти, так как люди продолжают вносить больше образцов. В настоящее время он содержит следующие характеристики:

3 спикера
1500 записей (по 50 на каждую цифру на каждого спикера)
Английское произношение

Размер: 10 МБ
Количество записей: 1500 аудио образцов


FMA - это набор данных для анализа музыки. Набор данных состоит из полных записей качества HQ, предварительно вычисленных функций, а также метаданных на уровне дорожки и на уровне пользователя. Это открытый набор данных, созданный для оценки нескольких задач. Ниже приведен список csv-файлов, которые есть в наборе данных:

track.csv: метаданные каждой дорожки, такие как идентификатор, название, исполнитель, жанры, теги и количество воспроизведений, для всех 106 574 дорожек.
genres.csv: все 163 идентификатора жанра с их именем и родителем (используется для определения иерархии жанров и жанров верхнего уровня).
features.csv: общие признаки, извлеченные с помощью librosa.
echonest.csv: аудио функции, предоставляемые Echonest (теперь Spotify) для подмножества из 13 129 треков.

Размер: ~ 1000 ГБ
Количество записей: ~ 100 000 треков


Этот набор данных содержит аудио файлы для бальных танцев. Несколько характерных отрывков многих танцевальных стилей представлены в реальном аудиоформате. Ниже приведены несколько характеристик набора данных:

Общее количество экземпляров: 698
Продолжительность: ~ 30 с
Общая продолжительность: ~ 20940 с

Размер: 14 ГБ (сжатый)
Количество записей: ~ 700 аудиосэмплов


Million Song Dataset - это свободно доступная коллекция аудиофункций и метаданных для миллиона современных популярных музыкальных треков. Его цели:

Стимулировать исследования алгоритмов, которые масштабируются до коммерческих размеров;
Предоставить справочный набор данных для оценки исследований;
Как быстрая альтернатива созданию большого набора данных с API (например, Echo Nest);
Чтобы помочь новым исследователям начать работу в области распозавания.

Ядром набора данных является функция анализа и метаданные для одного миллиона песен. Набор данных не включает в себя аудио, только производные функции. Образец аудио можно получить из таких сервисов, как 7digital, используя код, предоставленный Колумбийским университетом.

Размер: 280 ГБ
Количество записей: это миллион песен!


Этот набор данных представляет собой около 1000 часов английской речи. Данные получены из аудиокниг проекта LibriVox. Они были сегментированы и упорядочены должным образом. Если вы ищете отправную точку, ознакомьтесь с уже подготовленными акустическими моделями, которые обучаются на этом наборе данных на kaldi-asr.org, и языковыми моделями, подходящими для оценки, по адресу http://www.openslr.org/11/. ,

Размер: ~ 60 ГБ
Количество записей: 1000 часов речи


VoxCeleb - это набор данных для идентификации спикеров. Он содержит около 100 000 высказываний 1251 знаменитости, извлеченных из видео YouTube. Данные в основном сбалансированы по полу (мужчины составляют 55%). Знаменитости охватывают разнообразные акценты, профессии и возраст. Не существует дублирования между наборами для разработки и тестирования. 

Размер: 150 МБ
Количество записей: 100 000 высказываний от 1 251 знаменитости

Практические примеры Analytics Vidhya 

Для вашей практики мы также предоставляем реальные проблемы и наборы данных. В этом разделе мы собрали проблемы практики глубокого обучения на нашей платформе DataHack.


Ненавистническая речь в форме расизма и сексизма стала обыденностью в твиттере, и важно отделять подобные твиты от остальных. В этой задаче мы предоставляем данные Twitter, которые содержат как обычные, так и ненавистнические твиты. Ваша задача состоит в том, чтобы идентифицировать твиты, которые являются твитами ненависти.

Размер: 3 МБ
Количество записей: 31 962 твитов


Это увлекательная задача для любого энтузиаста глубокого обучения. Набор данных содержит тысячи изображений индийских актеров, и ваша задача - определить их возраст. Все изображения выбираются вручную и обрезаются из видеокадров, что приводит к высокой степени изменчивости масштаба, позы, выражения, освещенности, возраста, разрешения и макияжа.

Размер: 48 МБ (сжатый)
Количество записей: 19 906 изображений в обучающем наборе и 6636 в тестовом наборе


Этот набор данных состоит из более чем 8000 звуковых фрагментов городских звуков из 10 классов. Эта практическая задача предназначена для того, чтобы познакомить вас с обработкой звука в обычном сценарии классификации.

Размер: обучающий набор - 3 ГБ (сжатый), тестовый набор - 2 ГБ (сжатый)

Количество записей: 8732 помеченных звуковых фрагмента (<= 4 с) городских звуков из 10 классов

Комментариев нет:

Отправка комментария