Содержание
- 1
- 2 Ряд вопросов для собеседования по науке о данных, на которые следует обратить внимание при приеме на работу
- 2.0.1 1. Что такое наука о данных?
- 2.0.2 2. Что отличает науку о данных от анализа данных?
- 2.0.3 3. Что такое собственные векторы и собственные значения?
- 2.0.4 4. Когда выполняется повторная выборка?
- 2.0.5 5. Что вы понимаете под несбалансированными данными?
- 2.0.6 6. Что вы понимаете под предвзятостью выжившего?
- 2.0.7 7. Определите смешанные переменные.
- 2.0.8 8. Дайте определение и объясните систематическую ошибку отбора?
- 2.0.9 9. В чем разница между тестовым набором и проверочным набором?
Ряд вопросов для собеседования по науке о данных, на которые следует обратить внимание при приеме на работу
Наука о данных — это междисциплинарная область, которая извлекает необработанные данные, анализирует их и обнаруживает закономерности, из которых можно извлечь полезную информацию. Ключевые технологии науки о данных включают статистику, информатику, машинное обучение, глубокое обучениеанализ данных и визуализация данных.
1. Что такое наука о данных?
Наука о данных — это междисциплинарная область, состоящая из нескольких научных методов, инструментов, алгоритмыи стратегии машинного обучения с целью извлечения шаблонов и полезных знаний из исходных исходных данных.
2. Что отличает науку о данных от анализа данных?
Наука о данных — это процесс преобразования данных с использованием различных подходов к техническому анализу с целью получения проницательных выводов, которые аналитик данных может впоследствии применить к различным бизнес-контекстам.
Чтобы сделать принятие бизнес-решений более эффективным и действенным, аналитика данных связана с анализом уже существующей информации и теорий.
3. Что такое собственные векторы и собственные значения?
Векторы-столбцы или единичные векторы с длиной/величиной 1 известны как собственные векторы. Также известны как правильные векторы. Когда собственные значения применяются к собственным векторам, векторам назначаются разные длины или величины.
Разложение по собственным числам — это процесс разбиения матрицы на собственные значения и собственные векторы. Впоследствии они включаются в методы машинного обучения, такие как PCA (анализ основных компонентов), чтобы извлекать полезную информацию из предоставленной матрицы.
4. Когда выполняется повторная выборка?
Повторная выборка — это метод выборки данных, который используется для повышения точности и количественной оценки неопределенности параметров совокупности. Это делается для того, чтобы убедиться, что модель адекватна, путем обучения ее различным шаблонам наборов данных, чтобы убедиться, что вариации обрабатываются. Кроме того, это делается при выполнении тестов при изменении меток точек данных или когда необходимо проверить модели с использованием случайных подмножеств.
5. Что вы понимаете под несбалансированными данными?
Говорят, что данные сильно несбалансированы, если они неравномерно распределены по нескольким категориям. Из-за этих наборов данных производительность модели неточна и ошибочна.
6. Что вы понимаете под предвзятостью выжившего?
Это предубеждение относится к нелогичной ошибке концентрации на элементах, которые выдержали некоторые процессы, и игнорировании тех, которые потерпели неудачу, потому что им не уделялось должного внимания. Результатом этой предвзятости могут быть неверные суждения.
7. Определите смешанные переменные.
Вмешивающиеся факторы иногда называют вмешивающимися переменными. Эти переменные представляют собой особую категорию вспомогательных переменных, которые влияют как на независимые, так и на зависимые переменные, что приводит к ошибочным математическим отношениям между переменными, которые коррелируют, но не связаны друг с другом случайно.
8. Дайте определение и объясните систематическую ошибку отбора?
Предвзятость выбора возникает, когда исследователь должен решить, какой предмет исследовать. Систематическая ошибка отбора возникает, когда участники исследования выбираются неслучайным образом. Смещение отбора часто называют эффектом отбора. Систематическая ошибка отбора является результатом процедуры отбора проб.
9. В чем разница между тестовым набором и проверочным набором?
Производительность обученной модели проверяется или оценивается с помощью набора тестов. Он оценивает способность модели к предсказанию.
Набор для обучения включает в себя набор для проверки, который используется для выбора параметров для предотвращения переобучения модели.
Пост «Вопросы для подготовки к собеседованию по науке о данных» впервые появился в Analytics Insight.