Манси Прия
Сегодня алгоритмы похожи на модные слова. Все стремятся изучить различные виды алгоритмов — логистическую регрессию, случайные леса, решающие деревья, SVM, алгоритмы градиентного бустинга, нейронные сети и т. д. Каждый день создаются новые алгоритмы. Но наука о данных — это не просто применение различных алгоритмов к данным. Перед применением любого алгоритма вы должны понимать свои данные, потому что это поможет вам улучшить производительность ваших алгоритмов в дальнейшем. Для любой проблемы необходимо повторять одни и те же шаги — подготовку данных, планирование модели, построение модели и оценку модели — для повышения точности. Если мы сразу перейдем к построению модели, то окажемся в бесцельном движении после одной итерации. Ниже приведены несколько определенных шагов, на мой взгляд, для подхода к любой проблеме машинного обучения: Первый шаг, который я предлагаю, — это правильно понять свою проблему с хорошим пониманием делового рынка. Нет такого сценария: вот данные, вот алгоритм и бац! Правильное понимание бизнеса поможет вам в обработке данных на следующих этапах. Например, если у вас нет представления о банковской системе, вы не поймете, следует ли включать такую функцию, как доход клиента, или нет. Следующий шаг — собрать соответствующие данные для вашей проблемы. Помимо данных, которые есть у вас внутри компании, вы также должны добавить внешний источник данных. Например, для прогнозирования продаж вы должны понимать рыночный сценарий продаж вашего продукта. ВВП может повлиять на ваши продажи или может повлиять на численность населения. Поэтому соберите такого рода внешние данные. Также помните о том, что любые внешние данные, которые вы используете, должны быть доступны вам в будущем, когда ваша модель будет развернута. Например, если вы используете численность населения в своей модели, в следующем году вы также должны иметь возможность собирать эти данные для получения прогнозов на следующий год. Я видел много людей, которые использовали только свои внутренние данные, не осознавая важности внешних данных для своего набора данных. Но на самом деле внешние функции оказывают хорошее влияние на наш вариант использования. Теперь, когда вы собрали все соответствующие данные для своей проблемы, вы должны разделить их для обучения и тестирования. Многие специалисты по данным следуют правилу 70/30, чтобы разделить данные на две части: обучающий и тестовый набор. В то время как многие следуют правилу 60/20/20, чтобы разделить данные на три части: обучающий набор, тестовый набор и проверочный набор. Я предпочитаю второй вариант, потому что в этом случае вы используете тестовый набор для улучшения своей модели и проверочный набор для окончательной проверки вашей модели в реальном сценарии. с ним. Я работал над проблемой прогнозирования дефолтного кредита. Моя точность составила 78%. Я обратился со своей проблемой к человеку, который занимался финансовыми системами, связанными с кредитами.