Sql или python с чего начать

Сравнение Python и SQL для построения конвейеров данных

Дата публикации Feb 16, 2019

Sql или python с чего начать. 0 2075 52822. Sql или python с чего начать фото. Sql или python с чего начать-0 2075 52822. картинка Sql или python с чего начать. картинка 0 2075 52822

Ворвавшись в рабочую силу в качестве веб-разработчика, мое первое взаимодействие с базами данных и SQL было с использованием объектно-реляционной модели (ORM). Я использовал API наборов запросов Django и имел отличный опыт использования интерфейса. После этого я перешел на должность инженера по обработке данных и стал более активно использовать наборы данных для создания ИИ. В мои обязанности входило брать данные из пользовательского приложения и превращать их во что-то, что можно использовать Data Scientists, процесс, широко известный как ETL.

Как гласит история, данные в производственной системе были беспорядочными и требовали значительных преобразований, прежде чем кто-либо смог построить ИИ из этого. Были столбцы JSON, которые имели разные схемы на строку, столбцы содержали смешанные типы данных, а некоторые строки имели ошибочные значения. Кроме того, необходимо рассчитать такие функции, как продолжительность пребывания пользователя в качестве клиента и продолжительность ожидания между посещениями. Разрабатывая функции очистки, агрегирования и разработки данных, я попытался решить, какой язык лучше всего подойдет для этой задачи. Придя с работы, где я использовал Python весь день каждый день, я знал, что он может сделать эту работу. Однако из этого опыта я узнал, что только то, что python может выполнять эту работу, не означает, что она должна.

Первый раз, когда я неверно оценил SQL, я предположил, что SQL не может выполнять сложные преобразования

Мы работаем с набором данных временного ряда, в котором мы хотим отслеживать конкретных пользователей с течением времени. Законы о конфиденциальности не позволяют нам знать конкретные даты посещений пользователей, поэтому мы решили, что мы нормализуем дату записи для первого посещения пользователей (т. Е. Через 5 дней после их первого посещения и т. Д.). Для нашего анализа было важно знать время с момента последнего посещения, а также время с момента их первого посещения. У A было два образца наборов данных: один с приблизительно 7,5 миллионами строк размером 6,5 ГБ, а другой с 550 000 строк размером 900 МБ.

Используя код Python и SQL, показанный ниже, я использовал меньший набор данных, чтобы сначала проверить преобразования. Python и SQL выполнили задачу за 591 и 40,9 секунд соответственно. Это означает, что SQL смог обеспечить ускорение примерно в 14,5 раз!

Это преобразование SQL было не только быстрее, но и более читабельным, и, следовательно, более легким в обслуживании. Здесь я использовал функции lag и first_value, чтобы найти конкретные записи в истории пользователей (называемые разделами). Затем я использовал функцию возраста, чтобы определить разницу во времени между посещениями.

Второй раз, когда я неправильно оценил SQL, я подумал, что он не может сгладить неправильный json

С другой стороны, половина json в моем образце набора данных не является допустимой json и, следовательно, сохраняется в виде текста. В этом случае у меня был выбор, я мог либо перекодировать данные, чтобы сделать их действительными, либо я мог просто отбросить строки, которые не следовали правилам. Для этого я создал новую функцию SQL с именем is_json, которую затем мог бы использовать для определения допустимого json в предложении WHERE.

Эта функция смогла успешно сгладить мой json и довольно легко решить мой худший кошмар.

Существует идиома, которая объявляет Python вторым лучшим языком для выполнения практически любых задач. Я считаю, что это правда, и в некоторых случаях обнаружил, что разница в производительности между Python и «лучшим» языком незначительна. Однако в этом случае python не смог конкурировать с SQL. Эти осознания наряду с чтениями, которые я делал, полностью изменили мой подход к ETL. Сейчас я работаю в парадигме «Не перемещайте данные в код, а перемещайте код в свои данные». Python перемещает ваши данные в код, а SQL действует на месте. Более того, я знаю, что только поцарапал поверхность возможностей sql и postgres. Я с нетерпением жду более удивительной функциональности и возможности получить ускорение благодаря использованию аналитического хранилища.

Источник

Tableau, SQL, Power BI, Python. Почему в этих словах придется разбираться бухгалтеру. И уже в 2020 году

Sql или python с чего начать. a5be1e10ec433e36ec5f7d08163446ff. Sql или python с чего начать фото. Sql или python с чего начать-a5be1e10ec433e36ec5f7d08163446ff. картинка Sql или python с чего начать. картинка a5be1e10ec433e36ec5f7d08163446ff

Если 10 лет назад знания Excel для бухгалтера считались высшим пилотажем, то сейчас, извините, нет.

Бывали на совещаниях, где сидят маркетологи и айтишники? Тоже поражались, откуда они набрались всех этих слов? Никуда не денешься, надо понимать, о каких таких «метриках», на увеличение которых направили бюджет на «охватные кампании в соцсетях», толкуют SMMщик и продакт.

Большинству бухгалтеров и финансистов (если это не финдир Газпрома) названия Tableau, SQL, Power BI, Python кажутся набором букв. Можно подумать, что эти инструменты относятся к компетенции программистов и маркетологов, но никак не бухгалтеров.

Относятся, и еще как.

И мы вместе с Еленой Герасимовой, руководителем факультета «Data Science и аналитика» онлайн-университета «Нетология » рассказываем, почему.

Не хочется, но придется

Раньше никто не жаловался. Все работали в привычном Excel, об инструментах Tableau, SQL, Power BI, Python мало кто знал, но это не отменяло их существование.

Но профессии трансформируются. Рынок труда уходит от мышления профобязанностями к мышлению компетенциями.

«Приходя на курсы, человек обнаруживает, что не соответствует современным определениям профессии из-за незнания новых компетенций», — рассказывает Елена Герасимова.

Кризис дает о себе знать. Компании сокращают штат или отдают работу на аутсорсинг. К оставшимся сотрудникам в штате начинают предъявлять большие требования.

Бухгалтер недоумевает: зачем узнавать новое, если все и так нормально получается в Excel? Да потому что это видимость, что Excel покрывает все потребности финслужбы. А директор, который сходил на модную конференцию про автоматизацию, не преминет об этом сказать.

А когда директор поговорит с молодым специалистом, который не признает привычный Excel, шансов у бухгалтера, работающего по старинке, становится еще меньше. Молодой специалист еще и стоит дешевле.

Вывод один: бухгалтер должен уметь запрашивать (и делать ее понятной руководству) аналитику самостоятельно, не привлекая программистов.

Системы аналитики и визуализации TABLEAU И POWER BI

Визуализация — это самый доступный способ доказать ваше мнение. Ну, все же знаем, что лучше один раз увидеть, чем сто раз прочитать в непонятном управленческом отчете.

И вот как раз Tableau специализируется на анализе данных через визуализацию. В нем легко создавать интерактивные дашборды, которые позволяют изучить динамику, тренды и структуру данных.

Проще говоря — Tableau — отличный инструмент, чтобы показать директору, куда уходят его деньги и как их больше заработать.

Tableau больше подойдет человеку, который готов больше развиваться в визуализации, настраивать свое рабочее окружение и нарабатывать себе портфолио (Tableau позволяет делиться своим публичным профилем эксперта).

Бухгалтеры, которые сегодня начнут изучать визуализацию, уже завтра смогут пройти собеседование в крупные зарубежные компании, чьи офисы есть в России. В любой зарубежной компании «говорят» с помощью визуализации, и требуют от сотрудников знаний на три головы выше, чем в российской компании, где бухгалтер — сугубо сервисная роль.

Power BI— это облачная служба бизнес-аналитики от Microsoft, которая позволяет визуализировать и анализировать данные. Быстро, эффективно и с более высоким уровнем доступности.

Интерфейс был создан, чтобы расширить функционал MS Excel и прокачать его до требований времени.

Плюсы:

В Power BI может разобрать человек с любыми минимальными навыками, особенно тот, кто знает Excel. У систем визуализации есть работающие интеграции с SQL и Python — и не надо ручками ничего выгружать и перекладывать, можно сразу по назначению направлять.

Совет. Если вы работаете на Microsoft, то обучайтесь сразу в Power BI, а не Tableau.

Языки работы с данными SQL И PYTHON

«Эй, „Нетология“, постой, при чем тут программирование? Это же статья для бухгалтеров!», — скажете вы. Погодите, без паники.

Рассказываем, почему самый популярный набор инструментов у аналитиков, это, пожалуй, Python SQL.

SQL— это не язык программирования, хотя и существует такое устоявшееся заблуждение. На самом деле, он больше похож на самую обычную английскую речь и является языком запросов к базам данным — то есть, по сути, таблицам (да, прямо как в Excel — теперь уже не так страшно? :-). Если у вас плохо с английским, не отчаивайтесь.

SQL— мощный инструмент для анализа и преобразования данных, который позволяет обращаться к различным базам данных внутри своей экосистемы. Так вам скажет какой-нибудь айтишник. Но, если честно, все равно ничего не понятно.

Переводим на русский. SQL — это Excel «на стероидах», а обработка таблицы объемов в 100 000 строк для него — обычное дело. Но если еще точнее, то подготовка данных — это к SQL, а дальнейшие преобразования лучше делать в Python.

Например, есть некий набор данных (грубо говоря, табличка Excel). И из этого набора надо выбрать какие-то данные или посчитать итоги по известным критериям. В Excel это делается автофильтрами, автосуммами или можно написать макрос, который сам пролистает строки и нужное посчитает.

Но у Excel возможности ограничены — он плохо подходит для многопользовательской работы и для очень больших объёмов данных.

Здесь можно сделать выборку или базовый подсчёт с помощью SQL-запроса.

Для комфортной работы достаточно выучить около двадцати команд и научиться доставать данные без участия программистов.

И кстати, в SQL есть команды, которые заменяют конструкции из 5-6 сложных функций Excel — например, JOIN, позволяющие одновременно соединять таблицы, делать сводные и отсекать значения по нужным вам критериям (попробуйте сделать то же самое в Excel — намучаетесь с индексами, сложносочиненными ключами и последующей фильтрацией).

Если же нужна глубже зарыться в преобразование данных, можно достать и подготовить все с помощью SQL-запросов, а дальнейшие вычисления предоставить шустрому Python с его готовыми скриптами и библиотеками.

Python— с амый популярный язык программирования для обработки данных. Он хорош для всего, что хочется сделать быстро, но чтобы при этом не пришлось придумывать решение с нуля — в этом бонус входа в сообщества поклонников Python, ведь вашу задачу наверняка уже решил кто-то другой.

«Не нужно забивать микроскопом гвозди, Python дает площадку для лучшего применения профессиональных заслуг человека, которые он приобрел в этой области. Для финансистов и бухгалтеров Python способен сделать огромное количество вещей, которые люди делают сейчас руками», — уверяет Елена Герасимова.

Возьмем, к примеру, трейдинг и фондовые рынки. Это золотые кейсы для Python. Совсем недавно этот вид деятельности был по плечу лишь институциональным инвесторам с миллионными бюджетами, однако сегодня при наличии ноутбука и интернета фактически любой может этим заниматься. Во многом благодаря Python трейдинг стал доступным. Торговать в автоматическом режиме можно почти любыми финансовыми инструментами: акциями, валютами, сырьем или кредитными продуктами.

Благодаря Python можно, к примеру:

Любой человек, который чувствует, что его работу скоро начнут автоматизировать, может смело выбирать Python. Тогда вы будете на несколько ступеней выше по принципу «не можешь победить — возглавь».

«С помощью Python то, что раньше делали три дня в Excel, можно сделать за 6 секунд и это не преувеличение, а слова наших выпускников», — рассказывает Елена.

Так что в итоге?

Финансист будущего — это специалист на стыке финансов и программирования.

С каждым даже не годом, а месяцем работодатели все больше будут ценить тех, кто умеет обращаться с базами данных, доставать оттуда нужные данные и визуализировать их сами, без разработчиков.

А самое главное, что овладев новыми компетенциями, вы всегда будете в выигрыше и не только на своем месте работы. Благодаря аналитике и визуализации развитие финансиста и бухгалтера перестает быть тупиковым. Раньше штатный финансист мог претендовать на финдира, а с новыми ключевыми знаниями в его сфере открывается широкая линейка ролей. Например смело можно идти в сферу аналитики BI.

Не бойтесь учиться. Если не станете программистом, то, как минимум, поймете, что айтишники не небожители и сможете быть более эффективным, говоря с ними на одном языке.

Источник

Почему изучать Python и SQL нужно уже вчера?

Автор: Влас Лёзин, ex-Vice President, Goldman Sachs; преподаватель SF Education

Sql или python с чего начать. transparent. Sql или python с чего начать фото. Sql или python с чего начать-transparent. картинка Sql или python с чего начать. картинка transparent

«Чтобы не остаться без высокооплачиваемой работы в ближайшем будущем» — так звучит ответ на вопрос, если суммировать все, про что мы расскажем ниже. Я думаю, все понимают, что современные технологии постоянно меняют мир вокруг нас, но многие недооценивают их влияние на свою жизнь и окружение.

К сожалению, большинство людей замечают новые технологии, когда уже становится слишком поздно: никто из руководства не будет говорить работникам, что через год их работа станет частью автоматизированного процесса. Работника просто ставят перед фактом, что его услуги больше не нужны компании.

Примерно это произошло в моем нынешнем банке — Wells Fargo, где количество людей, работающих на выдаче автомобильных кредитов, сократили практически в 7 раз, заменив их автоматизированными системами! И большинство других банков переходят или уже перешли на такие же системы, так что навыки людей с огромным опытом остались без спроса.

Находитесь ли вы в непосредственной зоне риска? Посмотрите на следующие вопросы, и если вы ответили положительно на любой из них, то вам нужно действовать прямо сейчас:

Даже если вы думаете, что вы в безопасности, потому что вы много работаете с клиентами/людьми, вы все равно можете пострадать. Мой предыдущий работодатель – Goldman Sachs – смог выдать 4 миллиарда долларов потребительских кредитов исключительно онлайн. Мир финансов, бизнеса и консалтинга меняется с огромной скоростью, и, чтобы оставаться востребованным, нужно меняться вместе с ним.

В каком направлении развиваться? Что наиболее важно сейчас и в ближайшем будущем?

На основе множества академических работ современный процесс можно описать следующим образом:

Sql или python с чего начать. transparent. Sql или python с чего начать фото. Sql или python с чего начать-transparent. картинка Sql или python с чего начать. картинка transparent

Современные технологии разделяют современные вакансии на три типа: по-прежнему необходимые; заменяемые автоматизацией или аутсорс; низкооплачиваемые, низкоквалифицированные, а следовательно, легкозаменяемые.

В качестве примера: если вы работаете бухгалтером в Москве, в основном выполняя рутинные задачи, то вас можно либо заменить бухгалтером из Вологды (современные методы коммуникации помогают это делать практически безболезненно) или автоматизированным процессом.

Причем последний вариант наиболее предпочтителен для компании, ведь компьютер не совершает операционных ошибок, доступен 24 часа в сутки и выполняет работу в десятки раз быстрее!

Соответственно, если вы хотите по-прежнему оставаться востребованными, вам критически важно уметь автоматизировать собственную работу и освобождать время для интеллектуальной деятельности, которую невозможно заменить.

К тому же умение анализировать и работать с данными поможет вам находить решения на основе объективной информации, а не субъективных догадок.

Вы все это понимаете, но считаете, что программирование — это не для вас? Я абсолютно уверен, что знания самого востребованного языка программирования — Python — можно получить за несколько месяцев, а базовые навыки — буквально за пару часов. Не верите?

Запишитесь на бесплатный курс по Python от SF Education, чтобы убедиться в обратном!

Источник

Какой язык программирования выбрать для работы с данными?

Sql или python с чего начать. f4a80cc32816473983c0a77337274331. Sql или python с чего начать фото. Sql или python с чего начать-f4a80cc32816473983c0a77337274331. картинка Sql или python с чего начать. картинка f4a80cc32816473983c0a77337274331

У начинающего специалиста по данным (data scientist) есть возможность выбрать один из множества языков программирования, который поможет ему быстрее освоить данную науку.

Тем не менее, никто точно не скажет вам, какой язык программирования лучше всего подходит для этой цели. Ваш успех как специалиста в данной области будет зависить от множества факторов и сегодня мы постараемся их рассмотреть, а в конце статьи вы сможете проголосовать за тот язык программирования, который вы считаете наиболее подходящим для работы с данными.

Специфичность

Будьте готовы к тому, что по мере углубления в область науки о данных, вам раз за разом прийдется заново «изобретать велосипед». Кроме того, вам необходимо будет в совершенстве овладеть различными пакетами программ и модулями для выбранного вами языка программирования. Насколько хорошо вы сможете все это усвоить, зависит, в первую очередь, от наличия предметно-ориентированных пакетов программ для выбранного ЯП.

Универсальность

Ведущий специалист по данным обладает хорошими всесторонними навыками программирования, а также умением проводить расчеты и анализировать. Большая часть повседневной работы в области науки о данных направлена на поиск и обработку исходных данных или корректировку данных. К сожалению, никакие новороченные пакеты для машинного обучения вам не помогут для данных целей.

Эффективность

В быстро развивающемся мире коммерческой науки о данных есть множество возможностей быстро получить желаемую работу. Тем не менее, именно благодаря быстрому развитию области науки о данных ее постоянно сопровождают технические недароботки, и только упорная практика сможет свести к минимуму такие недочеты.

Производительность

В некоторых случаях очень важно оптимизировать производительность вашего кода, тем более при работе с большими объемами особо важных данных. Однако скомпилированные языки обычно намного быстрее, чем интерпретируемые. Аналогично, статически типизированные языки значительно более отказоустойчивы, чем динамически типизированные. Таким образом, единственным компромиссом является снижение производительности.

В некоторой степени, каждый из представленных ниже языков программирования обладает одним параметром в каждой из двух групп: универсальность — специфичность; производительность — удобство.

Учитывая эти основные принципы, давайте рассмотрим некоторые из наиболее популярных языков программирования, которые используются в науке о данных. Вся информация, о приведенных ниже языках программирования, основывается на моих собственных наблюдениях и опыте, а также опыте моих друзей и коллег.

Sql или python с чего начать. image loader. Sql или python с чего начать фото. Sql или python с чего начать-image loader. картинка Sql или python с чего начать. картинка image loader

R, который является прямым потомком старшего языка программирования S, был выпущен в далеком 1995 году и с тех пор становится все совершеннее. Написанный на таких языках как C и Fortran данный проект сегодня поддерживается Фондом языка R для статистических вычислений (R Foundation for Statistical Computing).

R – мощный язык, который отличается наличием огромного выбора приложений для сбора статистических данных и визуализации данных, а тот факт, что он является ЯП с открытым исходным кодом, позволяет ему собрать большое количество поклонников среди разработчиков. Именно благодаря своей эффективности для первоначальных целей этому языку программирования удалось достичь широкой популярности.

Python

Sql или python с чего начать. image loader. Sql или python с чего начать фото. Sql или python с чего начать-image loader. картинка Sql или python с чего начать. картинка image loader

В 1991 году Гвидо ван Россум представил язык программирования Python. С тех пор этот язык стал чрезвычайно популярным ЯП общего назначения и широко используется в сообществе специалистов по данным. В настоящее время основными версиями являются Python 3,6 и Python 2,7.

Python является хорошим вариантом для целей науки о данных (data science), и это утверждение справедливо как для начального, так и для продвинутого уровней работы в данной области. Большая часть науки о данных сосредоточена вокруг процесса ETL (извлечение-преобразование-загрузка). Эта особенность делает Python идеально подходящим для таких целей языком программирования. Библиотеки, такие как Tensorflow от Google, делают Python очень интересным языком для работы в области машинного обучения.

SQL («язык структурированных запросов») определяет, управляет и запрашивает реляционные базы данных. Язык появился в 1974 году и с тех пор претерпел множество видоизменений, но основные его принципы остаются неизменными.

Есть бесплатные и платные варианты.

SQL более полезен в качестве языка для обработки данных, чем в качестве передового аналитического инструмента. Тем не менее, так много процессов в области науки о данных зависит от ETL, а долговечность и эффективность SQL лишний раз свидетельствуют о том, что такой ЯП должен знать каждый специалист по данным (data scientist).

Sql или python с чего начать. 38dea7eb99e848f19ae3558ec29c9d4d. Sql или python с чего начать фото. Sql или python с чего начать-38dea7eb99e848f19ae3558ec29c9d4d. картинка Sql или python с чего начать. картинка 38dea7eb99e848f19ae3558ec29c9d4d

Java – это чрезвычайно популярный язык общего назначения, который работает на виртуальной машине Java Virtual Machine (JVM). Это абстрактная вычислительная система, которая обеспечивает плавную переносимость между платформами. В настоящее время поддерживается корпорацией Oracle.

8-я версия – бесплатная

Много чего можно сказать в пользу изучения Java как языка для работы в области науки о данных. Многие компании оценят возможность беспрепятственной интеграции готового кода программного продукта в собственную кодовую базу, а производительность и типобезопасность Java являются его неоспоримыми преимуществами. Тем не менее, к недостаткам такого языка можно отнести тот факт, что у него отсутствуют наборы специфических пакетов, которые доступны для других языков. Несмотря на такой недостаток, Java является языком программирования, которому обязательно стоит уделить внимание, особенно если вы уже знаете R или Python.

Scala

Sql или python с чего начать. image loader. Sql или python с чего начать фото. Sql или python с чего начать-image loader. картинка Sql или python с чего начать. картинка image loader

Функционирующий на JVM язык программирования Scala был разработан Мартином Одерски в 2004 году. Это язык с несколькими парадигмами, позволяющий использовать как объектно-ориентированные, так и функциональные подходы. Кроме того, структура кластерных вычислений Apache Spark написана на Scala.

Julia

Sql или python с чего начать. image loader. Sql или python с чего начать фото. Sql или python с чего начать-image loader. картинка Sql или python с чего начать. картинка image loader

Выпущенный чуть более 5 лет назад, Julia произвела впечатление на мир вычислительных методов. Язык добился такой популярности благодаря тому, что несколько крупных организаций, включая некоторые в финансовой отрасли, почти сразу начали использовать его для своих целей.

Да, главная проблема языка Julia – это его молодость, однако его нельзя за это винить. Поскольку Julia был создан лишь недавно, он пока что не может конкурировать со своими основными конкурентами, Python и R. Будьте терпеливыми и вы поймете, что существует множество причин обратить пристальное внимание на этот язык, который, непременно, сделает выдающиеся шаги в ближайшем будущем.

MATLAB

Sql или python с чего начать. image loader. Sql или python с чего начать фото. Sql или python с чего начать-image loader. картинка Sql или python с чего начать. картинка image loader

MATLAB – это признанный язык для численных расчетов, используемый как в научных целях, так и в индустрии. Он был разработан и лицензирован MathWorks, компанией, созданной в 1984 году, основной целью которой являлось коммерциализация программного обеспечения.

Цены варьируются в зависимости от выбранного вами варианта языка

Благодаря своему широкому использованию в различных количественных вычислениях как для научных целей, так и для целей индустрии, MATLAB стал достойным вариантом для применения в области науки о данных. Он прийдется вам как нельзя кстати, если для ваших ежедневных целей необходима интенсивная, продвинутая математическая функциональность, собственно, для чего MATLAB и был разработан.

Другие языки

Существуют и другие популярные ЯП, которые могут представлять интерес для специалистов по данным. В этом разделе представлен их краткий обзор.

Зачастую, C++ не используется в области науки о данных. Тем не менее, он имеет молниеносную производительность и широкую популярность. Главной причиной, по которой C++ не обрел популярности в области науки о данных, является его неэффективность для такой цели.

Как написал один из участников форума:
«Предположим, что вы пишете код для проведения какого-либо специального анализа, который, вероятно, будет запускаться только один раз. Так вот, вы предпочли бы потратить 30 минут на создание программы, которая будет работать в течение 10 секунд или потратить 10 минут на программу, которая будет работать в течение 1 минуты?»

И этот парень прав! Тем не менее, C++ станет отличным выбором для реализации алгоритмов машинного обучения, оптимизированных на низком уровне.

Наш вердикт – не лучший выбор для повседневной работы, но если дело касается производительности.

JavaScript

Ввиду того, что за последние несколько лет платформа Node.js активно развивалась, язык программирования JavaScript все больше и больше обретал черты серверного языка. Однако его возможности в области науки о данных и машинного обучения на сегодняшний день достаточно скромны (тем не менее, не стоит забывать про brain.js и synaptic.js!). К недостаткам JavaScript можно отнести:

Наш вердикт – предстоит еще много чего сделать, для того чтобы JavaScript считался достойным языком для работы в области науки о данных

Это немного удивительно, учитывая его применение в областях, в которых используются методы количественного анализа, например в биоинформатике. Что касается науки о данных, то у Perl есть несколько недостатков: у него не получится быстро стать популярным в данной области, а его синтаксис считается недружелюбным. Кроме того, со стороны его разработчиков не наблюдается никаких попыток создания библиотек, которые могли бы быть использованы в области науки о данных. А как мы с вами знаем: зачастую все решают правильные действия в подходящий момент.

Наш вердикт – полезный язык сценариев общего назначения, но с его помощью вам уж точно не устроится на работу специалиста по данным.

Ruby – это еще один динамически типизированный интерпретируемый язык общего назначения. Тем не менее, похоже, что у его создателей нет никакого желания сделать его пригодным для работы в области науки о данных, как в случае с Python.

Это может показаться странным, но все вышеуказанное так или иначе связано с доминирующим положением Python в области научных исследований, а также с положительными отзывами людей, пишущих на этом языке. Чем больше людей выбирают Python, тем больше разрабатывается для него модулей и фреймворков, и тем больше программистов отдают свое предпочтение Python. Проект SciRuby был создан для того, чтобы внедрить в Ruby функциональность научных вычислений, например, матричной алгебры. Но, несмотря на все эти потуги, Python на данный момент по-прежнему лидирует.

Наш вердикт – не совсем правильный выбор для науки о данных, но в вашем резюме знание Ruby не помешает

Заключение

Ну вот мы с вами и рассмотрели короткое руководство по языкам программирования, которые ближе всего подступили к области науки о данных. Важным моментом здесь является понимание того, что вам больше нужно: специфичность или универсальность языка, его удобство или эффективность.

Я регулярно использую R, Python и SQL, так как моя текущая работа в основном сосредоточена на разработке существующих конвейеров данных и ETL-процессов. Эти языки совмещают правильный баланс общности и эффективности для выполнения этой работы с возможностью использования более совершенных статистических пакетов R, когда это необходимо.

Однако, возможно, вы уже неплохо набили руку в Java, или вам не терпится испробовать в действии Scala для работы с большими данными, или, может быть, вы без ума от проекта Julia.

А может вы зубрили MATLAB на парах в институте или не прочь дать SciRuby шанс показать себя? Да у вас могут быть сотни разных причин! Если так, то оставьте свой комментарий внизу – ведь для нас действительно важно знать мнение каждого из вас!

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *