24 дек. 2018 г.

Data Analyst VS Data Scientist VS Data Engineer

Эти 3 роли во много пересекаются и не всегда очевидно как они связаны с Machine Learning и чем отличаются друг от друга?
Итак, модели для машинного обучения довольно сложно строить без базового понимания принципов обработки и сэмплинга сырых и/или больших наборов данных. Большинство отличий между ролями в том, какую часть работы они выполняют для получения конечного результата. Результатом может быть не один найденный ответ на какой-то бизнес вопрос, но и процесс непрерывано обрабатывающий данные.
Data Analyst - находит в данных новые ответы и смыслы, и доносит эти смыслы до бизнеса, визуализируя найденное (еще проще "делает правильные запросы к хранилищу данных" и "рисует графики").
Data Scientist - анализирует данные и моделирует системы использую статические методы и машинное обучение. Этот "парень" умеет в SQL, R, Python (еще проще "умеет machine learning").
Data Engineer - создает и поддерживает системы обработки данных больших и/или не структурированных данных. Это такой админ / devops, который умеет построить pipeline на правильных инструментах. Часто он делает возможной работу Data Analyst и Data Scientist, решая задачи по получению, обработке, очистке и нормализации, хранению данных, в виде пригодном для анализа.

24 окт. 2018 г.

DigitalOcean Managed Databases

DigitalOcean запускает Managed Databases. Пока только PostgreSQL, но позднее будет еще и MySQL. Решение называется DBaaS - DB as service по аналогии с PaaS.
Набор функций похож на GCP CloudSQL:

  • кластеризация
  • много баз внутри одного кластера
  • дублирование кластера (для быстрой настройки стейджей, например)
  • автоматизированная отказоустойчивость
  • объелинение соединений в пул
  • автоматизированные бэкапы
  • one-click обновление до новой версии СУБД
  • горизонтальное масштабирование для чтения
  • легкое переключение и перенос между ДЦ
  • шифрование на диске и при передаче по сети
  • модный мониторинг
Предполагается, что DigitalOcean будет дешевле аналогов, но убедится в этом пока нельзя. По скриншоту также можно предположить, что для кластера можно будет выбирать мощность узлов (CPU, RAM, HDD, etc).
У DigitalOcean есть Cloud амбиции. Недавно был анонс запуска поддержки kubernetes, теперь вот DBaaS.

8 окт. 2018 г.

Находки недели [5].

Я пропустил выпуск прошлой недели из-за своего дня рождения, поэтому далее ссылки за 2 недели.

Python

  1. Getting Started With Python inside PostgreSQL.
  2. Create your chatbot using Python NLTK.
  3. What is Public Key Cryptography?
  4. The mystery behind del() and why it works.
  5. Understanding Regression Error Metrics.
  6. Making an Unlimited Number of Requests with Python aiohttp + pypeln.
  7. Python Open Source of the Month (v.Sep 2018).
  8. Multiprocessing using Python 3.7.

ML

GCP

  1. 7 best practices for operating containers.
  2. Cloud Source Repositories + GitLab.
  3. Announcing updates to Cloud Speech-to-Text and the general availability of Cloud Text-to-Speech.
  4. Introducing headless Chrome support in Cloud Functions and App Engine.
  5. Introducing new Cloud Source Repositories.

Other

  1. Cloud Native Computing Foundation Receives $9 Million Cloud Credit Grant from Google Cloud to Fund Kubernetes Development, Empower Community.
  2. 50+ Data Structure and Algorithms Interview Questions for Programmers.
  3. Unleashing the Power of Redis.
  4. Google just gave control over data center cooling to an AI.
  5. How being open about your financials can help grow your reader-funded publication.
  6. Think your startup idea will work? Run a premortem for the best chance at success.