24 дек. 2018 г.

Data Analyst VS Data Scientist VS Data Engineer

Эти 3 роли во много пересекаются и не всегда очевидно как они связаны с Machine Learning и чем отличаются друг от друга?
Итак, модели для машинного обучения довольно сложно строить без базового понимания принципов обработки и сэмплинга сырых и/или больших наборов данных. Большинство отличий между ролями в том, какую часть работы они выполняют для получения конечного результата. Результатом может быть не один найденный ответ на какой-то бизнес вопрос, но и процесс непрерывано обрабатывающий данные.
Data Analyst - находит в данных новые ответы и смыслы, и доносит эти смыслы до бизнеса, визуализируя найденное (еще проще "делает правильные запросы к хранилищу данных" и "рисует графики").
Data Scientist - анализирует данные и моделирует системы использую статические методы и машинное обучение. Этот "парень" умеет в SQL, R, Python (еще проще "умеет machine learning").
Data Engineer - создает и поддерживает системы обработки данных больших и/или не структурированных данных. Это такой админ / devops, который умеет построить pipeline на правильных инструментах. Часто он делает возможной работу Data Analyst и Data Scientist, решая задачи по получению, обработке, очистке и нормализации, хранению данных, в виде пригодном для анализа.

24 окт. 2018 г.

DigitalOcean Managed Databases

DigitalOcean запускает Managed Databases. Пока только PostgreSQL, но позднее будет еще и MySQL. Решение называется DBaaS - DB as service по аналогии с PaaS.
Набор функций похож на GCP CloudSQL:

  • кластеризация
  • много баз внутри одного кластера
  • дублирование кластера (для быстрой настройки стейджей, например)
  • автоматизированная отказоустойчивость
  • объелинение соединений в пул
  • автоматизированные бэкапы
  • one-click обновление до новой версии СУБД
  • горизонтальное масштабирование для чтения
  • легкое переключение и перенос между ДЦ
  • шифрование на диске и при передаче по сети
  • модный мониторинг
Предполагается, что DigitalOcean будет дешевле аналогов, но убедится в этом пока нельзя. По скриншоту также можно предположить, что для кластера можно будет выбирать мощность узлов (CPU, RAM, HDD, etc).
У DigitalOcean есть Cloud амбиции. Недавно был анонс запуска поддержки kubernetes, теперь вот DBaaS.

8 окт. 2018 г.

Находки недели [5].

Я пропустил выпуск прошлой недели из-за своего дня рождения, поэтому далее ссылки за 2 недели.

Python

  1. Getting Started With Python inside PostgreSQL.
  2. Create your chatbot using Python NLTK.
  3. What is Public Key Cryptography?
  4. The mystery behind del() and why it works.
  5. Understanding Regression Error Metrics.
  6. Making an Unlimited Number of Requests with Python aiohttp + pypeln.
  7. Python Open Source of the Month (v.Sep 2018).
  8. Multiprocessing using Python 3.7.

ML

GCP

  1. 7 best practices for operating containers.
  2. Cloud Source Repositories + GitLab.
  3. Announcing updates to Cloud Speech-to-Text and the general availability of Cloud Text-to-Speech.
  4. Introducing headless Chrome support in Cloud Functions and App Engine.
  5. Introducing new Cloud Source Repositories.

Other

  1. Cloud Native Computing Foundation Receives $9 Million Cloud Credit Grant from Google Cloud to Fund Kubernetes Development, Empower Community.
  2. 50+ Data Structure and Algorithms Interview Questions for Programmers.
  3. Unleashing the Power of Redis.
  4. Google just gave control over data center cooling to an AI.
  5. How being open about your financials can help grow your reader-funded publication.
  6. Think your startup idea will work? Run a premortem for the best chance at success.

24 сент. 2018 г.

Находки недели [4].


Python

  1. How to Shoot Yourself in the Foot with Python. Common pitfalls and misunderstandings.
  2. OpenCV OCR and text recognition with Tesseract. Как использовать OpenCV OCR (и Tesseract) для распознавания текстов.
  3. Managing Python Processes with PM2.
  4. Xonsh - кросс-платформенная shell на python.
  5. Python Library To Run Quantopian Algorithm In Live. Статья с код-примерами и кучищей полезных ссылок внутри.
  6. Running Flask on Kubernetes.
  7. Absolute vs Relative Imports in Python.
  8. trio-asyncio. Asyncio использующий Trio.

GCP

  1. Using GPUs for Training Models in the Cloud. Как запросить машинку с GPU? В документации обновления про это и даже про новую Tesla V100 GPUs.
  2. Automatic documentation for your Cloud Endpoints API, now in GA. Супер фича вышла из беты.
  3. GCP arrives in the Nordics with a new region in Finland. Возможно это самый северный cloud DC в Европе.

AWS

Other

На этот раз деление на категории для некоторых ссылок весьма условное - в other полно python и ML. Пусть деление будет по принципу главенства кода над объяснениями для Python-категории.

16 сент. 2018 г.

Находки недели [3].

Python / ML

  1. Analyzing a photographer's flickr stream using pandas.
  2. Deep Learning Tutorial to Calculate the Screen Time of Actors in any Video (with Python codes).
  3. Google's Python Class.

GCP

  1. superQuery - BigQuery AI optimization engine.
    Расширение для Chrome, добавляющее редактору запросов в BigQuery разные крутые оптимизации, подсветку индекса и прочее. Автор называет расширение - мощной IDE с искусственным интеллектом (сайт автора).

AWS

  1. A Beginner’s guide to the new AWS Python SDK for Alexa.

Other

  1. Developer Salaries in 2018: Updating the Stack Overflow Salary Calculator.
    Stack Overflow запустил инструмент для сравнения зарплат программистов в 2018 году. Данные собираются через опрос девелоперов. https://stackoverflow.com/jobs/salary.
  2. JetBrains запустили marketplace для продажи плагинов, а Яндекс только анонсировал вместе с запуском cloud сервиса marketplace облачных решений (срок осень 2018).

10 сент. 2018 г.

Находки недели [2].

Python

  1. CheckIO запустили отдельный сайт остров лорда Эшера https://escher.checkio.org/.Если кто-то вдруг не в курсе, CheckIO - супер проект для практики решения кодинг-задач на Python или JavaScript.
  2. Tools for Working with Excel and Python.
    Статья-сравнение библиотек для работы с Excel-таблицами из Python.
  3. Better PostgreSQL testing with Python: announcing pytest-pgsql and pgmock
    Как тестировать моками таблиц с pgmock?
  4. Netherlands eScience Center Python coding guide.
  5. 50 times faster data loading for Pandas: no problem.
  6. Semantic segmentation with OpenCV and deep learning.
  7. The State of Developer Ecosystem Survey in 2018.
  8. Profiling Python Memory Leaks with Doctor Thread.
  9. Learning Python for Social Scientists.

ML

  1. Linear Regression Using Least Squares.
  2. Visualising Financial Data - Returns, Volatilties and Value at Risk.
  3. Feature Transformation for Machine Learning, a Beginners Guide.

GCP

  1. Introducing App Engine Second Generation runtimes and Python 3.7.
  2. Binary Authorization for Google Kubernetes Engine.

Other

  1. 16 Mini-Lessons for Startup Founders.
  2. The power of culture: how to hire and attract amazing people.
  3. Is the Lean Startup Dead?

2 сент. 2018 г.

Находки недели [1].

Python

Видео с PyCon Australia 2018.

DOOM-like шутер на python - DUGA.

GitHub sclack - консольный клиент для мессенджера slack.

Серия видео о создании эмулятора Game boy на python.

Python Pandas: Tricks & Features You May Not Know.
Статья о не очень популярных но полезных возможностях Pandas.

50 free Machine Learning datasets: Sentiment Analysis.

Docker

How to use ‘Tensorflow Serving’ docker container for model testing and deployment и Machine learning environment setup within 10min!!!
Описание docker контейнеров, Tensorflow и короткое walk-through по их использованию.

How to delete Docker containers from the command line.
Пост о том что делать если твой docker не умеет docker prune и в твоем brew нельзя поставить docker-clean.

Build a CI/CD Pipeline with Docker and GitLab.
Walk-through по настройке сабж.

Google Cloud Platform

Google Cloud for Startups.
Оказывается Google дает не только $300 для пробы GCP для всех, но и от $2000 до $100000 для старпатов. Да, там много условий, но если у вас стартап, почему нет?

Все видео с Cloud Next 2018 разбитые по темам.

Istio reaches 1.0: ready for prod on GCP.
Istio - Open Source решение для управления миркросервисами (о нем уже писали на Хабре).

Прочее

Google Translate поет: