Как стать автором
Обновить
102.68

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

Рейтинг языков программирования 2023. JavaScript/TypeScript завоевывают мир, Python вошел в топ-3

Время на прочтение 4 мин
Количество просмотров 163K

Представляем результаты ежегодного опроса, данные и скрипты обработки можно найти на GitHub.

В конце статьи будет локальный опрос пользователей Хабр.

Поехали!
Всего голосов 58: ↑56 и ↓2 +54
Комментарии 115

Нормально разбираемся в Нормальном распределении

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 31K

Интуитивное понимание Нормального распределения

Читать далее
Всего голосов 53: ↑51 и ↓2 +49
Комментарии 14

Сам себе Росстат

Уровень сложности Средний
Время на прочтение 4 мин
Количество просмотров 3.5K

Начало тут

Руководящие документы по организации первичной медико-социальной помощи населению предписывают проводить сравнительный анализ численности населения по территориальным участкам (норматив численности населения на терапевтическом участке - 1700 взрослых, на педиатрическом участке - 800 детей, на акушерско-гинекологическом участке - 3300 женщин в возрасте 15 лет и старше и т.д.) .

Оценку численности населения по субъектам РФ Росстат публикует ежегодно на 1 января текущего года. Для крупных городов территории обслуживания населения медицинскими организациями часто не совпадают с адресно административным делением и распределение населения по зонам ответственности медицинской организации становится скорее творчеством нежели технологической процедурой. Вопрос как декомпозировать данные из бюллетеня Росстата до медицинского участка для меня остается нерешенным.

Мы пойдем другим путем. Данные о населении мы можем получить из медицинской информационной системы (МИС). База МИС обогащается на регулярной основе данными страховых компаний о застрахованных лицах по программе обязательного медицинского страхования (ОМС).

Для работы нам понадобится обезличенная выгрузка из МИС, содержащая данные по пациентам: пол, дату рождения, адрес регистрации, адрес фактического места жительства, данные медицинской организации и номера участка по терапевтическому или педиатрическому профилю. Я загрузил ее в pandas.dataframe.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 10

Проверяем ветхозаветную историю происхождения человечества от Адама и Евы с помощью популяционной модели

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 12K

Помню, как несколько лет назад сидел на последнем ряду аудитории и слушал лекцию по теории эволюции. Тогда мне это было особенно интересно: каждый вечер я штудировал доклады Дробышевского, Соколова, Панчина, Гельфанда и других причастных к Антропогенезу. И в один день преподаватель сердито посмотрела в окно и спросила меня, как долго должны ходить по газону люди, чтобы образовалась тропа.

На этот странный вопрос я ответить не смог, но он меня неожиданно натолкнул на идею для любопытного эксперимента. Зачем изучать тропообразовательный потенциал людей, когда можно построить симуляцию и проверить теологическую теорию о самом происхождении человечества. Мне стало интересно, может ли человечество развиться до 11 млрд со времен Адама и Евы к концу XXI века. О том, что из этого получилось, рассказываю под катом.
Читать дальше →
Всего голосов 65: ↑62 и ↓3 +59
Комментарии 22

Истории

У китайских производителей электроники проблемы: санкции США способны замедлить выпуск чипов в КНР в ближайшие 10 лет

Время на прочтение 4 мин
Количество просмотров 15K
image

Торговая война Поднебесной и США продолжается, стартовав с президентства Трампа, а то и раньше. При этом Китай все время пытается выйти из сложной для себя ситуации, а Штаты вводят новые и новые ограничения.

Одно из них, связанное с «Законом о чипах и науке», способно затормозить развитие полупроводниковой промышленности Китая на ближайшие 10 лет. Давайте посмотрим, в чем тут дело — под катом, как всегда, подробности.
Читать дальше →
Всего голосов 71: ↑63 и ↓8 +55
Комментарии 162

Вы все ещё пользуетесь старым редактором?

Время на прочтение 5 мин
Количество просмотров 15K

Пару недель назад редакция Хабра порадовала нас поддержкой маркдауна в новом редакторе. А заодно рассказала о том, насколько он стал популярен:



80 процентов, да лаадно? Впрочем, это совсем несложно проверить. Давеча я скрапил Хабр для одного интересного расследования и кроме всего прочего заметил в заветном jsonе такое поле:



И оказалось, что с новым редактором все далеко не так просто.

Читать дальше →
Всего голосов 96: ↑96 и ↓0 +96
Комментарии 95

Регрессионный анализ в DataScience. Часть 3. Аппроксимация

Уровень сложности Средний
Время на прочтение 72 мин
Количество просмотров 11K

В предыдущих обзорах (https://habr.com/ru/articles/690414/, https://habr.com/ru/articles/695556/) мы рассматривали линейную регрессию. Пришло время переходить к нелинейным моделями. Однако, прежде чем рассматривать полноценный нелинейный регрессионный анализ, остановимся на аппроксимации зависимостей.

Про аппроксимацию написано так много, что, кажется, и добавить уже нечего. Однако, кое-что добавить попытаемся.

При выполнении анализа данных может возникнуть потребность оперативно построить аналитическую зависимость. Подчеркиваю - речь не идет о полноценном регрессионном анализе со всеми его этапами, проверкой гипотез и т.д., а только лишь о подборе уравнения и оценке ошибки аппроксимации. Например, мы хотим оценить характер зависимости между какими-либо показателями в датасете и принять решение о целесообразности более глубокого исследования. Подобный инструмент предоставляет нам тот же Excel - все мы помним, как добавить линию тренда на точечном графике:

Читать далее
Всего голосов 14: ↑14 и ↓0 +14
Комментарии 17

Как же мощно я провел A/B-тест, или почему не стоит сравнивать наблюдаемый аплифт с MDE

Уровень сложности Средний
Время на прочтение 15 мин
Количество просмотров 9.5K

Всем привет! Меня зовут Рома Смирнов. Я работаю продуктовым аналитиком в Lamoda Tech. Не так давно я столкнулся с необычным взглядом на то, как следует интерпретировать результаты A/B-эксперимента. Он заключается в том, что наблюдаемый аплифт — разницу средних, полученную на основе выборок, — необходимо сравнивать не только с критическим z- или t-значением, но еще и с MDE, минимальным эффектом, который мы ожидаем зафиксировать. Утверждается, что тест следует принимать только в том случае, если наблюдаемый аплифт лежит правее значения MDE.

Кажется, что на занятиях по статистике такому обычно не учат. Я обратился к традиционному источнику информации — Всемирной паутине (web, internet) — и нашел на эту тему хорошую статью болгарского гигачада A/B-тестирования Георгия Георгиева. В ней он приводит несколько аргументов, демонстрирующих несостоятельность описанного выше подхода.

В своей статье я буду использовать аргументы Георгия Георгиева, разбавленные моими мыслями и примерами на эту тему.

Читать далее
Всего голосов 26: ↑26 и ↓0 +26
Комментарии 3

Apache Sedona — как быстро работать с геоданными

Время на прочтение 16 мин
Количество просмотров 3.5K

Привет! В рамках своей работы в beeline tech мы часто взаимодействуем с геоданными. Для решения проблем, связанных с хранением, обработкой и анализом большого объема распределенных пространственных данных, мы используем Apache Sedona (бывший Geospark). Мы — Денис Афанасьев, аналитик больших данных, и Женя Рыбалкин, инженер больших данных, под катом расскажем, почему выбрали именно этот инструмент и что он умеет. А чтобы показать, зачем вообще работать с геоданными, давайте возьмем пример расчета посещаемости хоккейных матчей в Москве, как-никак плей-офф в разгаре.

Давайте по порядку. Почти любой доступный смартфон, умные часы, фитнес-браслеты, оборудование для IoT — всё это может получать и передавать данные о собственном местоположении. Кроме потребительского железа серьезную эволюцию прошёл и интернет вещей в целом, причем как классический IoT для умного дома и других полезностей, так и индустриальный IIoT, заточенный под мониторинг сложных технологических систем, сельское хозяйство, мониторинг окружающей среды и многое другое.

Следствием такого развития, как в количественном, так и в качественном плане, стал ощутимый рост того объёма данных, который все эти устройства генерируют. Ну и что нам с ними делать? Давайте разберемся на примере геоданных!

Зачем вообще кому-то нужны геоданные?

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 15

Худшие курсы по программированию 2023 | Голосование

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 36K

Обучение онлайн стало одним из главных источников знаний для многих будущих специалистов, и существует множество курсов по программированию, которые предлагают обучение с нуля. Однако, к сожалению, не все из них могут похвастаться высоким качеством обучения. В этой статье мы хотим провести голосование среди пользователей habr, чтобы определить самые худшие курсы по программированию 2023 года.

Читать далее
Всего голосов 56: ↑40 и ↓16 +24
Комментарии 64

Не можете измерить — не сможете улучшить: как мы используем метрики в разработке автотестов

Уровень сложности Простой
Время на прочтение 8 мин
Количество просмотров 4.3K

Привет! Меня зовут Александр, я работаю QAA менеджером в компании Wrike, начинал с позиции QAA инженера в далеком 2010-ом и был первым в этой роли. За 12 лет нам удалось построить крутую команду и создать систему контроля качества, которая позволяет быстро и без багов деплоить продуктовый код в продакшен. 

В статье я расскажу три истории из опыта нашей команды, которые наглядно показывают, что без правильно подобранных метрик сложно оценивать и отслеживать изменения в текущих процессах. Статья будет полезна, если вы хотите осознанно и качественно подходить к процессу разработки тестов, контролировать и улучшать этот процесс, используя данные, а также уметь оценивать результаты проведенных экспериментов.

Читать далее
Всего голосов 24: ↑24 и ↓0 +24
Комментарии 13

Описательная статистика перформанс-распределений

Время на прочтение 40 мин
Количество просмотров 12K

Нужна ли разработчику математика? Если анализировать замеры производительности, то матстатистика понадобится. Но оказывается, о ней полезно знать не совсем то, что в учебниках. А что тогда?

Андрей Акиньшин @DreamWalker поговорил об этом в докладе на нашей конференции Heisenbug. И теперь, пока мы готовим следующий Heisenbug (где тоже будут доклады о производительности), решили опубликовать текстовую версию его выступления (а для тех, кому удобнее другие форматы, прикрепляем видеозапись и слайды). Предупреждаем: много букв, цифр, графиков и формул!

Читать далее
Всего голосов 51: ↑51 и ↓0 +51
Комментарии 2

Сходить налево: что делать, если сотрудники фрилансят на рабочем месте

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 13K

Парадоксально, но несмотря на дефицит ИТ-специалистов на рынке, они часто недозагружены задачами. Об этом говорит тот факт, что многие из айтишников регулярно занимаются фрилансом на рабочем месте. В ответ работодатели ставят тайм-трекеры, а это, в свою очередь, отпугивает новых кандидатов.

Хочу поговорить о том, есть ли менее непопулярные методы предотвратить подработку персонала. А еще — когда ее можно не предотвращать, а обратить себе на пользу.

Читать далее
Всего голосов 21: ↑11 и ↓10 +1
Комментарии 54

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн
PG Bootcamp 2024
Дата 16 апреля
Время 09:30 – 21:00
Место
Минск Онлайн
EvaConf 2024
Дата 16 апреля
Время 11:00 – 16:00
Место
Москва Онлайн

Какие профессии выбирают женщины в столице и регионе

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 2.6K

Привет, хабр! Я Алексей, аналитик компании Мегапьютер. Недавно прошел праздник прекрасной половины человечества, и я задумался о женских популярных профессиях.

В настоящее время для женщин нет практически никаких ограничений в выборе профессии, но специфические, такие как программист, крановщик, машинист, выбирают лишь единицы. Многие представительницы прекрасного пола, кажется, до сих пор тяготеют к исконно женским видам деятельности. К ним традиционно относятся следующие профессии: учитель, медсестра, няня, воспитатель детского сада, бухгалтер, секретарь, косметолог, продавец и некоторые другие. Так ли это? Традиционно я решил провести исследование в нашей программе по анализу данных PolyAnalyst.

Анализу подверглись резюме представительниц прекрасного пола столиц и регионов. Аналитики компании загрузили резюме женщин Москвы и Санкт-Петербурга, Иваново и Твери с сайта по поиску работы.

Читать далее
Всего голосов 12: ↑5 и ↓7 -2
Комментарии 14

Женщины, бизнес и бабло в России… и «коня на скаку остановить» и компанию свою открыть

Уровень сложности Средний
Время на прочтение 8 мин
Количество просмотров 1.6K

В данной статье я привожу выдержки из большой статьи “% женщин предпринимателей, обороты, прибыль и налоги по регионам, ОКВЭД и на сотрудника” с кучей таблиц и графиков, где вы можете самостоятельно отсортировать данные по нужной вам колонке, а также посмотреть SQL-запросы.

В статье используются обработанные данные с сайта egrul.itsoft.ru. Оригинальные источники данных указаны на главной странице сайта egrul.itsoft.ru. Данная публикация размещается с одобрения владельцев компании itsoft.ru и ведется от их первого лица (Игорь, спасибо).

Изначально планировалось к 8 марта рассказать про долю женщин в российском бизнесе. Но для вычисления женской доли в оборотах, налогах, регионах, видах деятельности и любых других показателях сначала придётся посчитать общие показатели, поэтому статья получилась местами перенасыщена данными, которые не хочется скрывать. Однако, читатель легко может пропускать не интересующие его разделы.

Из данной статьи вы узнаете количество и доли мужчин и женщин:

Читать далее
Всего голосов 18: ↑10 и ↓8 +2
Комментарии 2

Каким будет SEO в 2023 году: 7 главных трендов

Уровень сложности Средний
Время на прочтение 7 мин
Количество просмотров 10K

Попасть в топ поисковой выдачи сложнее с каждым годом: сайтов становится всё больше, а поисковики умнеют. Некоторые методы, которые работали раньше, постепенно теряют актуальность. В этом материале расскажем, какие тренды в продвижении сайтов наметились на 2023 год, а специалисты из нашей команды дадут свои комментарии.

Читать далее
Всего голосов 16: ↑7 и ↓9 -2
Комментарии 2

Викторианская история больших данных

Время на прочтение 12 мин
Количество просмотров 4K

В весьма впечатлившей меня книге «Информация. История. Теория. Поток» Джеймса Глика, о которой я уже упоминал ранее, страннейшим образом обойдён вопрос о том, как возник феномен «Big Data». В той же книге упоминается первый авторский словарь английского языка, составленный в начале XVII века неким Кодри, а далее развивается идея о том, что феномен концептуализируется в языке после того, как попадает в словарь – в английской культуре таким словарём является оксфордский.

Тогда я попробовал проверить, когда же в английском и русском языке закрепилось понятие «BigData» и, соответственно, «большие данные». Распространено мнение, что выражение «BigData» впервые было употреблено в 2008 году в статье Клиффорда Линча  «Big data: how do your data grow?», опубликованной в журнале «Nature», но даже это небольшое исследование подсказывает, что всё гораздо сложнее.

Читать далее
Всего голосов 37: ↑33 и ↓4 +29
Комментарии 0

Ты мог бы стать спортсменом, если бы родился в другой день. Что такое Relative Age Effect?

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 18K

Что делает перспективного ребенка из местной спортивной секции чемпионом мира по футболу, олимпийским призером или обладателем Кубка Стэнли?

Талант? Упорный труд? Но что если есть и другая причина, о которой мы раньше не слышали. Или не хотели слышать. Что, если она не так мелодична, не так романтична и уж совсем не вписывается в наше представление об истинном успехе?

Читать далее
Всего голосов 70: ↑64 и ↓6 +58
Комментарии 81

Методы анализа A/B тестов: как выбрать правильный метод для каждого типа метрик и размера выборки

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 13K

Все, кто работает с аналитикой и продуктами, знают, что проведение А/Б тестирования — важный шаг для повышения эффективности бизнеса. Однако не всегда понятно, как проводить этот тест и какие статистические методы использовать. В этой статье я постараюсь помочь вам разобраться в этом вопросе. Вместо теоретических рассуждений будут практические советы, как выбирать метрики, как использовать различные статистические методы и примеры кода на Python, которые можно использовать сразу же. Эта статья станет незаменимой шпаргалкой для всех, кто планирует провести А/Б тест, и будет полезной как для новичков, так и для профессионалов.

Читать далее
Всего голосов 5: ↑3 и ↓2 +1
Комментарии 2

АБ-тесты — это не только ценный мех… Но еще и процессы

Время на прочтение 20 мин
Количество просмотров 5.7K

О математических нюансах АБ-тестирования есть много замечательной литературы, но почти нигде нет информации о том, каким образом в компаниях выстраивать сам процесс применения АБ-тестирования. За исключением отдельных отраслей (игры, интернет-коммерция), где уже сформировались зрелые практики.

При этом для офлайн-бизнеса внедрение АБ-тестирования во многом организационная, а не математическая проблема. На практике правильно выстроить бизнес-процесс применения АБ и позиционирования его внутри компании едва ли не сложнее, чем создать правильную статистическую методологию.

В этой статье я поделюсь своим опытом и советами о том, как это сделать.

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Комментарии 2

Вклад авторов