Представляем результаты ежегодного опроса, данные и скрипты обработки можно найти на GitHub.
В конце статьи будет локальный опрос пользователей Хабр.
Статистика, исследования, тенденции
Интуитивное понимание Нормального распределения
Руководящие документы по организации первичной медико-социальной помощи населению предписывают проводить сравнительный анализ численности населения по территориальным участкам (норматив численности населения на терапевтическом участке - 1700 взрослых, на педиатрическом участке - 800 детей, на акушерско-гинекологическом участке - 3300 женщин в возрасте 15 лет и старше и т.д.) .
Оценку численности населения по субъектам РФ Росстат публикует ежегодно на 1 января текущего года. Для крупных городов территории обслуживания населения медицинскими организациями часто не совпадают с адресно административным делением и распределение населения по зонам ответственности медицинской организации становится скорее творчеством нежели технологической процедурой. Вопрос как декомпозировать данные из бюллетеня Росстата до медицинского участка для меня остается нерешенным.
Мы пойдем другим путем. Данные о населении мы можем получить из медицинской информационной системы (МИС). База МИС обогащается на регулярной основе данными страховых компаний о застрахованных лицах по программе обязательного медицинского страхования (ОМС).
Для работы нам понадобится обезличенная выгрузка из МИС, содержащая данные по пациентам: пол, дату рождения, адрес регистрации, адрес фактического места жительства, данные медицинской организации и номера участка по терапевтическому или педиатрическому профилю. Я загрузил ее в pandas.dataframe.
Пару недель назад редакция Хабра порадовала нас поддержкой маркдауна в новом редакторе. А заодно рассказала о том, насколько он стал популярен:
80 процентов, да лаадно? Впрочем, это совсем несложно проверить. Давеча я скрапил Хабр для одного интересного расследования и кроме всего прочего заметил в заветном jsonе такое поле:
И оказалось, что с новым редактором все далеко не так просто.
В предыдущих обзорах (https://habr.com/ru/articles/690414/, https://habr.com/ru/articles/695556/) мы рассматривали линейную регрессию. Пришло время переходить к нелинейным моделями. Однако, прежде чем рассматривать полноценный нелинейный регрессионный анализ, остановимся на аппроксимации зависимостей.
Про аппроксимацию написано так много, что, кажется, и добавить уже нечего. Однако, кое-что добавить попытаемся.
При выполнении анализа данных может возникнуть потребность оперативно построить аналитическую зависимость. Подчеркиваю - речь не идет о полноценном регрессионном анализе со всеми его этапами, проверкой гипотез и т.д., а только лишь о подборе уравнения и оценке ошибки аппроксимации. Например, мы хотим оценить характер зависимости между какими-либо показателями в датасете и принять решение о целесообразности более глубокого исследования. Подобный инструмент предоставляет нам тот же Excel - все мы помним, как добавить линию тренда на точечном графике:
Всем привет! Меня зовут Рома Смирнов. Я работаю продуктовым аналитиком в Lamoda Tech. Не так давно я столкнулся с необычным взглядом на то, как следует интерпретировать результаты A/B-эксперимента. Он заключается в том, что наблюдаемый аплифт — разницу средних, полученную на основе выборок, — необходимо сравнивать не только с критическим z- или t-значением, но еще и с MDE, минимальным эффектом, который мы ожидаем зафиксировать. Утверждается, что тест следует принимать только в том случае, если наблюдаемый аплифт лежит правее значения MDE.
Кажется, что на занятиях по статистике такому обычно не учат. Я обратился к традиционному источнику информации — Всемирной паутине (web, internet) — и нашел на эту тему хорошую статью болгарского гигачада A/B-тестирования Георгия Георгиева. В ней он приводит несколько аргументов, демонстрирующих несостоятельность описанного выше подхода.
В своей статье я буду использовать аргументы Георгия Георгиева, разбавленные моими мыслями и примерами на эту тему.
Привет! В рамках своей работы в beeline tech мы часто взаимодействуем с геоданными. Для решения проблем, связанных с хранением, обработкой и анализом большого объема распределенных пространственных данных, мы используем Apache Sedona (бывший Geospark). Мы — Денис Афанасьев, аналитик больших данных, и Женя Рыбалкин, инженер больших данных, под катом расскажем, почему выбрали именно этот инструмент и что он умеет. А чтобы показать, зачем вообще работать с геоданными, давайте возьмем пример расчета посещаемости хоккейных матчей в Москве, как-никак плей-офф в разгаре.
Давайте по порядку. Почти любой доступный смартфон, умные часы, фитнес-браслеты, оборудование для IoT — всё это может получать и передавать данные о собственном местоположении. Кроме потребительского железа серьезную эволюцию прошёл и интернет вещей в целом, причем как классический IoT для умного дома и других полезностей, так и индустриальный IIoT, заточенный под мониторинг сложных технологических систем, сельское хозяйство, мониторинг окружающей среды и многое другое.
Следствием такого развития, как в количественном, так и в качественном плане, стал ощутимый рост того объёма данных, который все эти устройства генерируют. Ну и что нам с ними делать? Давайте разберемся на примере геоданных!
Зачем вообще кому-то нужны геоданные?
Обучение онлайн стало одним из главных источников знаний для многих будущих специалистов, и существует множество курсов по программированию, которые предлагают обучение с нуля. Однако, к сожалению, не все из них могут похвастаться высоким качеством обучения. В этой статье мы хотим провести голосование среди пользователей habr, чтобы определить самые худшие курсы по программированию 2023 года.
Привет! Меня зовут Александр, я работаю QAA менеджером в компании Wrike, начинал с позиции QAA инженера в далеком 2010-ом и был первым в этой роли. За 12 лет нам удалось построить крутую команду и создать систему контроля качества, которая позволяет быстро и без багов деплоить продуктовый код в продакшен.
В статье я расскажу три истории из опыта нашей команды, которые наглядно показывают, что без правильно подобранных метрик сложно оценивать и отслеживать изменения в текущих процессах. Статья будет полезна, если вы хотите осознанно и качественно подходить к процессу разработки тестов, контролировать и улучшать этот процесс, используя данные, а также уметь оценивать результаты проведенных экспериментов.
Нужна ли разработчику математика? Если анализировать замеры производительности, то матстатистика понадобится. Но оказывается, о ней полезно знать не совсем то, что в учебниках. А что тогда?
Андрей Акиньшин @DreamWalker поговорил об этом в докладе на нашей конференции Heisenbug. И теперь, пока мы готовим следующий Heisenbug (где тоже будут доклады о производительности), решили опубликовать текстовую версию его выступления (а для тех, кому удобнее другие форматы, прикрепляем видеозапись и слайды). Предупреждаем: много букв, цифр, графиков и формул!
Парадоксально, но несмотря на дефицит ИТ-специалистов на рынке, они часто недозагружены задачами. Об этом говорит тот факт, что многие из айтишников регулярно занимаются фрилансом на рабочем месте. В ответ работодатели ставят тайм-трекеры, а это, в свою очередь, отпугивает новых кандидатов.
Хочу поговорить о том, есть ли менее непопулярные методы предотвратить подработку персонала. А еще — когда ее можно не предотвращать, а обратить себе на пользу.
Привет, хабр! Я Алексей, аналитик компании Мегапьютер. Недавно прошел праздник прекрасной половины человечества, и я задумался о женских популярных профессиях.
В настоящее время для женщин нет практически никаких ограничений в выборе профессии, но специфические, такие как программист, крановщик, машинист, выбирают лишь единицы. Многие представительницы прекрасного пола, кажется, до сих пор тяготеют к исконно женским видам деятельности. К ним традиционно относятся следующие профессии: учитель, медсестра, няня, воспитатель детского сада, бухгалтер, секретарь, косметолог, продавец и некоторые другие. Так ли это? Традиционно я решил провести исследование в нашей программе по анализу данных PolyAnalyst.
Анализу подверглись резюме представительниц прекрасного пола столиц и регионов. Аналитики компании загрузили резюме женщин Москвы и Санкт-Петербурга, Иваново и Твери с сайта по поиску работы.
В данной статье я привожу выдержки из большой статьи “% женщин предпринимателей, обороты, прибыль и налоги по регионам, ОКВЭД и на сотрудника” с кучей таблиц и графиков, где вы можете самостоятельно отсортировать данные по нужной вам колонке, а также посмотреть SQL-запросы.
В статье используются обработанные данные с сайта egrul.itsoft.ru. Оригинальные источники данных указаны на главной странице сайта egrul.itsoft.ru. Данная публикация размещается с одобрения владельцев компании itsoft.ru и ведется от их первого лица (Игорь, спасибо).
Изначально планировалось к 8 марта рассказать про долю женщин в российском бизнесе. Но для вычисления женской доли в оборотах, налогах, регионах, видах деятельности и любых других показателях сначала придётся посчитать общие показатели, поэтому статья получилась местами перенасыщена данными, которые не хочется скрывать. Однако, читатель легко может пропускать не интересующие его разделы.
Из данной статьи вы узнаете количество и доли мужчин и женщин:
Попасть в топ поисковой выдачи сложнее с каждым годом: сайтов становится всё больше, а поисковики умнеют. Некоторые методы, которые работали раньше, постепенно теряют актуальность. В этом материале расскажем, какие тренды в продвижении сайтов наметились на 2023 год, а специалисты из нашей команды дадут свои комментарии.
В весьма впечатлившей меня книге «Информация. История. Теория. Поток» Джеймса Глика, о которой я уже упоминал ранее, страннейшим образом обойдён вопрос о том, как возник феномен «Big Data». В той же книге упоминается первый авторский словарь английского языка, составленный в начале XVII века неким Кодри, а далее развивается идея о том, что феномен концептуализируется в языке после того, как попадает в словарь – в английской культуре таким словарём является оксфордский.
Тогда я попробовал проверить, когда же в английском и русском языке закрепилось понятие «BigData» и, соответственно, «большие данные». Распространено мнение, что выражение «BigData» впервые было употреблено в 2008 году в статье Клиффорда Линча «Big data: how do your data grow?», опубликованной в журнале «Nature», но даже это небольшое исследование подсказывает, что всё гораздо сложнее.
Что делает перспективного ребенка из местной спортивной секции чемпионом мира по футболу, олимпийским призером или обладателем Кубка Стэнли?
Талант? Упорный труд? Но что если есть и другая причина, о которой мы раньше не слышали. Или не хотели слышать. Что, если она не так мелодична, не так романтична и уж совсем не вписывается в наше представление об истинном успехе?
Все, кто работает с аналитикой и продуктами, знают, что проведение А/Б тестирования — важный шаг для повышения эффективности бизнеса. Однако не всегда понятно, как проводить этот тест и какие статистические методы использовать. В этой статье я постараюсь помочь вам разобраться в этом вопросе. Вместо теоретических рассуждений будут практические советы, как выбирать метрики, как использовать различные статистические методы и примеры кода на Python, которые можно использовать сразу же. Эта статья станет незаменимой шпаргалкой для всех, кто планирует провести А/Б тест, и будет полезной как для новичков, так и для профессионалов.
О математических нюансах АБ-тестирования есть много замечательной литературы, но почти нигде нет информации о том, каким образом в компаниях выстраивать сам процесс применения АБ-тестирования. За исключением отдельных отраслей (игры, интернет-коммерция), где уже сформировались зрелые практики.
При этом для офлайн-бизнеса внедрение АБ-тестирования во многом организационная, а не математическая проблема. На практике правильно выстроить бизнес-процесс применения АБ и позиционирования его внутри компании едва ли не сложнее, чем создать правильную статистическую методологию.
В этой статье я поделюсь своим опытом и советами о том, как это сделать.
Ваш аккаунт