Завтра, 21 апреля 2022 года, судебный участок № 422 мирового судьи Таганского района города Москвы рассмотрит протоколы Роскомнадзора против фонда Wikimedia (организатор Википедии). РКН требует удалить «фейки». — Отложено до 26 апреля.
Краудсорсинг
Использование ресурсов толпы
Возможна блокировка Википедии в России, — предупредил участник Википедии Станислав Козловский
12 апреля Станислав Козловский, один из миллионов редакторов «Википедии», дал интервью сайту «Медиа ньюс» (news.ru). По его словам, Роскомнадзор предъявил десятки претензий к Википедии и готовится заблокировать её. Приведём краткий конспект этого интервью и наш короткий вывод.
Гражданская разведка разрушила государственную монополию на расследования
Мы уже рассказывали о Bellingcat и других детективных агентствах, которые осуществляют разведку по открытым источникам (OSINT), например, обратный поиск изображений в Яндексе, сканируя утёкшие базы с приватной информацией (паспорта, мобильные телефоны, авиабилеты) и др. Это нужно для проведения важных для общества расследований, результаты которых выкладываются в публичный доступ.
Взявшись за проблему, группа «интернет-сыщиков» способна перелопатить кучу информации и обнаружить детали, которые прошли мимо внимания профессионалов, как тот стелс-бомбардировщик на спутниковых снимках Google Maps.
За последние годы гражданская разведка провела несколько эффективных и ярких расследований.
Интернет-радио «Моминьмай»: будем знакомы
Здравствуй, Хабр!
Это моя первая статья здесь и сегодня я хочу рассказать о нашем необычном интернет-радио.
В этой статье будет ретроспектива, нынешнее состояние, планы на будущее. Немного философии по теме. Также коснусь технических деталей и приглашу к обсуждению.
Как мы размещаемся на "сервере" с 32 Мб оперативной памяти? Как мы выросли из пет-проекта одного человека до команды профессионалов, работающих на энтузиазме? Зачем и кому это вообще нужно?
Истории
Агрегация ответов в краудсорсинге. Пример с открытой библиотекой Яндекса
Я буду использовать Crowd-Kit — нашу открытую библиотеку вычислительных методов контроля качества в краудсорсинге, которая предлагает реализации разных методов агрегации ответов, оценки неопределённости и согласованности ответов и т. д. Но вы можете воспользоваться альтернативами: spark-crowd (использует Scala вместо Python), CEKA (Java вместо Python) или Truth Inference (использует Python, но предоставляет только категориальные и числовые ответы).
Подшивка газеты «Комсомольская правда» за 1941—1945 годы опубликована на Викискладе по свободной лицензии
21 ноября военная подшивка газеты «Комсомольская правда» появилась в интернете на сайте Викисклад — в фотобанке, который обслуживает Википедию и другие проекты фонда «Викимедиа». Выпуски с 22 июня 1941 года по 9 мая 1945 года переданы в свободный доступ. Их можно использовать по лицензии «Creative Commons Attribution ShareAlike». Читайте подробности в интервью, которое дал нам Станислав Козловский.
Незаметная революция
Мы живем в переломный момент истории, в период самой настоящей революции. Конечно, многие в той или иной мере это понимают: смартфоны, интернет, блокчейны, искусственный интеллект, тотальная IT-фикация всего и вся - нельзя сказать, что эти явления остаются незамеченными.
Но дело в том, что это только начальные проявления куда более мощных тектонических сдвигов, которые преобразуют экономику, а вслед за ней и все остальные сферы современного общества. То есть, мало кто замечает, что современная техническая революция порождает определенную революцию в способе производства, которая в свою очередь ведет к социальной революции. И этот процесс сегодня происходит на наших глазах.
Википедия изнутри
Википедией пользуются все. Даже те, кто никогда в этом не сознается.
Но меня каждый раз поражает, насколько фантастические представления о Википедии у людей, которые её не пишут. (Надо сказать, у людей, которые её пишут, — тоже.)
Википедия кажется очень странным созданием, с надуманными, неестественными правилами, сложной организацией и высоким порогом вхождения.
А я вам скажу, что правила как раз очень даже естественные, и Википедия — весьма устойчивый организм, переживший войны, кризисы, блокировки Роскомнадзором и существующий уже более 20 лет.
Открыть тайны нашей секты?
Итак, меня зовут Lesless, и я админ.
… И убрать 99 из 100. Как разгрести последствия мозгового штурма
Как-то раз я поставил себе задачу придумать сто тем для диплома. О чем и написал в этой статье. Время расплаты. Сейчас я расстанусь с большинством из них.
Если вам лень читать все, хотя бы ознакомьтесь со списком в конце и скажите, что думаете о нем. Вполне возможно, что именно ваш комментарий мне нужен. Вы видели что-то из этого? Какая-то идея точно не сработает? Сообщите, пожалуйста.
А я начинаю вычеркивать.
Как найти идею для диплома? Придумать сотню и удалить девяносто девять
Вот мои условия:
1. Нужно найти тему для диплома, причем чем скорее, тем лучше.
2. Проект должен производить впечатление.
3. Перспективы для монетизации и расширения будут плюсом.
4. Процесс подготовки не должен быть смертельно скучным.
Как найти подходящую тему? Можно искать идеи по очереди, исследовать и проверять.
Но мне нравится придумывать идеи, так что я займусь этим.
Ведь все что нужно, это одна хорошая мысль.
Газета «Комсомольская правда» лицензирует выпуски военных лет для свободного коммерческого использования
28 сентября газета «Комсомольская правда» объявила, что газетные выпуски с 22 июня 1941 года по 9 мая 1945 года военных лет будут помещены в интернете. Издательский дом «Комсомольская правда» разрешит свободно использовать эти выпуски по лицензии Creative Commons Attribution. Поэтому все лица смогут делать законный бизнес на текстах и фотографиях из этих выпусков. Для публикации выбран сайт Wikimedia Commons.
Магнитный набор «Сам Себе Дизайнер» – как настольная игра поможет создать идеальную планировку вашей квартиры или дома?
Несколько лет назад мы успешно запустили краудфандинг-проект «Чашка-Юла». Мы до сих пор с большой благодарностью и теплотой в сердце вспоминаем поддержку аудитории Хабра, которая поверила в проект и помогла его реализовать.
Но сегодня речь пойдет совсем о другом, однако, не мене интересном и полезном проекте! Подробности далее на ВИДЕО и в статье.
Вики-конференция в Москве 25 и 26 сентября 2021 года
В субботу и воскресенье 25—26 сентября 2021 года в Москве, в библиотеке имени Некрасова (метро Бауманская) проходит XV Вики-конференция. Она посвящена развитию Википедии и аналогичных сайтов на языках народов России, а также вопросам свободного знания и свободных проектов в целом. Она будет онлайн и оффлайн. Приходите и подключайтесь.
Ближайшие события
6 правил по обеспечению качества данных для машинного обучения
В некоторых областях можно почти без проблем использовать данные с высокой частотой ошибок, в других же система даёт сбой при малейших погрешностях в большом датасете. Принцип «мусор на входе, мусор на выходе» нужно воспринимать со всей серьёзностью. Мельчайшая некорректность в наборах данных может иметь большое влияние на модель и приводить к созданию бесполезных результатов. Чистота и целостность данных — ключевой аспект в создании сложных моделей машинного обучения.
Проект электронного мультитула QUARK. Часть 4
Часть 1, Часть 2, Часть 3. Страница на краудфандинге
В предыдущей части я сообщил о запуске кампании и спросил у вас мнения насчет того, как лучше поступить с формой корпуса устройства. Юзеры @sshmakov, @dizatorr, тогда предложили сделать небольшой выступ со стороны дисплея, что исключит возможность устойчивого положения «Щупом к верху». А @Ivnika и @Olegun предложил сделать защитное стекло дисплея полукруглым. Прорабатываем оба эти варианта.
Очевидным упущением для меня стало то, что я плохо объяснил куда подключается второй щуп. Такие вопросы возникли как у читателей, так и у бекеров CrowdSupply. Думаю два этих фото все расставят по местам:...
Карты распространения борщевика Сосновского и зачем мы сделали свою
В этой заметке я расскажу о том, какие бывают карты распространения борщевика, а также, что нас побудило сделать свою карту распространения борщевика Сосновского в Московской области за 2021 год. И что у нас в итоге получилось.
Проект электронного мультитула QUARK. Часть 3
Первая и вторая части.
Два ОЧЕНЬ долгих месяца прошло с момента последней публикации. За это время я превратился в профессионального ждуна. А с платформой Crowdsupply я начал работать аж ТРИ месяца назад! Сейчас это даже писать смешно. Всего лишь несколько месяцев упорной работы, а по ощущениям год. Но мы, таки, запустились! Ииии-хаа!!!
Как организовать разметку данных для машинного обучения: методики и инструменты
Если бы у data science существовал собственный зал славы, отдельную его часть нужно было бы посвятить разметке. Памятник отвечающим за разметку выглядел бы как атлант, держащий огромный камень, символизирующий их тяжелый и скрупулезный труд. Собственной стелы заслужила бы и база данных изображений ImageNet. За девять лет её контрибьюторы вручную разметили более 14 миллионов изображений. Даже представлять этот труд утомительно.
Хотя разметка и не является особо интеллектуальным трудом, она всё равно остаётся серьёзной проблемой. Разметка — неотъемлемый этап предварительной обработки данных для контролируемого обучения. Для этого стиля обучения моделей используются исторические данных с заранее заданными целевыми атрибутами (значениями). Алгоритм может находить целевые атрибуты, только если их указал человек.
Занимающиеся разметкой люди должны быть чрезвычайно внимательны, поскольку каждая ошибка или неточность отрицательно влияет на качество датасета и на общую производительность прогнозирующей модели.
Как получить высококачественный размеченный набор данных и не поседеть в процессе работы? Главной трудностью являются выбор ответственных за разметку, оценка необходимого для неё времени и подбор наиболее подходящих инструментов.
7 способов получить качественные размеченные данные для машинного обучения
Любой data scientist знает, что необученная ML модель бесполезна. Без высококачественных размеченных данных для обучения контролируемое, обучение разваливается; при этом невозможно гарантировать, что модели смогут прогнозировать, классифицировать или каким-то иным образом анализировать интересующее нас явление с хоть какой-нибудь точностью.
При проведении контролируемого обучения (supervised learning) лучше не разрабатывать модель, если нет возможности найти подходящие данные для обучения. Даже если вы нашли подходящий набор обучающих данных, он не особо полезен, если его элементы не размечены, не снабжены метками и аннотациями для эффективного обучения алгоритма.
Мой опыт запуска краудфандинговой кампании
Значит пилил я, пилил свой девайс, себе в копилку очередных погодных информеров, раздвигателей штор, котопоилок (нужное подчеркнуть) и, внезапно… Допилил. Ну то есть, ребята которым показал, сказали, что такое нельзя прятать от общественности и предложили показать на суд публики. Штош, попробуем. Попробовал. Понравилось. Предложили запуститься на CrowdSupply.
Итак, что эта за платформа и в чем преимущество (и есть ли оно) перед Kickstarter. Во-первых, создатели сервиса делают упор на открытость и «железячность» проектов. И действительно, если полистать список, можно убедиться, что подавляющее большинство профинансированных проектов, это устройства реализованные в железе, хотя в числе первых были и довольно необычные. Например этот кусок э-ээм… говядины в шоколаде:
Вклад авторов
-
alizar 4504.9 -
marks 1543.4 -
aleksandrit 1148.0 -
ruASG 1019.6 -
PereslavlFoto 509.6 -
ivansychev 418.5 -
Ellanorsh 367.0 -
Mithgol 339.0 -
naz2 297.0