Как стать автором
Обновить
0

Краудсорсинг

Использование ресурсов толпы

Сначала показывать
Порог рейтинга
Уровень сложности

Мировой суд рассмотрит протоколы Роскомнадзора против Википедии (21 апреля)

Время на прочтение 2 мин
Количество просмотров 3.2K

Завтра, 21 апреля 2022 года, судебный участок № 422 мирового судьи Таганского района города Москвы рассмотрит протоколы Роскомнадзора против фонда Wikimedia (организатор Википедии). РКН требует удалить «фейки». — Отложено до 26 апреля.

Следуют подробности.
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 22

Возможна блокировка Википедии в России, — предупредил участник Википедии Станислав Козловский

Время на прочтение 3 мин
Количество просмотров 13K

12 апреля Станислав Козловский, один из миллионов редакторов «Википедии», дал интервью сайту «Медиа ньюс» (news.ru). По его словам, Роскомнадзор предъявил десятки претензий к Википедии и готовится заблокировать её. Приведём краткий конспект этого интервью и наш короткий вывод.

Конспект + выводы
Всего голосов 61: ↑56 и ↓5 +51
Комментарии 117

Гражданская разведка разрушила государственную монополию на расследования

Время на прочтение 4 мин
Количество просмотров 47K


Мы уже рассказывали о Bellingcat и других детективных агентствах, которые осуществляют разведку по открытым источникам (OSINT), например, обратный поиск изображений в Яндексе, сканируя утёкшие базы с приватной информацией (паспорта, мобильные телефоны, авиабилеты) и др. Это нужно для проведения важных для общества расследований, результаты которых выкладываются в публичный доступ.

Взявшись за проблему, группа «интернет-сыщиков» способна перелопатить кучу информации и обнаружить детали, которые прошли мимо внимания профессионалов, как тот стелс-бомбардировщик на спутниковых снимках Google Maps.

За последние годы гражданская разведка провела несколько эффективных и ярких расследований.
Читать дальше →
Всего голосов 217: ↑192 и ↓25 +167
Комментарии 212

Интернет-радио «Моминьмай»: будем знакомы

Время на прочтение 11 мин
Количество просмотров 7.3K

Здравствуй, Хабр!

Это моя первая статья здесь и сегодня я хочу рассказать о нашем необычном интернет-радио.

В этой статье будет ретроспектива, нынешнее состояние, планы на будущее. Немного философии по теме. Также коснусь технических деталей и приглашу к обсуждению.

Как мы размещаемся на "сервере" с 32 Мб оперативной памяти? Как мы выросли из пет-проекта одного человека до команды профессионалов, работающих на энтузиазме? Зачем и кому это вообще нужно?

Эфир через 3...2...1...
Всего голосов 45: ↑43 и ↓2 +41
Комментарии 26

Истории

Агрегация ответов в краудсорсинге. Пример с открытой библиотекой Яндекса

Время на прочтение 4 мин
Количество просмотров 2.7K
Краудсорсинг позволяет размечать данные для разных задач, но популярнее всего, конечно, задачи классификации объектов — текстов и картинок. Обычно в краудсорсинге несколько человек размечают каждый объект, что требует агрегации — выбора верного ответа из представленных. Под катом я покажу, как агрегировать результат разметки с помощью двух алгоритмов: голоса большинства и алгоритма Дэвида-Скина.

Я буду использовать Crowd-Kit — нашу открытую библиотеку вычислительных методов контроля качества в краудсорсинге, которая предлагает реализации разных методов агрегации ответов, оценки неопределённости и согласованности ответов и т. д. Но вы можете воспользоваться альтернативами: spark-crowd (использует Scala вместо Python), CEKA (Java вместо Python) или Truth Inference (использует Python, но предоставляет только категориальные и числовые ответы).
Читать дальше →
Всего голосов 16: ↑16 и ↓0 +16
Комментарии 3

Подшивка газеты «Комсомольская правда» за 1941—1945 годы опубликована на Викискладе по свободной лицензии

Время на прочтение 5 мин
Количество просмотров 6.1K

21 ноября военная подшивка газеты «Комсомольская правда» появилась в интернете на сайте Викисклад — в фотобанке, который обслуживает Википедию и другие проекты фонда «Викимедиа». Выпуски с 22 июня 1941 года по 9 мая 1945 года переданы в свободный доступ. Их можно использовать по лицензии «Creative Commons Attribution ShareAlike». Читайте подробности в интервью, которое дал нам Станислав Козловский.

Нажимая на кнопку, вы соглашаетесь читать!
Всего голосов 20: ↑19 и ↓1 +18
Комментарии 13

Незаметная революция

Время на прочтение 17 мин
Количество просмотров 53K

Мы живем в переломный момент истории, в период самой настоящей революции. Конечно, многие в той или иной мере это понимают: смартфоны, интернет, блокчейны, искусственный интеллект, тотальная IT-фикация всего и вся - нельзя сказать, что эти явления остаются незамеченными.

Но дело в том, что это только начальные проявления куда более мощных тектонических сдвигов, которые преобразуют экономику, а вслед за ней и все остальные сферы современного общества. То есть, мало кто замечает, что современная техническая революция порождает определенную революцию в способе производства, которая в свою очередь ведет к социальной революции. И этот процесс сегодня происходит на наших глазах.

Читать далее
Всего голосов 59: ↑47 и ↓12 +35
Комментарии 301

Википедия изнутри

Время на прочтение 4 мин
Количество просмотров 15K

Википедией пользуются все. Даже те, кто никогда в этом не сознается.

Но меня каждый раз поражает, насколько фантастические представления о Википедии у людей, которые её не пишут. (Надо сказать, у людей, которые её пишут, — тоже.)

Википедия кажется очень странным созданием, с надуманными, неестественными правилами, сложной организацией и высоким порогом вхождения.

А я вам скажу, что правила как раз очень даже естественные, и Википедия — весьма устойчивый организм, переживший войны, кризисы, блокировки Роскомнадзором и существующий уже более 20 лет.

Открыть тайны нашей секты?

Итак, меня зовут Lesless, и я админ.

Читать далее
Всего голосов 48: ↑32 и ↓16 +16
Комментарии 281

… И убрать 99 из 100. Как разгрести последствия мозгового штурма

Время на прочтение 6 мин
Количество просмотров 5.5K

Как-то раз я поставил себе задачу придумать сто тем для диплома. О чем и написал в этой статье. Время расплаты. Сейчас я расстанусь с большинством из них.

Если вам лень читать все, хотя бы ознакомьтесь со списком в конце и скажите, что думаете о нем. Вполне возможно, что именно ваш комментарий мне нужен. Вы видели что-то из этого? Какая-то идея точно не сработает? Сообщите, пожалуйста.

А я начинаю вычеркивать.

Читать далее
Всего голосов 10: ↑9 и ↓1 +8
Комментарии 19

Как найти идею для диплома? Придумать сотню и удалить девяносто девять

Время на прочтение 11 мин
Количество просмотров 23K

Вот мои условия:

1.     Нужно найти тему для диплома, причем чем скорее, тем лучше.

2.     Проект должен производить впечатление.

3.     Перспективы для монетизации и расширения будут плюсом.

4.     Процесс подготовки не должен быть смертельно скучным.

Как найти подходящую тему? Можно искать идеи по очереди, исследовать и проверять.
Но мне нравится придумывать идеи, так что я займусь этим.

Ведь все что нужно, это одна хорошая мысль.

Читать далее
Всего голосов 30: ↑28 и ↓2 +26
Комментарии 35

Газета «Комсомольская правда» лицензирует выпуски военных лет для свободного коммерческого использования

Время на прочтение 3 мин
Количество просмотров 4.3K

28 сентября газета «Комсомольская правда» объявила, что газетные выпуски с 22 июня 1941 года по 9 мая 1945 года военных лет будут помещены в интернете. Издательский дом «Комсомольская правда» разрешит свободно использовать эти выпуски по лицензии Creative Commons Attribution. Поэтому все лица смогут делать законный бизнес на текстах и фотографиях из этих выпусков. Для публикации выбран сайт Wikimedia Commons.

Следуют подробности.
Всего голосов 22: ↑19 и ↓3 +16
Комментарии 48

Магнитный набор «Сам Себе Дизайнер» – как настольная игра поможет создать идеальную планировку вашей квартиры или дома?

Время на прочтение 3 мин
Количество просмотров 6.4K

Несколько лет назад мы успешно запустили краудфандинг-проект «Чашка-Юла». Мы до сих пор с большой благодарностью и теплотой в сердце вспоминаем поддержку аудитории Хабра, которая поверила в проект и помогла его реализовать.

Но сегодня речь пойдет совсем о другом, однако, не мене интересном и полезном проекте! Подробности далее на ВИДЕО и в статье.

Читать далее
Всего голосов 13: ↑8 и ↓5 +3
Комментарии 21

Вики-конференция в Москве 25 и 26 сентября 2021 года

Время на прочтение 3 мин
Количество просмотров 755

В субботу и воскресенье 25—26 сентября 2021 года в Москве, в библиотеке имени Некрасова (метро Бауманская) проходит XV Вики-конференция. Она посвящена развитию Википедии и аналогичных сайтов на языках народов России, а также вопросам свободного знания и свободных проектов в целом. Она будет онлайн и оффлайн. Приходите и подключайтесь.

И что же там будет?
Всего голосов 9: ↑8 и ↓1 +7
Комментарии 16

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн
PG Bootcamp 2024
Дата 16 апреля
Время 09:30 – 21:00
Место
Минск Онлайн
EvaConf 2024
Дата 16 апреля
Время 11:00 – 16:00
Место
Москва Онлайн

6 правил по обеспечению качества данных для машинного обучения

Время на прочтение 6 мин
Количество просмотров 4.7K
«Качество — это не действие, а привычка», — сказал великий древнегреческий философ Аристотель. Эта идея справедлива сегодня так же, как и более двух тысяч лет назад. Однако качества добиться не так легко, особенно когда дело касается данных и технологий наподобие искусственного интеллекта (ИИ) и машинного обучения.

В некоторых областях можно почти без проблем использовать данные с высокой частотой ошибок, в других же система даёт сбой при малейших погрешностях в большом датасете. Принцип «мусор на входе, мусор на выходе» нужно воспринимать со всей серьёзностью. Мельчайшая некорректность в наборах данных может иметь большое влияние на модель и приводить к созданию бесполезных результатов. Чистота и целостность данных — ключевой аспект в создании сложных моделей машинного обучения.

Читать дальше →
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 0

Проект электронного мультитула QUARK. Часть 4

Время на прочтение 6 мин
Количество просмотров 5.5K

Часть 1, Часть 2, Часть 3. Страница на краудфандинге

В предыдущей части я сообщил о запуске кампании и спросил у вас мнения насчет того, как лучше поступить с формой корпуса устройства. Юзеры @sshmakov, @dizatorr, тогда предложили сделать небольшой выступ со стороны дисплея, что исключит возможность устойчивого положения «Щупом к верху». А @Ivnika и @Olegun предложил сделать защитное стекло дисплея полукруглым. Прорабатываем оба эти варианта.

Очевидным упущением для меня стало то, что я плохо объяснил куда подключается второй щуп. Такие вопросы возникли как у читателей, так и у бекеров CrowdSupply. Думаю два этих фото все расставят по местам:...

Читать далее
Всего голосов 17: ↑17 и ↓0 +17
Комментарии 27

Карты распространения борщевика Сосновского и зачем мы сделали свою

Время на прочтение 9 мин
Количество просмотров 22K

В этой заметке я расскажу о том, какие бывают карты распространения борщевика, а также, что нас побудило сделать свою карту распространения борщевика Сосновского в Московской области за 2021 год. И что у нас в итоге получилось.

Опасно: борщевик Сосновского!
Всего голосов 12: ↑12 и ↓0 +12
Комментарии 17

Проект электронного мультитула QUARK. Часть 3

Время на прочтение 3 мин
Количество просмотров 7.6K

Первая и вторая части.

Два ОЧЕНЬ долгих месяца прошло с момента последней публикации. За это время я превратился в профессионального ждуна. А с платформой Crowdsupply я начал работать аж ТРИ месяца назад! Сейчас это даже писать смешно. Всего лишь несколько месяцев упорной работы, а по ощущениям год. Но мы, таки, запустились! Ииии-хаа!!!

Читать далее
Всего голосов 27: ↑27 и ↓0 +27
Комментарии 58

Как организовать разметку данных для машинного обучения: методики и инструменты

Время на прочтение 17 мин
Количество просмотров 8.8K

Если бы у data science существовал собственный зал славы, отдельную его часть нужно было бы посвятить разметке. Памятник отвечающим за разметку выглядел бы как атлант, держащий огромный камень, символизирующий их тяжелый и скрупулезный труд. Собственной стелы заслужила бы и база данных изображений ImageNet. За девять лет её контрибьюторы вручную разметили более 14 миллионов изображений. Даже представлять этот труд утомительно.

Хотя разметка и не является особо интеллектуальным трудом, она всё равно остаётся серьёзной проблемой. Разметка — неотъемлемый этап предварительной обработки данных для контролируемого обучения. Для этого стиля обучения моделей используются исторические данных с заранее заданными целевыми атрибутами (значениями). Алгоритм может находить целевые атрибуты, только если их указал человек.

Занимающиеся разметкой люди должны быть чрезвычайно внимательны, поскольку каждая ошибка или неточность отрицательно влияет на качество датасета и на общую производительность прогнозирующей модели.

Как получить высококачественный размеченный набор данных и не поседеть в процессе работы? Главной трудностью являются выбор ответственных за разметку, оценка необходимого для неё времени и подбор наиболее подходящих инструментов.
Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 3

7 способов получить качественные размеченные данные для машинного обучения

Время на прочтение 5 мин
Количество просмотров 4.8K
Наличие размеченных данных необходимо для машинного обучения, но получение таких данных — непростая и дорогостоящая задача. Мы рассмотрим семь способов их сбора, в том числе перепрофилирование, поиск бесплатных источников, многократное обучение на данных с постепенно повышающимся качеством, а также другие способы.

Любой data scientist знает, что необученная ML модель бесполезна. Без высококачественных размеченных данных для обучения контролируемое, обучение разваливается; при этом невозможно гарантировать, что модели смогут прогнозировать, классифицировать или каким-то иным образом анализировать интересующее нас явление с хоть какой-нибудь точностью.


При проведении контролируемого обучения (supervised learning) лучше не разрабатывать модель, если нет возможности найти подходящие данные для обучения. Даже если вы нашли подходящий набор обучающих данных, он не особо полезен, если его элементы не размечены, не снабжены метками и аннотациями для эффективного обучения алгоритма.
Читать дальше →
Всего голосов 6: ↑5 и ↓1 +4
Комментарии 0

Мой опыт запуска краудфандинговой кампании

Время на прочтение 5 мин
Количество просмотров 3.7K
Что такое краудфандинг, надеюсь, рассказывать нет необходимости, потому без лишних предисловий поведаю о своем опыте работы с одним из таких сервисов. Речь пойдет не о таком гиганте как Kickstarter, а о более специализированном на «железных» open source проектах сервисе CrowdSupply. Но обо всем по порядку. 

Значит пилил я, пилил свой девайс, себе в копилку очередных погодных информеров, раздвигателей штор, котопоилок (нужное подчеркнуть) и, внезапно… Допилил. Ну то есть, ребята которым показал, сказали, что такое нельзя прятать от общественности и предложили показать на суд публики. Штош, попробуем. Попробовал. Понравилось. Предложили запуститься на CrowdSupply.

Итак, что эта за платформа и в чем преимущество (и есть ли оно) перед Kickstarter. Во-первых, создатели сервиса делают упор на открытость и «железячность» проектов. И действительно, если полистать список, можно убедиться, что подавляющее большинство профинансированных проектов, это устройства реализованные в железе, хотя в числе первых были и довольно необычные. Например этот кусок э-ээм… говядины в шоколаде:


Читать дальше →
Всего голосов 31: ↑30 и ↓1 +29
Комментарии 7

Вклад авторов