Pull to refresh
68
-0.8
Куцев Роман @kucev

Разметка данных на заказ в https://clck.ru/378Km7

Send message

Разметка данных в 2023 году: текущие тренды и требования будущего

Reading time 5 min
Views 2.2K

Разметка данных и/или аннотирование данных уже давно являются критически важным компонентом многих проектов машинного обучения и ИИ. В последние годы спрос на точную и надёжную разметку данных существенно вырос, ведь этот процесс становится всё более насущным для успеха множества проектов. Что же такое разметка данных? Как она повлияет на бизнесы? На какие тренды стоит обратить внимание, потому что они сформируют образ будущего разметки данных? В своём посте мы исследуем эти вопросы, чтобы лучше понимать, в каком направлении будет двигаться технология в ближайшие несколько лет.
Читать дальше →
Total votes 4: ↑3 and ↓1 +2
Comments 1

Заблуждения о семантической сегментации

Reading time 4 min
Views 1.2K

Семантическая сегментация — это задача компьютерного зрения, заключающаяся в помещении в один класс связанных элементов изображения.

Семантическая сегментация состоит из трёх этапов:

Классификация: обнаружение и классификация определённого объекта на изображении.

Локализация: нахождение предмета и отрисовка вокруг него ограничивающего прямоугольника.

Сегментация: процесс группировки пикселей в локализованном изображении при помощи маски сегментации.

Существует множество подтипов семантической сегментации, но все они возникают вследствие выбора пары параметров из двух категорий: размерности данных и разрешения выходных аннотаций.
Читать дальше →
Total votes 2: ↑1 and ↓1 0
Comments 2

Разметка данных: неочевидные затраты на голосовые технологии

Reading time 8 min
Views 821
В голосовых технологиях используется глубокое обучение (особый вид машинного обучения), позволяющее обучать Speech-to-Text (STT) — компонент обработки голоса, получающий от пользователя в аудиоформате входные данные (например, речь) и преобразующий этот фрагмент в текст. [Ссылка] В этом отношении большинство обучающих модели STT компаний полностью зависят от ручной транскрипции всех обучающих фрагментов, однако затраты на связанное с этой методикой аннотирование данных оказываются очень высокими.


Эта проблема применения ручного труда также влияет и на Natural Language Understanding (NLU) — компонент, получающий текстовое описание пользовательского ввода и извлекающий из него структурированные данные (например, запросы действий и сущности), которые позволяют системе понимать человеческий язык. [Ссылка] Например, в некоторых задачах NLU (например, в Named Entity Recognition, распознавании именованных сущностей) требуется присвоение метки каждому слову во фразе, чтобы система поняла, что это слово означает в пользовательском вводе.
Читать дальше →
Total votes 4: ↑3 and ↓1 +2
Comments 2

12 лучших инструментов аннотирования изображений на 2023 год

Reading time 11 min
Views 2.4K

С развитием сферы искусственного интеллекта (AI) увеличивается и спрос на высококачественные инструменты аннотирования изображений. Аннотирование изображений — это процесс добавления в изображения метаданных, например, меток или тэгов, чтобы их было проще распознавать и выполнять по ним поиск машинам. Этот процесс критически важен для обучения моделей ИИ, чтобы они могли точно распознавать и классифицировать изображения.

При таком большом количестве имеющихся инструментов аннотирования изображений может быть сложно понять, какие из них лучше подходят под ваши потребности. Чтобы помочь вам сделать более обоснованное решение, мы составили список двенадцати лучших инструментов аннотирования изображений на 2023 год.

В этой статье мы обсудим критерии, использованные для оценки этих инструментов, их плюсы и минусы, а также сравним их между собой. Также мы приведём отзывы и рейтинги пользователей, варианты цен и тарифов и информацию об интеграции с другим ПО и платформами.
Читать дальше →
Rating 0
Comments 0

Почему важна разметка данных: в основе ChatGPT лежит труд людей

Reading time 4 min
Views 3K

Чат-боты стали неотъемлемой частью жизни, они в равной степени помогают нам и в работе, и в развлечениях. Одним из примеров таких ботов является ChatGPT компании OpenAI — обученная в беспрецедентных масштабах языковая модель, способная генерировать похожие на человеческие ответы на широкий спектр промтов. ChatGPT быстро набрал популярность, продемонстрировав мощь ИИ, и привлёк внимание общественности к этой сфере. Однако хотя его успех часто связывают с лежащими в его основе современными технологиями, многие недооценивают человеческий труд, вложенный в создание ChatGPT.
Читать дальше →
Total votes 6: ↑2 and ↓4 -2
Comments 5

Разметка данных при помощи GPT-4

Reading time 9 min
Views 6.7K

Разметка данных — критически важный компонент проектов машинного обучения. К ней применима старая поговорка «мусор на входе — мусор на выходе». В процессе разметки создаются аннотированные датасеты для обучения и проверки. Однако этот процесс может быть длительным и дорогостоящим, особенно для проектов с большими объёмами данных. Но что если мы сможем воспользоваться прогрессом LLM для снижения затрат и усилий, необходимых для выполнения задач разметки данных?

GPT-4 — это современная языковая модель, разработанная компанией OpenAI. Она способна понимать запросы и генерировать текст, напоминающий составленный людьми. В этом посте мы расскажем о том, как можно использовать GPT-4 с целью настройки меток для различных задач. Это может существенно снизить затраты времени и труда, связанные с процессом разметки. Чтобы показать, как инжиниринг промтов способен помочь в создании точных и надёжных меток при помощи GPT-4 и как эту методику можно использовать для гораздо более мощных возможностей, мы воспользуемся примером с классификацией эмоционального настроя (sentiment classification).
Читать дальше →
Total votes 5: ↑5 and ↓0 +5
Comments 1

Размерности качества данных: обеспечение качества данных с помощью Great Expectations

Reading time 7 min
Views 1.6K

Качество данных играет критически важную роль в любом процессе управления данными. Организации используют данные для принятия решений и улучшения различных бизнес-показателей. Однако если данные усеяны неточностями, ошибками или несогласованностями, то они могут нанести больше вреда, чем пользы.

Согласно опросу Gartner за 2020 год, в среднем потери из-за низкого качества данных составляют примерно $12,8 миллиона за год. Как сообщается в последнем отчёте State of Data Quality, задержки продакшена (задержки с выпуском продукта) — характерный симптом низкого качества данных. Высококачественные и безошибочные данные повышают надёжность и верность полученных из них выводов.

Для повышения качества данных необходима система его оценки. В достижении этой цели вам помогут размерности качества данных. Размерности позволяют измерять покрытие и выявлять компоненты, требующие тестирования качества данных.

В этой статье рассматриваются шесть размерностей качества данных: полнота, согласованность, целостность, вневременная актуальность, уникальность и валидность. Определив их, вы сможете обеспечить исчерпывающее понимание качества данных и выявить аспекты, требующие совершенствования. И здесь нам на помощь приходит Great Expectation (GX).
Читать дальше →
Rating 0
Comments 1

9 лучших инструментов аннотирования изображений для Computer Vision

Reading time 9 min
Views 2.6K

На дворе 2023 год, но аннотирование изображений по-прежнему остаётся одним из самых трудоёмких этапов вывода на рынок проекта компьютерного зрения. В помощь вам мы составили список самых популярных инструментов аннотирования изображений.

Это руководство поможет вам сравнить лучшие инструменты аннотирования и выбрать подходящий.

Мы будем сравнивать каждый из них по ключевым факторам, в том числе по функциональности аннотирования, поддержке различных типов данных и сценариев использования, возможностям QA/QC, безопасности и конфиденциальности данных, управлению данными, интеграции с конвейером машинного обучения и клиентской поддержке.
Читать дальше →
Rating 0
Comments 0

Руководство по масштабированию MLOps

Reading time 7 min
Views 1.6K

Команды MLOps вынуждены развивать свои возможности по масштабированию ИИ. В 2022 году мы столкнулись со взрывом популярности ИИ и MLOps в бизнесе и обществе. В 2023 год ажиотаж, учитывая успех ChatGPT и развитие корпоративных моделей, будет только расти.

Столкнувшись с потребностями бизнеса, команды MLOps стремятся расширять свои мощности. Эти команды начинают 2023 год с длинного списка возможностей постановки ИИ на поток. Как мы будем масштабировать компоненты MLOps (развёртывание, мониторинг и governance)? Каковы основные приоритеты нашей команды?

AlignAI совместно с Ford Motors написали это руководство, чтобы поделиться с командами MLOps своим успешным опытом масштабирования.
Читать дальше →
Rating 0
Comments 0

20 лучших инструментов для таск-менеджмента, планирования и интеллект-карт

Reading time 16 min
Views 12K

В мире ПО управления продуктами существует множество систем и решений, каждое из которых имеет собственные уникальные преимущества. Ваш выбор должен определяться и личными предпочтениями, и требованиями бизнеса. В этой статье мы расскажем о лучших инструментах для таск-менеджмента, создания дорожных карт, OKR и интеллект-карт. Разобрав эти концепции, их задачи и основные характеристики, мы поможем вам выбрать подходящее решение в зависимости от размера, целей, проблем и бюджета компании.

Что делает ПО управления продуктами?


ПО управления продуктами оптимизирует управление производством, позволяя реализовывать стратегическое планирование, отслеживание прогресса, совместную работу и анализ. Также оно учитывает распределение ресурсов и организацию рабочего процесса agile. Инструменты управления продуктами упрощают командную работу и её согласованность благодаря функциям сотрудничества в реальном времени. Это приводит к эффективной расстановке приоритетов и принятию решений, повышает продуктивность и позволяет успешно справляться с целями.
Читать дальше →
Total votes 6: ↑5 and ↓1 +4
Comments 7

8 инструментов для аннотирования изображений в 2023 году

Reading time 7 min
Views 4.2K

Аннотирование изображений — основа для обучения моделей машинного обучения. В статье мы расскажем о лучших инструментах аннотирования, которые сделают этот процесс эффективным.

Что такое аннотирование изображений?


После завершения ручного аннотирования модель машинного обучения учится на размеченных изображениях. Все ошибки разметки также моделью выучиваются и дублируются, потому что аннотирование изображений задаёт критерии, которым стремится соответствовать модель.

Разметка или категоризация изображения описательными данными, помогающими в идентификации и классификации объектов, людей или сцен на картинке, называется аннотированием изображений.

Аннотирование изображений критически важно в таких сферах, как компьютерное зрение, роботостроение и беспилотное вождение, потому что оно позволяет роботам воспринимать и интерпретировать визуальные данные.


Примерами аннотирования изображений являются отрисовка ограничивающих прямоугольников вокруг объектов на фотографии, разметка объектов текстом или разделение изображения на части на основании его визуальных признаков.
Читать дальше →
Total votes 3: ↑3 and ↓0 +3
Comments 1

Неструктурированные данные: примеры, инструменты, методики и рекомендации

Reading time 16 min
Views 7.6K
В современном построенном на данных мире организации накапливают огромные объёмы информации, позволяющие принимать важные решения и выводы. Целых 80% от этой цифровой сокровищницы представляют собой неструктурированные данные, в которых отсутствует формат и упорядоченность.

Чтобы продемонстрировать объём неструктурированных данных, мы сошлёмся на десятую ежегодную инфографику Data Never Sleeps, показывающую, какое количество данных ежеминутно генерируется в Интернете.


Сколько данных генерировалось ежеминутно в 2013 и 2022 годах. Источник: DOMO

Только представьте: в 2022 году пользователи каждую минуту отправляли 231,4 миллиона электронных писем, загружали на YouTube пятьсот часов видео и делились 66 тысячами фотографий в Instagram. Разумеется, доступ к такому огромному пулу неструктурированных данных может дать компаниям большие возможности глубже понимать своих клиентов, рынки и операции, в конечном итоге приводя к росту и успеху.

В этой статье мы окунёмся в мир неструктурированных данных, подчеркнём их важность и представим практичные советы по извлечению ценной информации из этого часто недооцениваемого ресурса. Мы рассмотрим разные типы данных, варианты хранения и управления ими, а также различные методики и инструменты для анализа неструктурированных данных. Подробно разобравшись в этих аспектах, вы сможете овладеть истинным потенциалом неструктурированных данных и преобразовать их в стратегический ресурс.
Читать дальше →
Total votes 2: ↑1 and ↓1 0
Comments 3

14 типов атак, которые должны выявлять системы лицевой биометрии

Reading time 5 min
Views 2.4K

Системы лицевой биометрии начинают активно использоваться во множестве ситуаций: при цифровой регистрации покупателей, аутентификации доступа к веб-сервисам, разблокировке сотовых телефонов, проходе в офис или на спортивные мероприятия, и так далее.

Такое распространение технологии неизбежно сопровождается новыми способами обмана с целью получения мошеннического доступа. Только в одних Соединённых Штатах, по оценкам Федеральной торговой комиссии (FTC), в 2021 году потери из-за мошенничества с личными данными составили приблизительно 2331,2 миллиона долларов, что вдвое больше, чем в 2019 году. Согласно данным FTC, мошенничество с личными данными составляет больше 50% от общего зафиксированного числа мошеннических действий.

Нельзя сказать, что мошенничество — это что-то новое; любой процесс, связанный с идентификацией личности, как с участием биометрии, так и без неё, становится целью злоумышленников, стремящихся получить доступ к не принадлежащим им правам пользования.

И с биометрией ситуация ничем не отличается, различия заключаются лишь в способе организации мошенничества. В этом посте мы ответим на некоторые вопросы о мошеннических действиях в системе лицевой биометрии и о технологиях, способных защитить от них.
Читать дальше →
Total votes 2: ↑2 and ↓0 +2
Comments 7

Сбор данных для машинного обучения: этапы, методики и рекомендации

Reading time 15 min
Views 5.3K

Все успешные компании постоянно собирают данные. Они отслеживают поведение людей в Интернете, организуют опросы, мониторят отзывы, слушают сигналы от умных устройств, извлекают значимые слова из электронных писем и предпринимают другие шаги для накопления фактов и чисел, помогающих им принимать бизнес-решения. Хотя современный мир изобилует данными, сбор ценной информации включает в себя множество организационных и технических трудностей, которые мы и рассмотрим в этой статье. Особое внимание мы уделим методикам сбора данных и инструментам для аналитики и проектов машинного обучения.
Читать дальше →
Rating 0
Comments 1

Целостность, точность, согласованность: три фактора, обеспечивающие качество машинного обучения

Reading time 4 min
Views 1.5K

Эффективность моделей машинного обучения напрямую зависит от обучающих данных. Если данные неполны или размечены неверно, то эти пробелы отразятся на прогнозах модели.

Но как выявлять высококачественные данные и обеспечивать их уровень уже в процессе работы над проектом? И что означает «качество данных» в контексте машинного обучения?

Можно упростить ответ на этот вопрос, сведя качество данных к трём основным характеристикам: целостности (integrity), точности (accuracy) и согласованности (consistency).

  • Целостность: надёжность используемого датасета
  • Точность: степень валидности и корректности присвоенных аннотаций
  • Согласованность: степень согласованности присвоенных аннотаций во всём датасете

Можно воспринимать каждый из этих факторов как часть высокоуровневой дорожной карты для обеспечения качества данных на всех этапах конвейера аннотирования.
Читать дальше →
Total votes 5: ↑5 and ↓0 +5
Comments 0

Как аннотировать документы для обучения ИИ распознавания текста

Reading time 5 min
Views 2K

Введение в ИИ для распознавания текста



Автоматизированная обработка документов — необходимое требование для модернизации рабочих процессов современных компаний; оно связано с широким спектром процессов, например, с управлением расходами, автоматизацией кредиторских задолженностей, снабжением, бухгалтерским делом, страхованием, адаптацией пользователей и сотрудников, подачей заявок на кредит, приёмом на страхование и так далее.

Однако обработка неструктурированных данных, например, PDF или отсканированных документов, при помощи ИИ — не такая уж простая задача. Для обучения и поддержки инструментов ИИ обработки и парсинга документов необходимо высококачественное аннотирование данных.

По оценкам специалистов, рынок интеллектуальной обработки документов к 2028 году вырастет до 6,3 миллиардов долларов, а большая часть решений для распознавания текста в этой сфере уже использует ИИ и машинное обучение.
Читать дальше →
Total votes 2: ↑2 and ↓0 +2
Comments 0

Data Engineering: концепции, процессы и инструменты

Level of difficulty Medium
Reading time 16 min
Views 5.1K
Data science, машинное обучение и искусственный интеллект — не просто громкие слова: многие организации стремятся их освоить. Но прежде чем создавать интеллектуальные продукты, необходимо собрать и подготовить данные, которые станут топливом для ИИ. Фундамент для аналитических проектов закладывает специальная дисциплина — data engineering. Связанные с ней задачи занимают первые три слоя иерархии потребностей data science, предложенной Моникой Рогати.


Слои data science для реализации ИИ.

В этой статье мы рассмотрим процесс data engineering, расскажем о его базовых компонентах и инструментах, опишем роль дата-инженера.
Читать дальше →
Total votes 1: ↑1 and ↓0 +1
Comments 1

Аннотирование повреждений автомобилей для обучения искусственного интеллекта

Level of difficulty Easy
Reading time 6 min
Views 1.4K

Благодаря доступности систем компьютерного зрения на основе ИИ, способных автоматизировать большую часть процессов, в последние годы активно развивается сфера визуального контроля, связанного с технологиями страхования. При помощи мобильных приложений или веб-сайтов пользователи могут выполнять удалённую оценку повреждений и мгновенно получать расчёт цены, что упрощает процесс и сильно снижает стресс пользователей. Эта сфера уже охватила не только оценку повреждений транспорта, но и другие виды собственности, например, недвижимость.

Однако обучение систем визуального контроля при помощи ИИ имеет свои сложности, поскольку требует постоянного наполнения высококачественными и разнообразными данными. Из-за расширения области действия таких сервисов на разные регионы стало необходимым получение из каждого региона данных, аннотированных в точности согласно таксономии каждой страховой компании.
Читать дальше →
Total votes 3: ↑3 and ↓0 +3
Comments 2

Все события в мире синтетических данных за 2022 год

Reading time 12 min
Views 1.1K

В течение прошлого года мы наблюдали существенный рост в мире синтетических данных и радостные изменения на этом рынке. В своей статье я поделюсь своими заметками о годе мониторинга рынка. Из неё вы узнаете о новых игроках, разработках и перспективах эволюции экосистемы.

Новые игроки и анализ рынка синтетических данных


Когда в 2021 году я опубликовала пост о состоянии рынка синтетических данных, на нём присутствовало 67 поставщиков:

  • 28 поставщиков структурированных синтетических данных,
  • 10 поставщиков синтетических тестовых данных,
  • 6 опенсорсных поставщиков,
  • и 29 поставщиков неструктурированных данных.

Год спустя картина изменилась:


На карте появилось 28 новых поставщиков, а всего продавать продукты и сервисы синтетических данных стали 97 компаний.

Мы добавляем на карту ещё 31 поставщика, что суммарно даёт 100 компаний, занимающихся продажей продуктов и сервисов синтетических данных. Пять компаний закрылось и ещё я убрала с этой карты опенсорсные решения. Обновлённый список компаний, занимающихся синтетическими данными, можно посмотреть в этой статье.
Читать дальше →
Total votes 5: ↑4 and ↓1 +3
Comments 0

Лучшие ИИ-инструменты для аннотирования видео в 2023 году

Reading time 4 min
Views 4.6K

Процесс добавления метаданных, тэгов или меток к различным объектам, действиям или событиям в видео называется аннотированием видео. Живые аннотаторы могут выполнять эту задачу вручную, однако благодаря ИИ существенную часть процесса можно автоматизировать. Алгоритмы ИИ используют компьютерное зрение (computer vision, CV) для изучения и понимания покадрового содержания видео, а затем распознают и классифицируют объекты, действия или события на основании их визуальных элементов.

Давайте рассмотрим некоторые из лучших инструментов аннотирования видео на основе ИИ.
Читать дальше →
Total votes 7: ↑5 and ↓2 +3
Comments 1

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity