Cochl разрабатывает звуковую технологию искусственного интеллекта, чтобы понимать звуковые события, происходящие в нашей жизненной среде. Наш звуковой ИИ стремится обладать способностями к распознаванию звуков, сравнимыми со способностями человека, позволяя людям наслаждаться более безопасной, автоматизированной, удобной и персонализированной жизнью. В эту эпоху новые модели ИИ обновляются ежедневно. Итак, как же Cochl оптимизирует собственную модель ИИ?

Существует несколько методов совершенствования моделей ИИ, начиная от улучшения архитектуры модели и методов обучения на этапе проектирования и заканчивая получением качественных наборов данных. Эти факторы сильно влияют на производительность модели. Поскольку Cochl имеет дело с аудиоданными, вам может быть любопытно, как мы можем построить высококачественную модель Sound AI. Прочтите эту статью, чтобы найти ответы на свои вопросы!

| Каков стандарт сбора аудиоданных?

Определение критериев высококачественного набора данных и планирование процесса сбора данных может быть сложной задачей. Требуемые стандарты качества могут варьироваться в зависимости от назначения модели или конкретных обстоятельств, в которых она работает, и эти стандарты могут меняться со временем.

Для решения этой проблемы Cochl применяет различные методы сбора данных, в том числе маркетинговые исследования, анализ последних тенденций в академической среде и поиск профессиональных знаний. Среди этих методов мы сосредоточимся на подходе, управляемом данными, который полагается на результаты тестирования производительности предыдущей модели.

Итак, что же такое метод, управляемый данными? Он включает в себя анализ результатов работы предыдущей модели, чтобы определить любые конкретные условия, в которых модель дала сбой или столкнулась с похожими звуками, которые вызвали путаницу при обнаружении звука. Этот анализ помогает нам определить области, требующие дальнейшего внимания, и собрать дополнительные данные, чтобы заполнить эти пробелы.

Например, давайте рассмотрим звук плача кошки. Когда вы думаете об этом звуке, на ум может прийти типичный звук «мяу». Этот тип плача характерен для кошек. Однако важно отметить, что это всего лишь гипотеза. На основе этой гипотезы мы собрали данные, обучили модель и проанализировали ее производительность. Во время этого процесса мы столкнулись с ситуацией, когда некоторые звуки плача кошки путались со звуками плача ребенка.

Хотя эти два звука не совсем одинаковы, данные, которые у нас были в то время, не включали звуки, которые могли бы уловить тонкую разницу между криком кошки и криком ребенка. Как только мы обнаружили этот факт, мы специально собрали звуки кошачьего плача, которые напоминали звуки детского плача, а также звуки детского плача, которые напоминали звуки кошачьего плача, и добавили их к нашим обучающим данным. В результате новая модель продемонстрировала значительно более низкую вероятность путаницы между этими двумя разными звуками.

| Как мы будем собирать аудиоданные?

При разработке модели, которая распознает определенные звуки, становится довольно сложно определить диапазон звука. Например, «мяу» — не единственный звук, который может издавать кошка. Само определение звука часто расплывчато, субъективно или зависит от окружающих факторов, таких как уровень фонового шума. Следовательно, крайне важно точно определить звук и определить диапазон, который будет охвачен набором данных.

Давайте предположим, что мы создаем службу уведомлений, которая оповещает нас о звуке текущей воды, указывая на то, что мы, возможно, забыли выключить кран, или о других подобных ситуациях. Для этого конкретного сценария мы рассматриваем звуки, издаваемые водопроводными кранами, душевыми, раковинами и очистителями воды. Однако мы исключаем звуки рек или океанских волн на пляже. Кроме того, нам необходимо учитывать характеристики окружающей среды, в которой могут возникать такие звуки, такие как смыв туалета или гул кондиционера. Компания Cochl уделяет большое внимание этим ограничениям и стремится собирать данные, максимально приближенные к реальным условиям, чтобы оптимизировать качество наших моделей.

| Как мы можем пометить собранные аудиоданные?

Теперь, когда мы собрали аудиоданные, мы готовы разработать высокопроизводительную модель ИИ. Последним шагом во всем процессе является определение того, как мы будем маркировать собранные аудиоданные, например e. Итак, давайте начнем с понимания того, что влечет за собой маркировка данных. По сути, это включает в себя создание листа ответов, который служит обучающими данными для модели. Людям необходимо пометить определенные звуки, которые мы хотим, чтобы модель обнаруживала (например, звуки плача кошки, звуки детского плача или звуки постукивания по воде), а также звуки, которые напоминают желаемые, но не совсем такие же. Затем модель проходит обучение на основе этих помеченных результатов.

  1. Маркировка разнообразными и обильными категориями звука

Как вы можете видеть на нашем официальном сайте, Cochl предлагает в общей сложности 104 класса для службы Cochl.Sense. Однако эти 104 класса — лишь малая часть по сравнению с обширной коллекцией внутренних собранных и обученных данных, которые у нас есть. Примечательно, что количество классов продолжает расти. Но почему у нас такое большое количество классов?

Для этого есть две основные причины. Во-первых, когда мы собираем аудиоданные для определенного звука, мы включаем данные, которые очень похожи на желаемый звук, но не являются точным совпадением. Это помогает снизить вероятность ложных срабатываний. Во-вторых, мы стремимся выразить значимые отношения в каждом классе. Например, звуки классической гитары и электрогитары можно отнести к категории «гитара», а звуки гитары и фортепиано — к категории «музыкальный инструмент». Маркируя звуки на основе этих отношений между классами, модель может полностью использовать доступную информацию.

2. Маркировка на уровне, соответствующем человеческому слуху

Как упоминалось ранее, Cochl стремится разработать звуковой ИИ, сравнимый со слуховыми способностями человека. Однако важно понимать, что один и тот же звук может восприниматься разными людьми по-разному. Помните скандальный видеоклип на YouTube — Янни против Лорел?

Чтобы устранить эту разницу в восприятии, мы используем процесс маркировки, в котором участвуют более двух человек, маркирующих каждый аудиофайл. Кроме того, помеченные результаты проверяются несколькими людьми, чтобы учесть различные мнения об аудиофайлах. Во время тестирования модели маркировщики тщательно изучают результаты, чтобы убедиться, что модель Sound Ai отражает тот же ответ, что и люди, тем самым повышая точность модели.

| Что Cochl должен сделать, чтобы создать лучшую модель ИИ?

До сих пор мы обсуждали соображения, которые мы принимаем во внимание при сборе высококачественных аудиоданных. Теперь давайте рассмотрим, как мы можем улучшить процесс сбора данных, чтобы создать более эффективную модель распознавания звука.

Поскольку требуемый объем обучающих данных продолжает расти, полагаться исключительно на ручные процессы становится неэффективно. На это уходит больше времени, и существует риск смещения, когда небольшое количество этикетировщиков повторно выполняет процесс маркировки.

Чтобы решить эту проблему, Cochl занимается автоматизацией различных этапов процесса сбора данных, включая сам сбор данных, планирование наборов данных, проведение экспериментов и маркировку. Автоматизируя эти шаги, мы можем создавать наборы данных более эффективно и с большей детализацией.

Мы рекомендуем вам следить за нашим прогрессом. Если у вас есть какие-либо вопросы, пожалуйста, не стесняйтесь обращаться к нам по адресу [email protected].
Мы будем рады помочь вам. :)