Мир технологий на этой неделе – главные инновации в области искусственного интеллекта от Microsoft, Anthropic, Runway, Genmo и других
Добро пожаловать в выпуск этой недели «Мир технологий», где мы погружаемся в самые глубины самых захватывающих инноваций завтрашнего дня. Что происходит, когда ИИ выходит за рамки текста и начинает использовать ваш компьютер для вас? Насколько далеко мы можем раздвинуть границы создания видеоконтента с помощью ИИ и какие новые творческие возможности появляются, когда мы интегрируем интерактивные выступления персонажей в генеративные модели? На этой неделе мы изучаем последние прорывы от лидеров отрасли, таких как Anthropic, Runway, Genmo и Microsoft, поскольку они меняют ландшафт ИИ — от автономных агентов, повышающих производительность, до мощных инструментов для кинематографистов и не только. Погрузитесь и узнайте, как эти технологии не просто продвигают современное состояние дел, но и преобразуют то, как мы работаем, творим и представляем будущее.
Perplexity AI: быстрая итерация и новые продукты
Perplexity AI, ключевой игрок в пространстве языковых моделей, претерпевает значительные изменения, продолжая внедрять инновации и расширять свои предложения. В отличие от других крупных игроков, таких как ChatGPT от OpenAI, Perplexity позиционирует себя как интерактивный инструмент, ориентированный на поиск, сфокусированный на создании точных ответов с контекстной глубиной, а не только на предоставлении разговорного опыта. Используя свою глубокую интеграцию с веб-поиском и утонченный подход к контекстно-зависимым запросам, Perplexity заняла уникальную нишу, которая подчеркивает быстрый и надежный поиск информации в сочетании с надежными возможностями рассуждения. В то время как другие LLM, такие как ChatGPT, преуспели в предоставлении широкого разговорного опыта, Perplexity выделяется тем, что сочетает эффективность поиска со знаниями, сгенерированными ИИ, что делает его идеальным для пользователей, ищущих точные ответы на основе запросов.
В недавнем обновлении Perplexity запустила новое приложение для macOS и обновила свою визуальную идентичность с помощью переработанной иконки, которая призвана сделать ее брендинг более ярким и привлекательным. Новое приложение, которое теперь доступно в Mac App Store, предлагает встроенную поддержку macOS, предлагая пользователям настольных компьютеров элегантный, интегрированный опыт. Приложение для macOS отличается интеграцией на системном уровне, включая поддержку встроенных уведомлений и совместимость с уникальными функциями Apple, такими как Spotlight Search, что делает доступ пользователей к аналитическим данным на основе ИИ на своих настольных компьютерах еще более удобным. Чтобы начать использовать приложение Perplexity для macOS, пользователи могут просто загрузить его из Mac App Store, войти в свою учетную запись и начать задавать вопросы или изучать различные варианты использования в среде, которая кажется естественно интегрированной с macOS. Этот выпуск является частью более широкой стратегии Perplexity по повышению доступности возможностей ИИ на разных платформах, позволяя пользователям легко переключаться с мобильных устройств на настольные компьютеры, сохраняя при этом интуитивно понятный пользовательский интерфейс.
В дополнение к приложению macOS , Perplexity представила несколько других примечательных обновлений. Среди них — добавление «Режима рассуждений» в функцию Pro Search, который позволяет пользователям глубже погружаться в сложные запросы, обеспечивая более тщательный и контекстуальный процесс рассуждений. Этот режим помогает пользователям понимать нюансы информации, что делает его особенно полезным для задач исследования и принятия решений. Более того, новая функция «Пространства» в последнее время получила широкое распространение, поскольку она позволяет группам совместно исследовать темы, делиться идеями и создавать коллективные знания. Perplexity также расширила ассортимент своей продукции, введя специальный раздел «Финансы», ориентированный на пользователей, которым нужны финансовые идеи и анализ на основе ИИ. Эти недавние дополнения подчеркивают стремление Perplexity сделать свои инструменты более универсальными и ориентированными на пользователя. В частности, компания также стала пионером в использовании подкастов на основе ИИ, предоставив еще один канал, через который пользователи могут взаимодействовать с ее технологией. По мере того как Perplexity продолжает развиваться, основное внимание по-прежнему уделяется созданию доступных и практичных приложений ИИ, которые упрощают сложные задачи поиска информации и совместной работы.
Sarvam 1: Первая языковая модель Индии
Sarvam 1 входит в историю как первая в Индии крупная языковая модель (LLM), значительная веха для страны в быстро развивающемся пространстве ИИ. При поддержке таких выдающихся деятелей, как Нандан Нилекани, Sarvam был создан с целью удовлетворить разнообразные лингвистические потребности Индии, устраняя пробелы, которые часто упускают из виду мировые LLM. Последняя версия Sarvam 1 включает модель с 2 миллиардами параметров, специально оптимизированную для индийских языков, с поддержкой 10 основных индийских языков наряду с английским. Модель была обучена на 2 триллионах токенов, уделяя особое внимание эффективности токенов, с коэффициентами фертильности от 1,4 до 2,1 токенов на слово на поддерживаемых языках. Этот меньший размер модели обеспечивает эффективное развертывание с более быстрым выводом по сравнению с более крупными моделями, при этом достигая конкурентоспособной производительности в задачах, специфичных для языка.
Технически Sarvam 1 использует архитектуру на основе трансформатора, оптимизированную для индийских языков, используя 2 миллиарда параметров для эффективной обработки сложных лингвистических запросов. Процесс обучения включал в себя огромные наборы данных, полученные из различных языковых и культурных источников по всей Индии, что гарантирует понимание нюансов в региональных диалектах, разговорных выражениях и культурных ссылках. Качество данных, используемых для обучения, было обеспечено посредством строгого процесса курирования, сосредоточенного на языковом богатстве и культурном контексте. Подчеркивая эффективность токенов, модель минимизирует вычислительные затраты, одновременно максимизируя качество вывода, что делает ее хорошо подходящей для использования в различных реальных сценариях. Архитектура Sarvam позволяет ей предоставлять контекстно-точные ответы на таких языках, как хинди, тамильский, бенгали и других, удовлетворяя уникальные потребности многоязычных пользователей в Индии.
Запуск Sarvam 1 представляет собой значительный шаг вперед для Индии в области ИИ, подчеркивая способность страны разрабатывать сложные технологии , которые отвечают местным потребностям. Поскольку Индия стремится догнать другие страны-лидеры в области технологий, развитие Sarvam подчеркивает потенциал местных LLM для революционизации образования, обслуживания клиентов и государственных услуг путем предоставления поддержки ИИ на местных языках. Такие модели, как Sarvam, могут демократизировать доступ к информации, обеспечить более инклюзивное цифровое участие и даже стимулировать новые инновации в таких областях, как здравоохранение и финансы, где языковая доступность остается препятствием. Создавая технологию, адаптированную для Индии, Sarvam 1 не только демонстрирует растущий технический опыт страны, но и прокладывает путь к будущему, в котором ИИ будет бесшовно интегрирован в повседневную жизнь вне языковых и культурных границ.
Robotera Star 1: самая быстрая двуногая машина
Китайские ученые недавно попали в заголовки, представив то, что, как утверждается, является самым быстрым двуногим гуманоидным роботом в мире. Робот «Star 1», разработанный командой Robot Era, прошел ряд контрольных испытаний, включая замечательную демонстрацию, где он пробежал по пустыне Гоби. Это достижение является результатом многолетних исследований и разработок, подкрепленных сочетанием передового роботизированного оборудования и программного обеспечения ИИ. Robot Era стремится раздвинуть границы гуманоидной робототехники, сосредоточившись на выносливости и скорости, и эта последняя разработка подчеркивает их приверженность созданию высокопроизводительных роботов, способных перемещаться в различных средах.
Двуногий робот был протестирован на соответствие отраслевым стандартам скорости бега, достигнув максимальной скорости, значительно превышающей среднюю скорость от 8 до 10 км/ч, обычно наблюдаемую у подобных роботов. Этот конкретный робот достиг скорости до 12 км/ч, что является заметным достижением, которое устанавливает новый стандарт для двуногой робототехники. Ключевые технические детали включают использование легких частей корпуса из углеродного волокна, усовершенствованных серводвигателей для управления суставами и системы балансировки на базе искусственного интеллекта, которая позволяет роботу сохранять устойчивость даже на неровной поверхности. Включение специализированной беговой обуви, специально разработанной для улучшения тяги и скорости, сыграло решающую роль в достижении этого рубежа производительности. Баланс и маневренность робота дополнительно улучшены массивом датчиков, который включает гироскопы и акселерометры, все из которых поступают в центральную систему искусственного интеллекта, которая обрабатывает данные об окружающей среде в режиме реального времени.
Хотя достижение в беге впечатляет, оно поднимает вопросы о реальной применимости таких роботов. В настоящее время эти двуногие роботы служат технологическими витринами, демонстрируя потенциальные возможности гуманоидной робототехники. Однако их осуществимость в повседневных приложениях все еще обсуждается. Практическое использование этих роботов может включать поисково-спасательные операции на сложных участках, а также применение в логистике и промышленных условиях, где требуется мобильность, подобная человеческой. Несмотря на впечатляющие показатели, стоимость и сложность производства таких роботов остаются значительными препятствиями. Тем не менее, такие достижения имеют решающее значение для продвижения этой области вперед, потенциально прокладывая путь для будущих роботов, которые будут как практичными, так и экономически эффективными для более широких вариантов использования.
Microsoft CoPilot: масштабирование команд с помощью автономных агентов
Недавно Microsoft представила крупные обновления своего предложения CoPilot, представив новых автономных агентов, призванных значительно повысить производительность для команд. Эти агенты работают, постоянно отслеживая действия пользователей и используя контекстные подсказки для определения наилучших действий, тем самым сводя к минимуму необходимость вмешательства человека. Они могут автономно выполнять рутинные задачи, инициировать рабочие процессы и даже адаптировать свои действия на основе входных данных в реальном времени. Эти обновления позволяют CoPilot автономно обрабатывать более широкий спектр задач, масштабируясь от простой автоматизации процессов до более сложных сценариев принятия решений. Агенты используют деревья решений на основе ИИ и обучение с подкреплением, что позволяет им независимо анализировать данные, определять точки действия и выполнять задачи в приложениях Microsoft 365. Улучшенная интеграция с Microsoft Graph дополнительно улучшает понимание контекста, позволяя этим агентам предоставлять пользователям более индивидуальные, проактивные идеи. Эти новейшие функции направлены на расширение возможностей CoPilot за пределы простой помощи до полномасштабного дополнения команды.
Это расширение CoPilot вписывается в более широкую стратегию Microsoft по глубокому внедрению ИИ в пакет производительности для создания адаптивного интеллектуального рабочего пространства. Недавние обновления в Microsoft 365, такие как улучшенное понимание естественного языка, интеграция DALL-E 3 для генерации изображений и развертывание расширенной аналитики, демонстрируют приверженность Microsoft использованию ИИ для большей эффективности и креативности. Например, автономные агенты теперь могут самостоятельно составлять и отправлять последующие электронные письма после совещаний, планировать задачи и напоминания на основе сроков проекта и создавать динамические отчеты в Excel, анализируя данные в реальном времени. В Teams эти агенты могут автоматически создавать сводки текущих обсуждений и предлагать участникам пункты действий, оптимизируя общение и гарантируя, что ничего не останется без внимания. Новые обновления с автономными агентами являются еще одним шагом к видению Microsoft по созданию коллеги на базе ИИ, который повышает как индивидуальную, так и командную производительность.
Заглядывая вперед, возникают вопросы о долгосрочной роли CoPilot в экосистеме продуктов Microsoft. Станет ли CoPilot центральным узлом управления ИИ во всех сервисах Microsoft или останется в первую очередь средством повышения производительности? Кроме того, партнерство Microsoft с OpenAI добавляет еще один уровень интереса. Как сотрудничество с OpenAI сформирует следующие итерации CoPilot, особенно с учетом общих достижений в крупных языковых моделях и генеративном ИИ? Это вопросы, на которые отраслевые наблюдатели хотят получить ответы, поскольку Microsoft продолжает расширять границы ИИ в корпоративных решениях.
Mochi 1 от Genmo AI: революция в генерации видео с открытым исходным кодом
Genmo AI запустила Mochi 1, модель генерации видео с открытым исходным кодом, разработанную для конкуренции с существующими игроками, такими как Runway и KlingAI, в растущей области видео ИИ. Mochi 1 создана для генерации видео непосредственно из текстовых подсказок, с возможностями, выходящими за рамки простого визуального синтеза, включая динамические переходы и генерацию сцен в реальном времени. По сравнению со своими аналогами в отрасли, Mochi 1 подчеркивает эффективность и доступность, сосредоточившись на архитектурах на основе трансформаторов, оптимизированных для генерации видеоконтента. Релиз позиционируется как потенциальный разрушитель, расширяющий ландшафт видео ИИ, предлагая возможности, ранее ограниченные коммерческими предложениями от основных участников, таких как Runway, которые доминировали в пространстве преобразования текста в видео с помощью собственных моделей.
Определяющей особенностью Mochi 1 является его открытый исходный код, который позволяет разработчикам и создателям по всему миру исследовать, изменять и улучшать модель. База открытого исходного кода Mochi 1 доступна на таких платформах, как GitHub, что позволяет вносить вклады от мирового сообщества, которое может итерировать функции модели и улучшать ее возможности. Этот открытый доступ позволяет расширить эксперименты и настраиваемость, делая ее более доступной для небольших разработчиков и независимых студий, у которых в противном случае может не хватить ресурсов для использования дорогостоящих коммерческих решений. Кроме того, Mochi 1 поддерживает простую интеграцию с существующими конвейерами видеоредактирования, предоставляя гибкую структуру для творческих профессионалов для использования генеративного ИИ в своих рабочих процессах.
Потенциал моделей генерации видео с открытым исходным кодом, таких как Mochi 1, огромен, но таковы и проблемы, которые они представляют. С одной стороны, открытый доступ демократизирует творческие возможности, делая возможным высококачественное видеопроизводство даже без полной команды, что может позволить совершенно новые формы цифрового повествования — возможно, даже новый «Голливуд», построенный на контенте, созданном ИИ. С другой стороны, качество наборов данных, используемых для обучения, и потенциальная возможность их неправильного использования остаются серьезными проблемами. Без тщательного кураторства эти модели могут распространять предвзятость или генерировать некачественные результаты. Баланс между творческой свободой и этической ответственностью будет иметь решающее значение, поскольку инструменты, такие как Mochi 1, продолжают развиваться. Можем ли мы увидеть будущее, в котором написание сценариев само по себе приводит к полностью реализованным аудиовизуальным продуктам? Mochi 1 открывает дверь к этой возможности, но путь только начинается.
Холст Ideogram AI: расширение творческих возможностей
Ideogram AI зарекомендовал себя как универсальный инструмент для создания и обработки текста и визуального контента. Ideogram, любимый дизайнерами, маркетологами и художниками, занял нишу в креативном пространстве AI, предоставляя мощные генеративные возможности, которые помогают создавать визуально привлекательные маркетинговые кампании, художественные работы и контент для социальных сетей. Варианты его использования варьируются от создания убедительной визуальной рекламы до создания уникальных графических элементов для брендинга, и все это с минимальным участием пользователя.
Последняя функция, Canvas, вводит новое измерение в предложения Ideogram, позволяя пользователям создавать и изменять контент в более интерактивном и пространственно-ориентированном рабочем пространстве. Canvas предоставляет гибкую цифровую область, где пользователи могут визуально размещать текст, изображения и другие элементы, что делает его идеальным для мозгового штурма и концептуализации творческих проектов. Технически Canvas использует возможности генерации контента на основе ИИ Ideogram в сочетании с пространственным движком компоновки, который позволяет манипулировать элементами в реальном времени. Это позволяет пользователям легко экспериментировать с различными дизайнами и форматами, эффективно сочетая возможности генерации ИИ с интуитивно понятными визуальными инструментами компоновки.
Позиционирование Canvas от Ideogram в более широком ландшафте ИИ открывает захватывающую новую категорию гибридных инструментов, которые сочетают генерацию контента с интерактивным дизайном. В отличие от традиционных генеративных моделей ИИ, которые выдают статические результаты, Canvas подчеркивает динамичный, управляемый пользователем рабочий процесс. По сравнению с другими продуктами, такими как генеративные функции Adobe Creative Cloud или инструменты дизайна Canva на базе ИИ, Canvas предлагает более практический подход, фокусируясь на интерактивности и настройке пользователя. Это представляет собой шаг вперед в превращении генеративного ИИ не только в инструмент для автоматизированного создания, но и в неотъемлемую часть процесса проектирования, позволяя пользователям совершенствовать и формировать выходные данные в реальном времени.
Клод Соннет 3.5 от Anthropic: Новая эра помощи ИИ
Anthropic выпустила последнюю версию своей большой языковой модели Claude Sonnet 3.5, представив несколько примечательных технических усовершенствований. Claude Sonnet 3.5 отличается более сложной архитектурой преобразователя, оптимизированной для более быстрого вывода и улучшенного понимания естественного языка. Модель была доработана на расширенном наборе данных, что повышает ее способность предоставлять более контекстно точные ответы. Кроме того, Claude Sonnet 3.5 интегрирует улучшенные возможности многооборотного диалога, что позволяет ей поддерживать более связные разговоры в расширенных взаимодействиях. Ее улучшенная эффективность и управление контекстом также позволяют ей точно реагировать на нюансированные подсказки, раздвигая границы разговорного ИИ.
Выдающейся функцией в этом выпуске является революционная возможность «Использование компьютера». Эта функция позволяет Claude Sonnet 3.5 взаимодействовать с компьютерными системами, выполняя определенные команды от имени пользователя. От управления файлами, открытия приложений до автоматизации общих задач рабочего стола, функция «Использование компьютера» фактически превращает Claude в более универсального помощника ИИ. Она использует защищенный протокол взаимодействия, гарантируя, что действия, выполняемые ИИ, безопасны и авторизованы пользователем, обеспечивая не только полезность, но и спокойствие относительно безопасности данных. Эта функция направлена на преодоление разрыва между разговорным ИИ и практической компьютерной автоматизацией, что означает значительный прогресс в полезности ИИ.
Выпуск Claude Sonnet 3.5 привлек внимание нескольких видных лидеров в области технологий. Руководители крупных технологических компаний выразили воодушевление по поводу потенциала функции «Использование компьютера». Например, генеральный директор OpenAI Сэм Альтман описал ее как многообещающий шаг в преодолении разрыва между разговорными возможностями и действенной помощью, как упоминалось в недавнем интервью VentureBeat. Генеральный директор Google Сундар Пичаи также подчеркнул ее преобразующий потенциал в статье на TechCrunch, отметив, что такие функции, как «Использование компьютера», могут значительно оптимизировать производительность за счет автоматизации рутинных взаимодействий между пользователями и их устройствами. Такие одобрения отражают растущее признание роли ИИ в изменении способа взаимодействия пользователей со своими устройствами и подчеркивают более широкую отраслевую тенденцию более глубокой интеграции ИИ в повседневные рабочие процессы.
Акт первый: новая глава в создании видео
Runway представила «Act One», новаторский инструмент ИИ, разработанный для вывода генерации видео на новый уровень, особенно фокусируясь на выступлениях персонажей. В отличие от предыдущих генеративных продуктов ИИ Runway, которые в первую очередь делали упор на видеоэффекты и передачу стиля, Act One позволяет пользователям генерировать целые видеосцены, полные действий персонажей и тонких выступлений. Используя подсказки на естественном языке, Act One позволяет пользователям направлять как визуальные аспекты, так и выступления персонажей в сцене. Это отличает его от других предложений Runway, которые, как правило, больше сосредоточены на изменении уже существующих кадров, а не на создании целых сцен с нуля. Например, режиссер может описать взаимодействие между двумя персонажами, указав их движения, выражения и диалоги, а Act One сгенерирует сцену, запечатлевая суть выступления. Это позволяет создателям быстро переходить от концепции к визуальному прототипу, предлагая новый, бесшовный способ воплощения идей в жизнь.
С технической стороны Act One использует комбинацию генеративно-состязательных сетей (GAN) и моделей на основе трансформаторов для создания реалистичных, контекстно-связных видеосцен из текстовых подсказок. Система объединяет несколько уровней обработки, включая композицию сцены, распознавание объектов, динамику движения и исполнение персонажей, гарантируя, что каждая видеопоследовательность будет естественной, а действия персонажей будут выразительными и правдоподобными. Например, пользователь может предоставить подсказку типа «ребенок бежит по полю цветов, улыбается и машет рукой», и Act One создаст визуальные эффекты, обрабатывая такие элементы объектов, как ребенок, цветы и бегущие движения, и при этом улавливая эмоциональные нюансы улыбки и махания персонажа. Модель также имеет улучшенный компонент временной согласованности, который обеспечивает плавные переходы между кадрами — важнейшую задачу при создании видео. Энтузиасты оценят использование методов переноса стилей, которые позволяют Act One создавать видео в различных художественных стилях, таких как аниме или импрессионистские визуальные эффекты, предлагая создателям значительную гибкость в повествовании. Использование ускорения графического процессора позволяет выполнять рендеринг в реальном времени, что позволяет создателям быстро переходить от сцены к сцене и совершенствовать свои проекты с минимальной задержкой.
Потенциал Акта один огромен, особенно для демократизации создания видеоконтента. Снижая барьеры для высококачественного видеопроизводства, Акт один может позволить независимым создателям, небольшим студиям и даже педагогам рассказывать сложные истории визуально, без необходимости в больших съемочных группах или дорогостоящем оборудовании. Это также может иметь последствия для маркетинга, опыта виртуальной реальности и даже кинопроизводства, где возможность быстро прототипировать сцены может сэкономить значительное время и деньги. Однако остаются вопросы о творческих ограничениях, присущих использованию ИИ для раскадровки и режиссуры — смогут ли когда-нибудь созданные ИИ рассказы действительно конкурировать с рассказчиками-людьми? Акт один подталкивает отрасль ближе к ответу на этот вопрос, предоставляя мощный инструмент и одновременно бросая нам вызов исследовать границы машинного творчества.
Подводя итоги этой недели, мы видим, что отрасль переживает быстрые и преобразующие изменения. От автономных агентов Microsoft до инновационного компьютерного управления Anthropic, генерации видео следующего уровня Runway и вклада Genmo с открытым исходным кодом — достижения, которые мы рассмотрели сегодня, подчеркивают, насколько динамичным стал ландшафт ИИ. И это только самые громкие новости — каждый день в отрасли появляются небольшие прорывы и постепенные улучшения. Оставайтесь с нами, потому что на следующей неделе мы предоставим вам еще больше захватывающих событий, поскольку мир технологий продолжает развиваться с молниеносной скоростью.