50 issues tracked
0
일반
1개 사이트에서 언급 6시간 전

Geometric Autoencoder, diffusion 모델용 구조화된 latent 표현 제안

새로운 연구가 diffusion model을 위한 geometric autoencoder를 제안하며, 고해상도 시각 생성에 더 원리적인 latent representation을 만들려 합니다.

새로운 연구가 diffusion model을 위한 geometric autoencoder를 제안하며, 고해상도 시각 생성에 더 원리적인 latent representation을 만들려 합니다. 기존 latent 설계가 다소 heuristic하게 구성되며 semantic discriminability와 생성 친화성을 함께 잡기 어려웠던 문제를, vision foundation model prior를 더 잘 활용하는 구조화된 표현으로 개선하려는 접근입니다. 이는 latent space 설계가 diffusion 기반 생성 모델의 효율, 제어성, 품질에 직접 영향을 준다는 점에서 중요합니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

비검증 가능 도메인에서 추론 LLM 판별기 사용

연구진이 비검증 가능 도메인에서 큰 언어 모델의 성능을 높이기 위해 추론 LLM 판별기를 사용하는 방법을探索하고 있습니다.

연구진이 비검증 가능 도메인에서 큰 언어 모델의 성능을 높이기 위해 추론 LLM 판별기를 사용하는 방법을探索하고 있습니다. 이 접근법은 추론 시간에 스케일링을 적용하여 비검증 가능 도메인에서 추론 모델의 성공을 확장합니다. 입력 데이터를 넣으면 → 추론 → 판별까지의 워크플로우를 통해 모델의 성능을 높일 수 있습니다. 비검증 가능 도메인에서 모델의 성능을 높여주는 도구가 될 것으로 보입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

컴퓨터 사용 에이전트를 위한 비디오 기반 보상 모델링

연구진은 컴퓨터 사용 에이전트의 성능을 평가하기 위한 비디오 기반 보상 모델링 방법을 제시했습니다.

연구진은 컴퓨터 사용 에이전트의 성능을 평가하기 위한 비디오 기반 보상 모델링 방법을 제시했습니다. 에이전트의 동작을视频로 녹화한 후 → 동작의 성공 여부를 평가 → 보상을 계산하는 워크플로를 통해 에이전트의 성능을 평가합니다. 이는 컴퓨터 사용 에이전트의 능력을 향상시키고, 사용자 지시에 따라 에이전트의 동작을 평가하는 데 도움이 될 것으로 보입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

Tiny Aya, 3.35B 규모로 다국어 성능 강화

Tiny Aya가 70개 언어를 학습하고 region-aware post-training을 적용해 번역, 다국어 이해, 목표 언어 생성 성능을 높인 소형 multilingual language model로 소개됐습니다.

Tiny Aya가 70개 언어를 학습하고 region-aware post-training을 적용해 번역, 다국어 이해, 목표 언어 생성 성능을 높인 소형 multilingual language model로 소개됐습니다. 3.35B 파라미터 규모에서도 학습 → 지역 인식형 후처리 → 다국어 생성으로 이어지는 최적화를 통해 높은 번역 품질과 강한 multilingual capability를 달성했다고 설명합니다. 이는 거대한 모델만이 다국어 성능을 낼 수 있다는 통념에 도전하며, 더 가벼운 모델로도 실제 서비스에 쓸 만한 multilingual AI를 만들 수 있음을 보여준다는 점에서 중요합니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

ShotVerse: 텍스트 기반 다중샷 비디오 생성을 위한 시네마틱 카메라 제어 개선

ShotVerse는 텍스트 기반 다중샷 비디오 생성에서 시네마틱 카메라 제어를 개선하는 시스템입니다.

ShotVerse는 텍스트 기반 다중샷 비디오 생성에서 시네마틱 카메라 제어를 개선하는 시스템입니다. 암시적인 텍스트 프롬프트의 제한과 명시적인 트라เจ토리 조건의 수동 오버헤드를 해결하여 더 정밀하고 효율적인 카메라 제어를 제공합니다. 텍스트 입력 → 카메라 제어 → 비디오 생성까지의 워크플로우를 개선함으로써, 전문가와 비전문가 모두가 고품질 비디오를 생성할 수 있도록 지원합니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

소프트웨어 개발 과정을 역으로 하는 LLM 프리트레이닝 이해

연구자들은 복잡한 소프트웨어 엔지니어링 작업에 대한 추론 능력을 향상시키기 위해 LLM 프리트레이닝을 위한 소프트웨어 개발 과정을 역으로 하는 접근법을 제안합니다.

연구자들은 복잡한 소프트웨어 엔지니어링 작업에 대한 추론 능력을 향상시키기 위해 LLM 프리트레이닝을 위한 소프트웨어 개발 과정을 역으로 하는 접근법을 제안합니다. 이는 정적 소프트웨어 저장소로 구성된 표준 프리트레이닝 데이터의 한계를 해결하기 위한 것입니다. 소프트웨어 개발 과정을 재구성함으로써 LLM은 코드 생성과 소프트웨어 엔지니어링에 대한 추론 능력을 더 잘 학습할 수 있습니다. 이 접근법은 LLM의 코드 생성 능력과 소프트웨어 엔지니어링에 대한 이해를 향상시킬 것으로 보입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

WeEdit, 텍스트 중심 이미지 편집 위한 데이터셋·벤치마크·Glyph 기반 프레임워크 제안

WeEdit가 이미지 속 텍스트를 수정·번역·재배치하는 text-centric image editing을 위해 데이터셋, 벤치마크, glyph-guided 프레임워크를 함께 제안했습니다.

WeEdit가 이미지 속 텍스트를 수정·번역·재배치하는 text-centric image editing을 위해 데이터셋, 벤치마크, glyph-guided 프레임워크를 함께 제안했습니다. 기존 instruction-based image editing이 주로 객체나 스타일 조작에 집중했다면, 이 연구는 이미지 입력 → 텍스트 구조 파악 → glyph 기반 편집 → 비대상 영역 보존이라는 흐름으로 이미지 내 글자 자체를 다루는 문제를 정면으로 겨냥합니다. 이는 디자인 수정, 로컬라이제이션, 시각 자료 업데이트처럼 실제 활용도가 높은 작업에서 텍스트 편집 품질을 끌어올리는 데 중요합니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

확장 가능한 잠재 인터페이스를 통한 디퓨전 트랜스포머의 유연한 컴퓨팅 예산

연구진은 디퓨전 트랜스포머에 확장 가능한 잠재 인터페이스를 도입하여 유연한 컴퓨팅 예산과 지연-품질 트레이드오프를 가능케 했습니다.

연구진은 디퓨전 트랜스포머에 확장 가능한 잠재 인터페이스를 도입하여 유연한 컴퓨팅 예산과 지연-품질 트레이드오프를 가능케 했습니다. 이 접근법은 입력 공간 토큰에 대한 컴퓨팅 자원의 효율적인 할당을 가능하게 하며 중요하지 않은 영역에서의 자원 낭비를 줄입니다. 이러한 방법은 이전에 이미지 해상도에 컴퓨팅 자원을 고정시키던 디퓨전 트랜스포머의 유연성을 개선합니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

OmniStream: 지속적인 스트림에서 인식, 재구성, 행동을 마스터하는 통합 프레임워크

오미스트림은 실시간 스트리밍 환경에서 작동하는 현대의 시각 에이전트가 요구하는 일반적이고 인과적이며 물리적으로 구조화된 표현을 제공합니다.

오미스트림은 실시간 스트리밍 환경에서 작동하는 현대의 시각 에이전트가 요구하는 일반적이고 인과적이며 물리적으로 구조화된 표현을 제공합니다. 기존의 비전 기초 모델은 이미지 의미 인식, 오프라인 시간 모델링, 또는 공간 기하학에 좆은 범위로 특화되어 있지만 오미스트림은 인식 → 재구성 → 행동의 전체 과정을 통합 워크플로에서 처리합니다. 이러한 통합적인 접근 방식은 다양한 응용 분야에서 성능을 향상시킬 것으로 보입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

소프트맥스 트랜스포머에서 어텐션 싱크의 필수성 입증 심화 분석

연구진은 트리거 조건부 행동을 계산할 때 소프트맥스 트랜스포머에서 어텐션 싱크가 필수적임을 입증했습니다.

연구진은 트리거 조건부 행동을 계산할 때 소프트맥스 트랜스포머에서 어텐션 싱크가 필수적임을 입증했습니다. 소프트맥스 셀프 어텐션 모델에서 정규화 과정이 싱크를 유도하기 때문입니다. 이 연구 결과는 이전에 직관적으로 이해되었던 트랜스포머의 행동을 공식화했습니다. 소프트맥스 트랜스포머에서 어텐션 싱크는 트리거 조건부 태스크를 처리할 때 필수적인 요소로 작용합니다. 트리거 입력 → 소프트맥스 함수 → 어텐션 가중치 계산 → 싱크 생성까지의 워크플로에서 중요한 역할을 합니다. 따라서 트랜스포머의 동작을 이해하고 개선하는 데에 중요한 의미를 갖습니다.
심화 분석
이번 연구는 그동안 자주 관찰되던 attention sink 현상이 단순한 구현상의 부산물이 아니라, 특정 계산 조건에서는 softmax Transformer에 구조적으로 필요한 현상임을 증명했다는 점에서 중요합니다. 논문은 trigger-conditional behavior를 수행할 때 softmax self-attention의 정규화 특성 때문에 확률 질량이 입력 내용과 무관한 고정 위치에 모일 수밖에 없으며, 이는 모델이 입력을 사실상 무시해야 하는 default state를 안정적으로 구현하려면 기준점이 필요하기 때문이라고 설명합니다. 작동 흐름으로 보면 trigger 감지 → softmax normalization → attention weight 분배 → sink 형성으로 이어지며, 왜 일부 head가 반복적으로 별 의미 없어 보이는 토큰 위치에 주의를 집중하는지에 대한 이론적 설명을 제공합니다. 경쟁 구도라기보다는 mechanistic interpretability와 attention architecture 연구 전반에 영향을 주는 결과이며, 기존에 경험적으로만 논의되던 현상을 수학적으로 정식화했다는 점이 핵심입니다. 따라서 모델 내부를 해석하는 연구자뿐 아니라 새로운 attention variant를 설계하는 연구자들에게도, 겉보기에 비효율적으로 보이는 패턴이 사실은 softmax 구조의 필연일 수 있다는 시사점을 줍니다. 앞으로는 Transformer의 이상 현상처럼 보이는 패턴들 가운데 무엇이 제거해야 할 artifact이고 무엇이 구조적 기능인지 더 정교하게 구분하는 연구가 늘어날 가능성이 큽니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

문서 컬렉션에서 에이전트는 전략적으로 추론할까, 우연히 찾을까

새로운 연구가 multimodal agent가 문서 컬렉션을 탐색할 때 실제로 전략적으로 추론하는지, 아니면 stochastic한 시행착오 검색에 의존하는지를 분석했습니다.

새로운 연구가 multimodal agent가 문서 컬렉션을 탐색할 때 실제로 전략적으로 추론하는지, 아니면 stochastic한 시행착오 검색에 의존하는지를 분석했습니다. 이를 위해 연구진은 문서 중심 추론 행동을 평가하는 2,250개의 human-authored 예제로 구성된 MADQA 벤치마크를 제안했습니다. 이는 복잡한 정보 탐색 작업에서 에이전트가 진짜 계획과 추론을 하는지, 아니면 그럴듯해 보이는 검색 패턴만 보이는지 구분하는 데 중요합니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

DreamVideo-Omni: 옴니모션 제어를 통한 다중 주체 비디오 커스터마이즈

연구진은 대규모 확산 모델이 비디오 합성을 혁신적으로 발전시킨 가운데 다중 주체 아이덴티티와 다중 그래뉴러리티 모션을 정밀하게 제어하는 것이 여전히 큰 도전임을 인식했습니다.

연구진은 대규모 확산 모델이 비디오 합성을 혁신적으로 발전시킨 가운데 다중 주체 아이덴티티와 다중 그래뉴러리티 모션을 정밀하게 제어하는 것이 여전히 큰 도전임을 인식했습니다. DreamVideo-Omni는 잠재 아이덴티티 강화 학습을 사용하여 다중 주체 비디오를 생성 → 모션 제어 → 커스터마이즈하는 전체 워크플로우를 제공합니다. 이는 비디오 편집 및 합성 애플리케이션에 큰 영향을 미칠 것으로 보입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

멀티태스킹 강화학습을 통한 멀티모달 대규모 언어 모델 판별기 강화

연구진이 시각 태스크에서 판별기로서 사용되는 멀티모달 대규모 언어 모델을 강화하기 위해 멀티태스킹 강화학습 접근법을 도입했습니다.

연구진이 시각 태스크에서 판별기로서 사용되는 멀티모달 대규모 언어 모델을 강화하기 위해 멀티태스킹 강화학습 접근법을 도입했습니다. 이 방법은 여러 태스크를 동시에 최적화함으로써 다양한 상황에서 더 잘 일반화할 수 있습니다. 강화된 멀티모달 대규모 언어 모델 판별기는 인간의 판단과 더 잘 일치하는 것으로 나타났습니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

팀 사이즈에 구애받지 않는 협력적인 인간-객체 상호작용을 위한統一 정책 학습 프레임워크 TeamHOI

연구진은 팀 사이즈에 구애받지 않는 협력적인 인간-객체 상호작용을 위한統一 정책 학습 프레임워크 TeamHOI를 발표했습니다.

연구진은 팀 사이즈에 구애받지 않는 협력적인 인간-객체 상호작용을 위한統一 정책 학습 프레임워크 TeamHOI를 발표했습니다. 이 프레임워크는 물리 기반 휴머노이드 제어를 기반으로 하며, 실제적이고 고효율의 다중 에이전트 행동을 가능하게 합니다. TeamHOI는 협력적인 인간-객체 상호작용 능력을 크게 발전시킬 수 있을 것으로 보입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

비디오 리즌닝 모델, 실외 환경에 나설 준비가 되었는가

비전-언어 모델은 실외 환경에서 날씨, 가시성 저하, 카메라 동작과 같은 외란을 만나게 됩니다.

비전-언어 모델은 실외 환경에서 날씨, 가시성 저하, 카메라 동작과 같은 외란을 만나게 됩니다. 이런 조건에서 모델의 이해력과 추론 능력이 크게 저하되는 것을 볼 수 있습니다. 모델은 일반적으로 깨끗하고 통제된 환경에서 학습되고 평가되기 때문에, 실험실 환경과 실외 환경 사이에 큰 간격이 존재합니다. 이러한 간격은 더 강건한 모델이 필요함을 보여주며, 다양한 동적 환경을 처리할 수 있는 능력이 중요해집니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

엔도코트: 확산 모델에서 내재적 사고 연쇄 추론 확장

연구진은 엔도코트를 제안했습니다, 이는 확산 모델에서 내재적 사고 연쇄 추론을 확장하는 방법으로, 현재의 멀티모달 대규모 언어 모델(MLLM)이 텍스트 인코더로서 가지는 두 가지 주요한 한계를 해결합니다.

연구진은 엔도코트를 제안했습니다, 이는 확산 모델에서 내재적 사고 연쇄 추론을 확장하는 방법으로, 현재의 멀티모달 대규모 언어 모델(MLLM)이 텍스트 인코더로서 가지는 두 가지 주요한 한계를 해결합니다. 이미지나 텍스트를 입력하면 → 내재적 사고 연쇄 추론을 적용 → 공간 추론과 같은 복잡한 작업을 처리합니다. 이는 확산 모델의 성능을 향상시키고, 다양한 응용 분야에서 활용될 수 있을 것으로 보입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

Trust Your Critic, 충실한 이미지 편집·생성을 위한 보상 모델링 개선

Trust Your Critic이 이미지 편집과 text-to-image 생성의 충실도를 높이기 위한 robust reward modeling 및 reinforcement learning 프레임워크를 제안했습니다.

Trust Your Critic이 이미지 편집과 text-to-image 생성의 충실도를 높이기 위한 robust reward modeling 및 reinforcement learning 프레임워크를 제안했습니다. 기존 RL 파이프라인에서 critic 역할의 reward model이 hallucination과 noisy score로 최적화를 잘못 이끄는 문제를 줄이기 위해, 더 신뢰할 수 있는 보상 신호를 만드는 데 초점을 맞춥니다. 이는 생성 모델이 사용자 지시를 더 정확히 따르고, 이미지 편집과 생성 결과의 일관성과 신뢰성을 높이는 데 중요합니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

GRADE: 이미지 편집 분야 지식 기반 추론 벤치마크

연구진은 이미지 편집 분야의 구조화된 도메인 지식에 기반한 추론 능력을 평가하는 GRADE 벤치마크를 제시했습니다.

연구진은 이미지 편집 분야의 구조화된 도메인 지식에 기반한 추론 능력을 평가하는 GRADE 벤치마크를 제시했습니다. 이 벤치마크는 멀티모달 모델이 특정 지침하에 이미지 이해 → 추론 → 생성 능력을 평가합니다. 기존 이미지 편집 벤치마크가 자연 이미지와浅은 상식 추론에만 집중한 것과 달리, GRADE는 도메인 지식에 기반한 이미지 편집 능력을 평가함으로써 의미 있는 발전입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

사운드위버: 텍스트-오디오 확산 모델 가속 기술

사운드위버는 텍스트-오디오 확산 모델을 가속시키는 첫 번째 학습이 없는 모델에 종속되지 않는 서빙 시스템입니다.

사운드위버는 텍스트-오디오 확산 모델을 가속시키는 첫 번째 학습이 없는 모델에 종속되지 않는 서빙 시스템입니다. 사운드위버는 의미론적 워밍업을 통해 함수 평가 횟수를 줄여서 대기 시간을 감소시키고 처리량을 증가시킵니다. 텍스트 입력 → 의미론적 워밍업 → 초기화 → 확산 과정까지의 워크플로우를 최적화함으로써 사운드위버는 실시간 응용 프로그램에 적합한 효율적인 텍스트-오디오 확산 모델을 제공합니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

Spatial-TTT: 스트리밍 비주얼 기반 공간 지능

연구진이 Spatial-TTT를 발표했습니다.

연구진이 Spatial-TTT를 발표했습니다. 이 기술은 비주얼 데이터 스트림을 통해 공간 증거를 유지하고 업데이트합니다 → 테스트 타임 트레이닝을 통해 환경과 컨텍스트의 변화에 적응합니다 → 스트리밍 비주얼 데이터에서 지속적으로 학습함으로써 공간 인식을 강화합니다. 이는 공간 인식과 이해를 향상시키는 데 중요한 역할을 할 것으로 보입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

IndexCache, cross-layer index 재사용으로 sparse attention 가속

IndexCache가 sparse attention에서 attention index를 여러 레이어에 걸쳐 재사용해 추론 속도를 높이는 방법을 제안했습니다.

IndexCache가 sparse attention에서 attention index를 여러 레이어에 걸쳐 재사용해 추론 속도를 높이는 방법을 제안했습니다. DeepSeek Sparse Attention 같은 production-grade sparse attention 계열을 배경으로, 레이어마다 반복되던 index 계산 비용을 줄여 long-context 처리 효율을 높이는 방식입니다. 긴 컨텍스트를 다루는 agentic workflow에서는 attention 비용이 곧 지연 시간과 서빙 비용으로 이어지기 때문에, 이 접근은 실제 배포 환경의 효율성을 높이는 데 의미가 있습니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

EmbTracker: 연방 언어 모델을 위한 블랙박스 워터마킹

연구진은 EmbTracker를 소개했습니다, 이는 연방 언어 모델을 위한 블랙박스 워터마킹 방식으로, 화이트박스 접근이 필요 없게 해줍니다.

연구진은 EmbTracker를 소개했습니다, 이는 연방 언어 모델을 위한 블랙박스 워터마킹 방식으로, 화이트박스 접근이 필요 없게 해줍니다. 클라이언트가 받은 모델 인스턴스를 → 워터마크 삽입 → 추적하는 워크플로를 통해, EmbTracker는 누출된 모델의 출처를 식별할 수 있습니다. 이는 연방 학습의 보안과 신뢰성에 중요한 영향을 미칠 것으로 보입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

EVATok: 효율적인 시각적 자기회귀 생성을 위한 적응적 길이 비디오 토큰화

연구진은 EVATok를 제안했습니다, 이는 재구성 품질과 계산 비용을 균형 있게 조절하기 위해 토큰 시퀀스의 길이를 적응적으로 조정하는 비디오 토큰화 방법입니다.

연구진은 EVATok를 제안했습니다, 이는 재구성 품질과 계산 비용을 균형 있게 조절하기 위해 토큰 시퀀스의 길이를 적응적으로 조정하는 비디오 토큰화 방법입니다. 이 접근법을 통해 전통적인 균일한 토큰화 방법과 비교하여 계산 비용을 줄여 효율적인 시각적 자기회귀 생성을 가능하게 합니다. 이를 통해 자기회귀 비디오 생성 모델의 전체 성능을 향상시킵니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

모바일 기기용 실시간 가우시안 스플래팅 기술 Mobile-GS

연구진이 모바일 기기용 실시간 가우시안 스플래팅 기술인 Mobile-GS를 발표했습니다.

연구진이 모바일 기기용 실시간 가우시안 스플래팅 기술인 Mobile-GS를 발표했습니다. 3D 가우시안 스플래팅은 높은 품질의 렌더링을 제공하지만 계산 요구와 저장 공간이 많아 모바일 기기에서 구현하기 어려웠습니다. Mobile-GS는 입력 데이터 → 최적화된 알고리즘 → 효율적인 데이터 처리와 같은 워크플로우를 통해 실시간 렌더링을 가능하게 합니다. 모바일 기기에서 고품질 렌더링을 가능하게 해 주므로 게임, 시뮬레이션 등 다양한 분야에서 활용될 것으로 보입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

DIVE: 에이전트 태스크 합성의 다양성을 확대하여 도구 사용의 일반화 성능 향상

연구자들은 도구 사용의 일반화 성능을 향상시키기 위해 에이전트 태스크 합성의 다양성을 확대하는 DIVE 방법을 제시했습니다.

연구자들은 도구 사용의 일반화 성능을 향상시키기 위해 에이전트 태스크 합성의 다양성을 확대하는 DIVE 방법을 제시했습니다. 이 접근법은 태스크와 도구셋의 변화에 따른 강건한 일반화를 위한 태스크 합성의 다양성을 증가시킵니다. 태스크와 도구셋의 변화에 강건한 일반화를 제공하는 것이 더 적응성 있고 효과적인 LLM을 개발하는 데 중요합니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

FireRedASR2S, 4개 음성 처리 모듈 통합한 ASR 시스템 공개

FireRedASR2S가 ASR, VAD, LID, Punctuation Prediction을 하나의 산업용 음성인식 시스템으로 통합해 공개됐습니다.

FireRedASR2S가 ASR, VAD, LID, Punctuation Prediction을 하나의 산업용 음성인식 시스템으로 통합해 공개됐습니다. 음성 입력부터 ASR → VAD → 언어 식별 → 문장부호 복원까지 단일 파이프라인으로 처리하며, 4개 모듈 모두 SOTA 성능을 달성했다고 설명합니다. 여러 음성 처리 컴포넌트를 따로 조합해야 했던 운영 복잡도를 낮출 수 있어서, 실제 서비스 환경에서 정확도와 배포 효율을 함께 높이는 데 의미가 있습니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

액센트 벡터: 데이터 없이 다국어 TTS에서 제어 가능한 억양 조작

연구진은 액센트 벡터를 제안했습니다, 이는 데이터 없이 다국어 TTS 시스템에서 제어 가능한 억양 조작을 가능하게 하는 방법입니다.

연구진은 액센트 벡터를 제안했습니다, 이는 데이터 없이 다국어 TTS 시스템에서 제어 가능한 억양 조작을 가능하게 하는 방법입니다. 이 접근법은 다양한 억양을 생성할 수 있게 해주며, 주로 미국 억양 영어만 모델링하는 현재 TTS 시스템의 한계를 해결합니다. 액센트 벡터 방법은 TTS 시스템의 포용성과 표현력을 향상시키는 데 중요한 의미를 가지고 있습니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

자동으로 높은 성능의 강화학습 환경을 생성하는 기술

연구진은 복잡한 강화학습 환경을 높은 성능의 구현으로 번역하는 데 전통적으로 몇 개월의 전문 엔지니어링이 필요하다는 문제를 해결하기 위해 재사용 가능한 레시피를 제시했습니다.

연구진은 복잡한 강화학습 환경을 높은 성능의 구현으로 번역하는 데 전통적으로 몇 개월의 전문 엔지니어링이 필요하다는 문제를 해결하기 위해 재사용 가능한 레시피를 제시했습니다. 이 접근법은 제네릭 프롬프트 템플릿 → 계층적 검증 → 반복적 에이전트 지원 수리를 통해 높은 품질의 환경을 생성합니다. 이 기술은 강화학습 애플리케이션의 개발을 크게 가속화할 것으로 보입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

DVD: 생성적 사전 지식을 활용한 결정론적 비디오 깊이 추정

연구진은 생성적 모델의隨機한 기하학적 환상과 규모 드리프트, 그리고 판별적 모델의 대규모 레이블 데이터셋 요구를 해결하기 위해 DVD 프레임워크를 제시했습니다.

연구진은 생성적 모델의隨機한 기하학적 환상과 규모 드리프트, 그리고 판별적 모델의 대규모 레이블 데이터셋 요구를 해결하기 위해 DVD 프레임워크를 제시했습니다. DVD는 입력 비디오를 받아서 → 생성적 사전 지식을 활용한 깊이 추정 → 결정론적 결과를 출력하는 워크플로를 따릅니다. 이는 비디오 깊이 추정의 정확도와 효율성을 향상시킬 수 있는 도구가 될 것으로 보입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

FP4 양자화된 LLM 훈련에서 평균 편향의 저주와 축복

연구자들은 저비트 훈련 환경에서 특히 FP4 양자화를 사용하는 경우에 평균 편향이 대규모 언어 모델(LLM) 훈련에 미치는 영향을 조사했습니다.

연구자들은 저비트 훈련 환경에서 특히 FP4 양자화를 사용하는 경우에 평균 편향이 대규모 언어 모델(LLM) 훈련에 미치는 영향을 조사했습니다. LLM은 자연어에 대한 훈련으로 인해 비대칭적인 기하학적 구조를 가지는데, 이 구조는 저비트 훈련 환경에서 수치적으로 불안정해질 수 있습니다. 평균 편향을 이해하는 것은 안정적이고 효율적인 LLM 훈련을 위해 필수적입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

4DEquine: 단안 비디오 기반 4D 말 체형 재구성

연구진은 단안 비디오로부터 말 체형을 4D로 재구성하는 4DEquine 방법을 제시했습니다.

연구진은 단안 비디오로부터 말 체형을 4D로 재구성하는 4DEquine 방법을 제시했습니다. 이 방법은 동작과 외관을 분리하여 효율성과 강건성을 향상시킵니다. 전체 비디오에 대한 동시 최적화를 피함으로써 계산 시간을 줄이고 관측 누락에 대한 민감성을 감소시킵니다. 이 방법은 동물 복지 응용 분야에重大한 영향을 미칠 것으로 보입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

신경 세포 자동자를 이용한 언어 모델 훈련

연구자들은 전통적인 사전 훈련 방법의 제한점을 해결하기 위해 신경 세포 자동자를 이용한 언어 모델 훈련 방법을 제안했습니다.

연구자들은 전통적인 사전 훈련 방법의 제한점을 해결하기 위해 신경 세포 자동자를 이용한 언어 모델 훈련 방법을 제안했습니다. 이 접근법은 훈련 데이터에서 인간의 편향을 줄이고 지식과 추론을 분리하는 것을 목표로 합니다. 신경 세포 자동자를 사용하면 언어 모델이 더 제어되고 효율적인 방식으로 표현과 능력을 학습할 수 있습니다. 이는 언어 모델의 성능과 일반화를 향상시키는 데 도움이 될 것입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

차세대 비파괴 검사 기술을 위한 신경장 열 투과법 프레임워크 심화 분석

연구진은 표면 온도 측정을 통해 재료 특성의 3차원 재구성을 위한 차별 가능한 물리학 프레임워크인 Neural Field Thermal Tomography (NeFTY)를 제안했습니다.

연구진은 표면 온도 측정을 통해 재료 특성의 3차원 재구성을 위한 차별 가능한 물리학 프레임워크인 Neural Field Thermal Tomography (NeFTY)를 제안했습니다. NeFTY는 전통적인 열 투과법이 간과하는 수평 확산을 고려하여 더 정확한 양적 재구성을 가능케 합니다. 이는 비파괴 검사 분야에서 새로운 가능성을 열어주는 기술입니다.
심화 분석
NeFTY는 표면 온도 데이터만으로 내부 재료 특성을 더 현실적으로 복원하려는 비파괴 검사 문제에 differentiable physics를 본격적으로 적용했다는 점에서 중요합니다. 기존 열 투과법이 픽셀별 1D 근사에 머물며 lateral diffusion을 무시했다면, 이 프레임워크는 3D diffusivity field를 연속적인 neural field로 표현하고 transient surface temperature 측정값에 맞춰 이를 최적화합니다. 작동 흐름은 표면 열 관측 → differentiable heat diffusion 모델링 → neural field 기반 diffusivity 추정 → 3D 재료 특성 재구성으로 이어지며, transient diffusion에서 gradient stiffness 문제를 겪는 PINN 계열보다 더 물리적으로 정합적인 접근을 지향합니다. 경쟁 구도에서는 전통적 thermography, PINN 기반 inverse solver, 과학계산용 neural operator 계열과 맞닿아 있으며, 정량적 3D 복원 정확도를 얼마나 확보하느냐가 핵심 승부처가 됩니다. 특히 aerospace, 제조, 인프라 점검처럼 내부 결함을 파괴 없이 정밀하게 파악해야 하는 산업에 직접적인 영향을 줄 가능성이 큽니다. 앞으로는 이런 hybrid physics-ML 프레임워크가 제한된 표면 센싱만으로도 내부 구조를 복원하는 산업용 AI의 핵심 방식으로 자리잡을 가능성이 높습니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

XSkill: 멀티모달 에이전트를 위한 경험과 스킬 기반 지속 학습

멀티모달 에이전트는 다양한 도구를 사용하여 복잡한 推論 작업을 수행할 수 있지만 여전히 효율적인 도구 사용과 유연한 오케스트레이션이 부족합니다.

멀티모달 에이전트는 다양한 도구를 사용하여 복잡한 推論 작업을 수행할 수 있지만 여전히 효율적인 도구 사용과 유연한 오케스트레이션이 부족합니다. XSkill은 에이전트가 매개변수 업데이트 없이 과거 경로에서 학습함으로써 지속적으로 개선할 수 있도록 합니다. 에이전트는 과거 경로 → 학습 → 스킬 개선의 워크플로우를 통해 효율적인 도구 사용과 유연한 오케스트레이션을 실현할 수 있습니다. 이는 멀티모달 에이전트의 성능을 향상시키고 다양한 작업에서 유용하게 활용될 수 있을 것으로 보입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

다이벳트를 혼합하여 DINO 비전 인코더를 옴니보어스하게 만듦 심화 분석

연구진은 다양한 데이터를混合하여 DINO 비전 인코더를 학습시킴으로써 멀티모달 태스크에서의 성능을 향상시켰습니다.

연구진은 다양한 데이터를混合하여 DINO 비전 인코더를 학습시킴으로써 멀티모달 태스크에서의 성능을 향상시켰습니다. 이 접근법은 RGB 이미지와 그에 해당하는 깊이 맵과 같은 서로 다른 모달리티 간의 피처 표현이 잘 맞지 않는 문제를 해결합니다. 데이터를 넣으면 → 피처 추출 → 모달리티 간의 정렬 → 최종 출력까지의 전체 과정을 개선함으로써 다양한 태스크에서 우수한 성능을 발휘합니다. 전문가들은 이 기술이 컴퓨터 비전 분야에서 중요한 역할을 할 것으로 기대합니다.
심화 분석
이번 연구는 DINOv2 같은 강력한 vision encoder가 단일 모달리티에서는 뛰어나더라도, 멀티모달 환경에서는 표현 정렬이 잘 안 된다는 근본적 한계를 정면으로 다뤘다는 점에서 중요합니다. 연구진은 DINO를 다양한 데이터의 mixed diet로 학습시켜 RGB 이미지와 depth map처럼 같은 장면을 담은 서로 다른 입력도 더 일관된 shared feature space에 매핑되도록 만들었고, 이를 Omnivorous Vision Encoder라고 제안했습니다. 기술적으로는 멀티모달 입력 → DINO 기반 feature extraction → modality-aware embedding 정렬 → downstream task 수행의 흐름으로 작동하며, 기존에는 짝이 맞는 RGB와 depth 임베딩의 cosine similarity가 무관한 이미지 쌍과 비슷할 정도로 정렬이 약했던 문제를 직접 개선합니다. 경쟁 구도에서는 self-supervised vision backbone을 멀티모달 foundation encoder로 확장하려는 흐름과 맞닿아 있으며, 기존 DINO 계열의 장점을 버리지 않고 범용성을 넓히려 한다는 점이 핵심입니다. 특히 robotics, 3D perception, embodied AI, multimodal retrieval처럼 서로 다른 센서와 표현을 함께 다뤄야 하는 분야에서 직접적인 영향을 줄 가능성이 큽니다. 앞으로는 vision foundation model의 평가 기준이 단순한 이미지 인코딩 성능을 넘어, 얼마나 다양한 모달리티를 자연스럽게 하나의 지각 인터페이스로 묶어내는지로 이동할 가능성이 높습니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

인도네시아 모로와리 산업 공원에서 니켈 가공 확장으로 인한 연안 수질 악화의 인과적 귀속

인도네시아의 니켈 광석 수출 금지로 인해 인도네시아 모로와리 산업 공원에서 노화와 수력 метал로加工 능력의 급격한 확장이 이루어졌습니다.

인도네시아의 니켈 광석 수출 금지로 인해 인도네시아 모로와리 산업 공원에서 노화와 수력 метал로加工 능력의 급격한 확장이 이루어졌습니다. 이 산업화가 연안 수질의 악화와 인과적으로 관련이 있는지에 대한 연구가 진행되었습니다. 연구에서는 산업화로 인한 연안 수질의 변화 → 수질 오염의 원인 분석 → 환경적 영향 평가까지의 과정을 통해 결과를 도출합니다. 이 연구는 산업화가 연안 수질에 미치는 영향을 정량화하고 환경적 영향에 대한 이해를 높이는 데 기여할 것으로 보입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

Dr. SHAP-AV: 오디오-비주얼 음성 인식에서 모달리티 기여도 분석을 위한 프레임워크

연구자들이 오디오-비주얼 음성 인식에서 오디오와 비주얼 모달리티의 상대적인 기여도를 분석하는 Dr.

연구자들이 오디오-비주얼 음성 인식에서 오디오와 비주얼 모달리티의 상대적인 기여도를 분석하는 Dr. SHAP-AV 프레임워크를 발표했습니다. 이 프레임워크는 Shapley 값을 사용하여 모델이 노이즈가 있는 환경에서 강력한 음성 인식을 위해 음향 정보와 시각 정보를 어떻게 균형을 잡는지 명확히 합니다. 이 접근법은 오디오-비주얼 음성 인식 시스템의 성능과 신뢰성을 향상시키는 데 영향을 미칠 것입니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

비전언어행동 모델이 강화학습으로 지속학습을 달성한다

연구진은 비전언어행동 모델이 강화학습을 통해 자연스럽게 새로운 작업에 적응할 수 있음을 발견했습니다.

연구진은 비전언어행동 모델이 강화학습을 통해 자연스럽게 새로운 작업에 적응할 수 있음을 발견했습니다. 이 접근법은 열린 환경에서 학습할 수 있는 자율 에이전트를 가능케 합니다. 이미지와 언어를 입력받아 행동을 출력하는 워크플로우 → 강화학습을 적용 → 지속적인 학습을 통해 성능을 향상시킵니다. 이는 지속학습을 달성하기 위해 복잡한 방법이 반드시 필요한 것은 아니라는 점을 보여줍니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

HyPER-GAN: 하이브리드 패치 기반 이미지 번역을 이용한 실시간 포토리얼리즘 향상 심화 분석

연구진은 HyPER-GAN을 발표했습니다, 이는 하이브리드 패치 기반 이미지 번역을 이용해 실시간으로 포토리얼리즘을 향상시키는 모델입니다.

연구진은 HyPER-GAN을 발표했습니다, 이는 하이브리드 패치 기반 이미지 번역을 이용해 실시간으로 포토리얼리즘을 향상시키는 모델입니다. 이미지 입력 → 패치 기반 처리 → 글로벌 이미지 처리까지의 워크플로우를 통해 HyPER-GAN은 시각적 아티팩트를 줄이고 컴퓨팅 자원을 효율적으로 사용합니다. 이는 컴퓨터 비전 알고리즘의 정확도와 효율성을 향상시킬 수 있을 것으로 보입니다.
심화 분석
HyPER-GAN은 synthetic data 파이프라인에서 늘 문제였던 포토리얼리즘 품질, 아티팩트 억제, 실시간 처리 성능을 동시에 노렸다는 점에서 의미가 큽니다. 이 모델은 경량 U-Net 기반 구조 위에 hybrid patch-based image-to-image translation을 얹어, 이미지 입력 → patch 단위 향상 → global consistency 보정 → photorealistic 출력으로 이어지는 흐름을 통해 로컬 디테일과 전체 장면 일관성을 함께 잡으려 합니다. 기술적으로는 패치 기반 처리의 효율성과 전역 문맥 반영의 장점을 결합해, 기존 생성 모델이 종종 만들던 시각적 artifact를 줄이면서도 계산량을 낮추는 것이 핵심입니다. 경쟁 구도에서는 sim-to-real translation, photorealism enhancement, synthetic data refinement 계열과 맞물리지만, 실시간성과 경량성에 초점을 둔 점이 차별화 요소가 됩니다. 특히 synthetic data를 학습, 검증, domain adaptation에 적극 활용하는 computer vision 팀에게는 데이터 품질과 모델 정확도 사이의 간극을 줄이는 도구가 될 수 있습니다. 앞으로 이런 계열의 접근이 더 성숙해지면, synthetic data 활용은 단순한 비용 절감 수단을 넘어 실제 운영 가능한 학습 인프라의 핵심 축으로 자리잡을 가능성이 있습니다.
이슈가 언급된 사이트
0
일반
1개 사이트에서 언급 6시간 전

PACED: 학생 모델의 역량 한계에서蒸發을進行하는 새로운 방법

연구자들은 PACED라는 새로운蒸發 방법을 제안했습니다.

연구자들은 PACED라는 새로운蒸發 방법을 제안했습니다. PACED는 학생 모델이 이미 마스터한 문제나 모델의 능력 범위를 벗어난 문제에 대한 컴퓨팅 자원을 낭비하지 않습니다. 학생 모델의 역량 한계에서蒸發을進行함으로써, PACED는 LLM蒸發의 효율성을 향상시킵니다. PACED는 기존의蒸發 방법보다 더 효율적으로 학생 모델을 학습시킬 수 있으므로, 더 나은 성능의 LLM을 개발하는 데 도움이 될 것으로 보입니다.
이슈가 언급된 사이트