Research - Datapro Consultancy Services

MAGIC123: ONE IMAGE TO HIGH-QUALITY 3D OBJECT GENERATION USING BOTH 2D AND 3D DIFFUSION PRIORS

WE PRESENT MAGIC123, A TWO-STAGE COARSE-TO-FINE APPROACH FOR HIGH-QUALITY, TEXTURED 3D MESHES GENERATION FROM A SINGLE UNPOSED IMAGE IN THE WILD USING BOTH2D AND 3D PRIORS.

NEURAL C LANGUAGE MODELS ARE ZERO-SHOT TEXT TO SPEECH SYNTHESIZERS

IN ADDITION, WE FIND VALL-E COULD PRESERVE THE SPEAKER'S EMOTION AND ACOUSTIC ENVIRONMENT OF THE ACOUSTIC PROMPT IN SYNTHESIS.

ONE-2-3-45: ANY SINGLE IMAGE TO 3D MESH IN 45 SECONDS WITHOUT PER-SHAPE OPTIMIZATION

SINGLE IMAGE 3D RECONSTRUCTION IS AN IMPORTANT BUT CHALLENGING TASK THAT REQUIRES EXTENSIVE KNOWLEDGE OF OUR NATURAL WORLD.

EXPLORING PREDICATE VISUAL CONTEXT IN DETECTING OF HUMAN-OBJECT INTERACTIONS

RECENTLY, THE DETR FRAMEWORK HAS EMERGED AS THE DOMINANT APPROACH FOR HUMAN--OBJECT INTERACTION (HOI) RESEARCH.

VOCOS: CLOSING THE GAP BETWEEN TIME-DOMAIN AND FOURIER-BASED NEURAL VORS FOR HIGH-QUALITY AUDIO SYNTHESIS

RECENT ADVANCEMENTS IN NEURAL VOCODING ARE PREDOMINANTLY DRIVEN BY GENERATIVE ADVERSARIAL NETWORKS (GANS) OPERATING IN THE TIME-DOMAIN.

UNIVTG: TOWARDS UNIFIED VIDEO-LANGUAGE TEMPORAL GROUNDING

MOST METHODS IN THIS DIRECTION DEVELOP TASKSPECIFIC MODELS THAT ARE TRAINED WITH TYPE-SPECIFIC LABELS, SUCH AS MOMENT RETRIEVAL (TIME INTERVAL) AND HIGHLIGHT DETECTION (WORTHINESS CURVE), WHICH LIMITS THEIR ABILITIES TO GENERALIZE TO VARIOUS VTG TASKS AND LABELS.

LLM.INT8(): 8-BIT MATRIX MULTIPLICATION FOR TRANSFORMERS AT SCALE

WE DEVELOP A PROCEDURE FOR INT8 MATRIX MULTIPLICATION FOR FEED-FORWARD AND ATTENTION PROJECTION LAYERS IN TRANSFORMERS, WHICH CUT THE MEMORY NEEDED FOR INFERENCE BY HALF WHILE RETAINING FULL PRECISION PERFORMANCE.

MEMORY TRANSFORMER

ADDING TRAINABLE MEMORY TO SELECTIVELY STORE LOCAL AS WELL AS GLOBAL REPRESENTATIONS OF A SEQUENCE IS A PROMISING DIRECTION TO IMPROVE THE TRANSFORMER MODEL.

SSLREC: A SELF-SUPERVISED LEARNING LIBRARY FOR RECOMMENDATION

OUR SSLREC PLATFORM COVERS A COMPREHENSIVE SET OF STATE-OF-THE-ART SSL-ENHANCED RECOMMENDATION MODELS ACROSS DIFFERENT SCENARIOS, ENABLING RESEARCHERS TO EVALUATE THESE CUTTING-EDGE MODELS AND DRIVE FURTHER INNOVATION IN THE FIELD.

MAXIMUM ENTROPY HETEROGENEOUS-AGENT MIRROR LEARNING

MULTI-AGENT REINFORCEMENT LEARNING (MARL) HAS BEEN SHOWN EFFECTIVE FOR COOPERATIVE GAMES IN RECENT YEARS.

TOKEN MERGING FOR FAST STABLE DIFFUSION

IN THE PROCESS, WE SPEED UP IMAGE GENERATION BY UP TO 2X AND REDUCE MEMORY CONSUMPTION BY UP TO 5. 6X.

GPT-NEOX-20B: AN OPEN-SOURCE AUTOREGRESSIVE LANGUAGE MODEL

WE INTRODUCE GPT-NEOX-20B, A 20 BILLION PARAMETER AUTOREGRESSIVE LANGUAGE MODEL TRAINED ON THE PILE, WHOSE WEIGHTS WILL BE MADE FREELY AND OPENLY AVAILABLE TO THE PUBLIC THROUGH A PERMISSIVE LICENSE.

GROUNDING DINO: MARRYING DINO WITH GROUNDED PRE-TRAINING FOR OPEN-SET OBJECT DETECTION

TO EFFECTIVELY FUSE LANGUAGE AND VISION MODALITIES, WE CONCEPTUALLY DIVIDE A CLOSED-SET DETECTOR INTO THREE PHASES AND PROPOSE A TIGHT FUSION SOLUTION, WHICH INCLUDES A FEATURE ENHANCER, A LANGUAGE-GUIDED QUERY SELECTION, AND A CROSS-MODALITY DER FOR CROSS-MODALITY FUSION.

IN-CONTEXT ALIGNMENT: CHAT WITH VANILLA LANGUAGE MODELS BEFORE FINE-TUNING

IN THIS NOTE, WE EXPLORE INFERENCE-TIME ALIGNMENT THROUGH IN-CONTEXT LEARNING.

LATR: 3D LANE DETECTION FROM MONOCULAR IMAGES WITH TRANSFORMER

ON THE ONE HAND, EACH QUERY IS GENERATED BASED ON 2D LANE-AWARE FEATURES AND ADOPTS A HYBRID EMBEDDING TO ENHANCE THE LANE INFORMATION.

C-EVAL: A MULTI-LEVEL MULTI-DISCIPLINE CHINESE EVALUATION SUITE FOR FOUNDATION MODELS

WE PRESENT C-EVAL, THE FIRST COMPREHENSIVE CHINESE EVALUATION SUITE DESIGNED TO ASSESS ADVANCED KNOWLEDGE AND REASONING ABILITIES OF FOUNDATION MODELS IN A CHINESE CONTEXT.

CONVOLUTIONS DIE HARD: OPEN-VOCABULARY SEGMENTATION WITH SINGLE FROZEN CONVOLUTIONAL CLIP

THE PROPOSED FC-CLIP, BENEFITS FROM THE FOLLOWING OBSERVATIONS: THE FROZEN CLIP BACKBONE MAINTAINS THE ABILITY OF OPEN-VOCABULARY CLASSIFICATION AND CAN ALSO SERVE AS A STRONG MASK GENERATOR, AND THE CONVOLUTIONAL CLIP GENERALIZES WELL TO A LARGER INPUT RESOLUTION THAN THE ONE USED DURING CONTRASTIVE IMAGE-TEXT PRETRAINING.