Research - Datapro Consultancy Services

RETENTIVE NETWORK: A SUCCESSOR TO TRANSFORMER FOR LARGE LANGUAGE MODELS

IN THIS WORK, WE PROPOSE RETENTIVE NETWORK (RETNET) AS A FOUNDATION ARCHITECTURE FOR LARGE LANGUAGE MODELS, SIMULTANEOUSLY ACHIEVING TRAINING PARALLELISM, LOW-COST INFERENCE, AND GOOD PERFORMANCE.

AGENTBENCH: EVALUATING LLMS AS AGENTS

LARGE LANGUAGE MODELS (LLMS) ARE BECOMING INCREASINGLY SMART AND AUTONOMOUS, TARGETING REAL-WORLD PRAGMATIC MISSIONS BEYOND TRADITIONAL NLP TASKS.

PLANKASSEMBLY: ROBUST 3D RECONSTRUCTION FROM THREE ORTHOGRAPHIC VIEWS WITH LEARNT SHAPE PROGRAMS

IN THIS , WE DEVELOP A NEW METHOD TO AUTOMATICALLY CONVERT 2D LINE DRAWINGS FROM THREE ORTHOGRAPHIC VIEWS INTO 3D CAD MODELS.

A SURVEY ON EVALUATION OF LARGE LANGUAGE MODELS

LARGE LANGUAGE MODELS (LLMS) ARE GAINING INCREASING POPULARITY IN BOTH ACADEMIA AND INDUSTRY, OWING TO THEIR UNPRECEDENTED PERFORMANCE IN VARIOUS APPLICATIONS.

JUDGING LLM-AS-A-JUDGE WITH MT-BENCH AND CHATBOT ARENA

EVALUATING LARGE LANGUAGE MODEL (LLM) BASED CHAT ASSISTANTS IS CHALLENGING DUE TO THEIR BROAD CAPABILITIES AND THE INADEQUACY OF EXISTING BENCHMARKS IN MEASURING HUMAN PREFERENCES.

MULTI-SCALE MULTI-BAND DENSENETS FOR AUDIO SOURCE SEPARATION

THIS DEALS WITH THE PROBLEM OF AUDIO SOURCE SEPARATION.

VOYAGER: AN OPEN-ENDED EMBODIED AGENT WITH LARGE LANGUAGE MODELS

WE INTRODUCE VOYAGER, THE FIRST LLM-POWERED EMBODIED LIFELONG LEARNING AGENT IN MINECRAFT THAT CONTINUOUSLY EXPLORES THE WORLD, ACQUIRES DIVERSE SKILLS, AND MAKES NOVEL DISCOVERIES WITHOUT HUMAN INTERVENTION.

MAGIC123: ONE IMAGE TO HIGH-QUALITY 3D OBJECT GENERATION USING BOTH 2D AND 3D DIFFUSION PRIORS

WE PRESENT MAGIC123, A TWO-STAGE COARSE-TO-FINE APPROACH FOR HIGH-QUALITY, TEXTURED 3D MESHES GENERATION FROM A SINGLE UNPOSED IMAGE IN THE WILD USING BOTH2D AND 3D PRIORS.

NEURAL C LANGUAGE MODELS ARE ZERO-SHOT TEXT TO SPEECH SYNTHESIZERS

IN ADDITION, WE FIND VALL-E COULD PRESERVE THE SPEAKER'S EMOTION AND ACOUSTIC ENVIRONMENT OF THE ACOUSTIC PROMPT IN SYNTHESIS.

ONE-2-3-45: ANY SINGLE IMAGE TO 3D MESH IN 45 SECONDS WITHOUT PER-SHAPE OPTIMIZATION

SINGLE IMAGE 3D RECONSTRUCTION IS AN IMPORTANT BUT CHALLENGING TASK THAT REQUIRES EXTENSIVE KNOWLEDGE OF OUR NATURAL WORLD.

EXPLORING PREDICATE VISUAL CONTEXT IN DETECTING OF HUMAN-OBJECT INTERACTIONS

RECENTLY, THE DETR FRAMEWORK HAS EMERGED AS THE DOMINANT APPROACH FOR HUMAN--OBJECT INTERACTION (HOI) RESEARCH.

VOCOS: CLOSING THE GAP BETWEEN TIME-DOMAIN AND FOURIER-BASED NEURAL VORS FOR HIGH-QUALITY AUDIO SYNTHESIS

RECENT ADVANCEMENTS IN NEURAL VOCODING ARE PREDOMINANTLY DRIVEN BY GENERATIVE ADVERSARIAL NETWORKS (GANS) OPERATING IN THE TIME-DOMAIN.

UNIVTG: TOWARDS UNIFIED VIDEO-LANGUAGE TEMPORAL GROUNDING

MOST METHODS IN THIS DIRECTION DEVELOP TASKSPECIFIC MODELS THAT ARE TRAINED WITH TYPE-SPECIFIC LABELS, SUCH AS MOMENT RETRIEVAL (TIME INTERVAL) AND HIGHLIGHT DETECTION (WORTHINESS CURVE), WHICH LIMITS THEIR ABILITIES TO GENERALIZE TO VARIOUS VTG TASKS AND LABELS.

OPENFLAMINGO: AN OPEN-SOURCE FRAMEWORK FOR TRAINING LARGE AUTOREGRESSIVE VISION-LANGUAGE MODELS

WE INTRODUCE OPENFLAMINGO, A FAMILY OF AUTOREGRESSIVE VISION-LANGUAGE MODELS RANGING FROM 3B TO 9B PARAMETERS.

ONE EMBEDDER, ANY TASK: INSTRUCTION-FINETUNED TEXT EMBEDDINGS

OUR ANALYSIS SUGGESTS THAT INSTRUCTOR IS ROBUST TO CHANGES IN INSTRUCTIONS, AND THAT INSTRUCTION FINETUNING MITIGATES THE CHALLENGE OF TRAINING A SINGLE MODEL ON DIVERSE DATASETS.

ALTCLIP: ALTERING THE LANGUAGE ENR IN CLIP FOR EXTENDED LANGUAGE CAPABILITIES

IN THIS WORK, WE PRESENT A CONCEPTUALLY SIMPLE AND EFFECTIVE METHOD TO TRAIN A STRONG BILINGUAL/MULTILINGUAL MULTIMODAL REPRESENTATION MODEL.

FACTUALITY ENHANCED LANGUAGE MODELS FOR OPEN-ENDED TEXT GENERATION

IN THIS WORK, WE MEASURE AND IMPROVE THE FACTUAL ACCURACY OF LARGE-SCALE LMS FOR OPEN-ENDED TEXT GENERATION.

TURNING WHISPER INTO REAL-TIME TRANSCRIPTION SYSTEM

WHISPER IS ONE OF THE RECENT STATE-OF-THE-ART MULTILINGUAL SPEECH RECOGNITION AND TRANSLATION MODELS, HOWEVER, IT IS NOT DESIGNED FOR REAL TIME TRANSCRIPTION.

POISSONNET: RESOLUTION-AGNOSTIC 3D SHAPE RECONSTRUCTION USING FOURIER NEURAL OPERATORS

FURTHERMORE, WE DEMONSTRATE THAT THE POISSON SURFACE RECONSTRUCTION PROBLEM IS WELL-POSED IN THE LIMIT CASE BY SHOWING A UNIVERSAL APPROXIMATION THEOREM FOR THE SOLUTION OPERATOR OF THE POISSON EQUATION WITH DISTRIBUTIONAL DATA UTILIZING THE FOURIER NEURAL OPERATOR, WHICH PROVIDES A THEORETICAL FOUNDATION FOR OUR NUMERICAL RESULTS.

DRAGDIFFUSION: HARNESSING DIFFUSION MODELS FOR INTERACTIVE POINT-BASED IMAGE EDITING

IN THIS WORK, WE EXTEND SUCH AN EDITING FRAMEWORK TO DIFFUSION MODELS AND PROPOSE DRAGDIFFUSION.