ADVANCED DEEP LEARNING BTech Project in Visakhapatnam, Chennai, Bengaluru

EXPLORING PREDICATE VISUAL CONTEXT IN DETECTING OF HUMAN-OBJECT INTERACTIONS

RECENTLY, THE DETR FRAMEWORK HAS EMERGED AS THE DOMINANT APPROACH FOR HUMAN--OBJECT INTERACTION (HOI) RESEARCH.

VOCOS: CLOSING THE GAP BETWEEN TIME-DOMAIN AND FOURIER-BASED NEURAL VORS FOR HIGH-QUALITY AUDIO SYNTHESIS

RECENT ADVANCEMENTS IN NEURAL VOCODING ARE PREDOMINANTLY DRIVEN BY GENERATIVE ADVERSARIAL NETWORKS (GANS) OPERATING IN THE TIME-DOMAIN.

UNIVTG: TOWARDS UNIFIED VIDEO-LANGUAGE TEMPORAL GROUNDING

MOST METHODS IN THIS DIRECTION DEVELOP TASKSPECIFIC MODELS THAT ARE TRAINED WITH TYPE-SPECIFIC LABELS, SUCH AS MOMENT RETRIEVAL (TIME INTERVAL) AND HIGHLIGHT DETECTION (WORTHINESS CURVE), WHICH LIMITS THEIR ABILITIES TO GENERALIZE TO VARIOUS VTG TASKS AND LABELS.

OPENFLAMINGO: AN OPEN-SOURCE FRAMEWORK FOR TRAINING LARGE AUTOREGRESSIVE VISION-LANGUAGE MODELS

WE INTRODUCE OPENFLAMINGO, A FAMILY OF AUTOREGRESSIVE VISION-LANGUAGE MODELS RANGING FROM 3B TO 9B PARAMETERS.

ONE EMBEDDER, ANY TASK: INSTRUCTION-FINETUNED TEXT EMBEDDINGS

OUR ANALYSIS SUGGESTS THAT INSTRUCTOR IS ROBUST TO CHANGES IN INSTRUCTIONS, AND THAT INSTRUCTION FINETUNING MITIGATES THE CHALLENGE OF TRAINING A SINGLE MODEL ON DIVERSE DATASETS.

ALTCLIP: ALTERING THE LANGUAGE ENR IN CLIP FOR EXTENDED LANGUAGE CAPABILITIES

IN THIS WORK, WE PRESENT A CONCEPTUALLY SIMPLE AND EFFECTIVE METHOD TO TRAIN A STRONG BILINGUAL/MULTILINGUAL MULTIMODAL REPRESENTATION MODEL.

FACTUALITY ENHANCED LANGUAGE MODELS FOR OPEN-ENDED TEXT GENERATION

IN THIS WORK, WE MEASURE AND IMPROVE THE FACTUAL ACCURACY OF LARGE-SCALE LMS FOR OPEN-ENDED TEXT GENERATION.

TURNING WHISPER INTO REAL-TIME TRANSCRIPTION SYSTEM

WHISPER IS ONE OF THE RECENT STATE-OF-THE-ART MULTILINGUAL SPEECH RECOGNITION AND TRANSLATION MODELS, HOWEVER, IT IS NOT DESIGNED FOR REAL TIME TRANSCRIPTION.

POISSONNET: RESOLUTION-AGNOSTIC 3D SHAPE RECONSTRUCTION USING FOURIER NEURAL OPERATORS

FURTHERMORE, WE DEMONSTRATE THAT THE POISSON SURFACE RECONSTRUCTION PROBLEM IS WELL-POSED IN THE LIMIT CASE BY SHOWING A UNIVERSAL APPROXIMATION THEOREM FOR THE SOLUTION OPERATOR OF THE POISSON EQUATION WITH DISTRIBUTIONAL DATA UTILIZING THE FOURIER NEURAL OPERATOR, WHICH PROVIDES A THEORETICAL FOUNDATION FOR OUR NUMERICAL RESULTS.

DRAGDIFFUSION: HARNESSING DIFFUSION MODELS FOR INTERACTIVE POINT-BASED IMAGE EDITING

IN THIS WORK, WE EXTEND SUCH AN EDITING FRAMEWORK TO DIFFUSION MODELS AND PROPOSE DRAGDIFFUSION.

LEARNING LANDMARKS MOTION FROM SPEECH FOR SPEAKER-AGNOSTIC 3D TALKING HEADS GENERATION

THIS PRESENTS A NOVEL APPROACH FOR GENERATING 3D TALKING HEADS FROM RAW AUDIO INPUTS.

SKIROS2: A SKILL-BASED ROBOT CONTROL PLATFORM FOR ROS

THE NEED FOR AUTONOMOUS ROBOT SYSTEMS IN BOTH THE SERVICE AND THE INDUSTRIAL DOMAIN IS LARGER THAN EVER.

AWQ: ACTIVATION-AWARE WEIGHT QUANTIZATION FOR LLM COMPRESSION AND ACCELERATION

LARGE LANGUAGE MODELS (LLMS) HAVE SHOWN EXCELLENT PERFORMANCE ON VARIOUS TASKS, BUT THE ASTRONOMICAL MODEL SIZE RAISES THE HARDWARE BARRIER FOR SERVING (MEMORY SIZE) AND SLOWS DOWN TOKEN GENERATION (MEMORY BANDWIDTH).

CHATLAW: OPEN-SOURCE LEGAL LARGE LANGUAGE MODEL WITH INTEGRATED EXTERNAL KNOWLEDGE BASES

FURTHERMORE, WE PROPOSE A SELF-ATTENTION METHOD TO ENHANCE THE ABILITY OF LARGE MODELS TO OVERCOME ERRORS PRESENT IN REFERENCE DATA, FURTHER OPTIMIZING THE ISSUE OF MODEL HALLUCINATIONS AT THE MODEL LEVEL AND IMPROVING THE PROBLEM-SOLVING CAPABILITIES OF LARGE MODELS.