ADVANCED DEEP LEARNING BTech Project in Visakhapatnam, Chennai, Bengaluru

VITS2: IMPROVING QUALITY AND EFFICIENCY OF SINGLE-STAGE TEXT-TO-SPEECH WITH ADVERSARIAL LEARNING AND ARCHITECTURE DESIGN

SINGLE-STAGE TEXT-TO-SPEECH MODELS HAVE BEEN ACTIVELY STUDIED RECENTLY, AND THEIR RESULTS HAVE OUTPERFORMED TWO-STAGE PIPELINE SYSTEMS.

OBJECTSDF++: IMPROVED OBJECT-COMPOSITIONAL NEURAL IMPLICIT SURFACES

UNLIKE TRADITIONAL MULTI-VIEW STEREO APPROACHES, THE NEURAL IMPLICIT SURFACE-BASED METHODS LEVERAGE NEURAL NETWORKS TO REPRESENT 3D SCENES AS SIGNED DISTANCE FUNCTIONS (SDFS).

FINE-TUNING LANGUAGE MODELS WITH JUST FORWARD PASSES

FINE-TUNING LANGUAGE MODELS (LMS) HAS YIELDED SUCCESS ON DIVERSE DOWNSTREAM TASKS, BUT AS LMS GROW IN SIZE, BACKPROPAGATION REQUIRES A PROHIBITIVELY LARGE AMOUNT OF MEMORY.

AUDIOFORMER: AUDIO TRANSFORMER LEARNS AUDIO FEATURE REPRESENTATIONS FROM DISCRETE ACOUSTIC S

IN OUR EXPERIMENTS, WE TREAT DISCRETE ACOUSTIC S AS TEXTUAL DATA AND TRAIN A MASKED LANGUAGE MODEL USING A CLOZE-LIKE METHODOLOGY, ULTIMATELY DERIVING HIGH-QUALITY AUDIO REPRESENTATIONS.

POINTMCD: BOOSTING DEEP POINT CLOUD ENRS VIA MULTI-VIEW CROSS-MODAL DISTILLATION FOR 3D SHAPE RECOGNITION

IN THIS , WE EXPLORE THE POSSIBILITY OF BOOSTING DEEP 3D POINT CLOUD ENRS BY TRANSFERRING VISUAL KNOWLEDGE EXTRACTED FROM DEEP 2D IMAGE ENRS UNDER A STANDARD TEACHER-STUDENT DISTILLATION WORKFLOW.

H2OGPT: DEMOCRATIZING LARGE LANGUAGE MODELS

APPLICATIONS BUILT ON TOP OF LARGE LANGUAGE MODELS (LLMS) SUCH AS GPT-4 REPRESENT A REVOLUTION IN AI DUE TO THEIR HUMAN-LEVEL CAPABILITIES IN NATURAL LANGUAGE PROCESSING.

CHATEVAL: TOWARDS BETTER LLM-BASED EVALUATORS THROUGH MULTI-AGENT DEBATE

TEXT EVALUATION HAS HISTORICALLY POSED SIGNIFICANT CHALLENGES, OFTEN DEMANDING SUBSTANTIAL LABOR AND TIME COST.

3DMOTFORMER: GRAPH TRANSFORMER FOR ONLINE 3D MULTI-OBJECT TRACKING

TRACKING 3D OBJECTS ACCURATELY AND CONSISTENTLY IS CRUCIAL FOR AUTONOMOUS VEHICLES, ENABLING MORE RELIABLE DOWNSTREAM TASKS SUCH AS TRAJECTORY PREDICTION AND MOTION PLANNING.

FLASHATTENTION-2: FASTER ATTENTION WITH BETTER PARALLELISM AND WORK PARTITIONING

WE OBSERVE THAT THE INEFFICIENCY IS DUE TO SUBOPTIMAL WORK PARTITIONING BETWEEN DIFFERENT THREAD BLOCKS AND WARPS ON THE GPU, CAUSING EITHER LOW-OCCUPANCY OR UNNECESSARY SHARED MEMORY READS/WRITES.

DO ANYTHING NOW”: CHARACTERIZING AND EVALUATING IN-THE-WILD JAILBREAK PROMPTS ON LARGE LANGUAGE MODELS “

THE MISUSE OF LARGE LANGUAGE MODELS (LLMS) HAS GARNERED SIGNIFICANT ATTENTION FROM THE GENERAL PUBLIC AND LLM VENDORS.

MS3D++: ENSEMBLE OF EXPERTS FOR MULTI-SOURCE UNSUPERVISED DOMAIN ADAPTION IN 3D OBJECT DETECTION

MS3D++ PROVIDES A STRAIGHTFORWARD APPROACH TO DOMAIN ADAPTATION BY GENERATING HIGH-QUALITY PSEUDO-LABELS, ENABLING THE ADAPTATION OF 3D DETECTORS TO A DIVERSE RANGE OF LIDAR TYPES, REGARDLESS OF THEIR DENSITY.

LCE: AN AUGMENTED COMBINATION OF BAGGING AND BOOSTING IN PYTHON

LCENSEMBLE IS A HIGH-PERFORMING, SCALABLE AND USER-FRIENDLY PYTHON PACKAGE FOR THE GENERAL TASKS OF CLASSIFICATION AND REGRESSION.

VIDEO RETALKING: AUDIO-BASED LIP SYNCHRONIZATION FOR TALKING HEAD VIDEO EDITING IN THE WILD

OUR SYSTEM DISENTANGLES THIS OBJECTIVE INTO THREE SEQUENTIAL TASKS: (1) FACE VIDEO GENERATION WITH A CANONICAL EXPRESSION; (2) AUDIO-DRIVEN LIP-SYNC; AND (3) FACE ENHANCEMENT FOR IMPROVING PHOTO-REALISM.

GRES: GENERALIZED REFERRING EXPRESSION SEGMENTATION

EXISTING CLASSIC RES DATASETS AND METHODS COMMONLY SUPPORT SINGLE-TARGET EXPRESSIONS ONLY, I. E., ONE EXPRESSION REFERS TO ONE TARGET OBJECT.

ENHANCING EFFICIENT CONTINUAL LEARNING WITH DYNAMIC STRUCTURE DEVELOPMENT OF SPIKING NEURAL NETWORKS

IN ADDITION, THE OVERLAPPING SHARED STRUCTURE HELPS TO QUICKLY LEVERAGE ALL ACQUIRED KNOWLEDGE TO NEW TASKS, EMPOWERING A SINGLE NETWORK CAPABLE OF SUPPORTING MULTIPLE INCREMENTAL TASKS (WITHOUT THE SEPARATE SUB-NETWORK MASK FOR EACH TASK).

EDUCHAT: A LARGE-SCALE LANGUAGE MODEL-BASED CHATBOT SYSTEM FOR INTELLIGENT EDUCATION

CHATBOT LANGUAGE MODELLING +1

FUSIONAD: MULTI-MODALITY FUSION FOR PREDICTION AND PLANNING TASKS OF AUTONOMOUS DRIVING

BUILDING A MULTI-MODALITY MULTI-TASK NEURAL NETWORK TOWARD ACCURATE AND ROBUST PERFORMANCE IS A DE-FACTO STANDARD IN PERCEPTION TASK OF AUTONOMOUS DRIVING.

AUTOREGRESSIVE VISUAL TRACKING

WE PRESENT ARTRACK, AN AUTOREGRESSIVE FRAMEWORK FOR VISUAL OBJECT TRACKING.

SEGMENT ANYTHING IN HIGH QUALITY

HQ-SAM IS ONLY TRAINED ON THE INTRODUCED DETASET OF 44K MASKS, WHICH TAKES ONLY 4 S ON 8 GPUS.

PROLIFICDREAMER: HIGH-FIDELITY AND DIVERSE TEXT-TO-3D GENERATION WITH VARIATIONAL SCORE DISTILLATION

IN THIS WORK, WE PROPOSE TO MODEL THE 3D PARAMETER AS A RANDOM VARIABLE INSTEAD OF A CONSTANT AS IN SDS AND PRESENT VARIATIONAL SCORE DISTILLATION (VSD), A PRINCIPLED PARTICLE-BASED VARIATIONAL FRAMEWORK TO EXPLAIN AND ADDRESS THE AFOREMENTIONED ISSUES IN TEXT-TO-3D GENERATION.