ADVANCED DEEP LEARNING BTech Project in Visakhapatnam, Chennai, Bengaluru

SHEPHERD: A CRITIC FOR LANGUAGE MODEL GENERATION

AS LARGE LANGUAGE MODELS IMPROVE, THERE IS INCREASING INTEREST IN TECHNIQUES THAT LEVERAGE THESE MODELS' CAPABILITIES TO REFINE THEIR OWN OUTPUTS.

SHERF: GENERALIZABLE HUMAN NERF FROM A SINGLE IMAGE

TO THIS END, WE PROPOSE A BANK OF 3D-AWARE HIERARCHICAL FEATURES, INCLUDING GLOBAL, POINT-LEVEL, AND PIXEL-ALIGNED FEATURES, TO FACILITATE INFORMATIVE ENCODING.

#INSTAG: INSTRUCTION TAGGING FOR ANALYZING SUPERVISED FINE-TUNING OF LARGE LANGUAGE MODELS

BASED ON THIS OBSERVATION, WE PROPOSE A DATA SELECTOR BASED ON INSTAG TO SELECT 6K DIVERSE AND COMPLEX SAMPLES FROM OPEN-SOURCE DATASETS AND FINE-TUNE MODELS ON INSTAG-SELECTED DATA.

TAMING THE POWER OF DIFFUSION MODELS FOR HIGH-QUALITY VIRTUAL TRY-ON WITH APPEARANCE FLOW

OUR APPROACH, NAMELY DIFFUSION-BASED CONDITIONAL INPAINTING FOR VIRTUAL TRY-ON (DCI-VTON), EFFECTIVELY UTILIZES THE POWER OF THE DIFFUSION MODEL, AND THE INCORPORATION OF THE WARPING MODULE HELPS TO PRODUCE HIGH-QUALITY AND REALISTIC VIRTUAL TRY-ON RESULTS.

ZHONGJING: ENHANCING THE CHINESE MEDICAL CAPABILITIES OF LARGE LANGUAGE MODEL THROUGH EXPERT FEEDBACK AND REAL-WORLD MULTI-TURN DIALOGUE

RECENT ADVANCES IN LARGE LANGUAGE MODELS (LLMS) HAVE ACHIEVED REMARKABLE BREAKTHROUGHS IN UNDERSTANDING AND RESPONDING TO USER INTENTS.

UNIWORLD: AUTONOMOUS DRIVING PRE-TRAINING VIA WORLD MODELS

IN THIS , WE DRAW INSPIRATION FROM ALBERTO ELFES' PIONEERING WORK IN 1989, WHERE HE INTRODUCED THE CONCEPT OF THE OCCUPANCY GRID AS WORLD MODELS FOR ROBOTS.

POLYLM: AN OPEN SOURCE POLYGLOT LARGE LANGUAGE MODEL

LARGE LANGUAGE MODELS (LLMS) DEMONSTRATE REMARKABLE ABILITY TO COMPREHEND, REASON, AND GENERATE FOLLOWING NATURE LANGUAGE INSTRUCTIONS.

LLM AS DBA

DATABASE ADMINISTRATORS (DBAS) PLAY A CRUCIAL ROLE IN MANAGING, MAINTAINING AND OPTIMIZING A DATABASE SYSTEM TO ENSURE DATA AVAILABILITY, PERFORMANCE, AND RELIABILITY.

ANYLOC: TOWARDS UNIVERSAL VISUAL PLACE RECOGNITION

IN THIS WORK, WE DEVELOP A UNIVERSAL SOLUTION TO VPR -- A TECHNIQUE THAT WORKS ACROSS A BROAD RANGE OF STRUCTURED AND UNSTRUCTURED ENVIRONMENTS (URBAN, OUTDOORS, INDOORS, AERIAL, UNDERWATER, AND SUBTERRANEAN ENVIRONMENTS) WITHOUT ANY RE-TRAINING OR FINE-TUNING.

LLAMA 2: OPEN FOUNDATION AND FINE-TUNED CHAT MODELS

IN THIS WORK, WE DEVELOP AND RELEASE LLAMA 2, A COLLECTION OF PRETRAINED AND FINE-TUNED LARGE LANGUAGE MODELS (LLMS) RANGING IN SCALE FROM 7 BILLION TO 70 BILLION PARAMETERS.

PUG: PHOTOREALISTIC AND SEMANTICALLY CONTROLLABLE SYNTHETIC DATA FOR REPRESENTATION LEARNING

SYNTHETIC IMAGE DATASETS OFFER UNMATCHED ADVANTAGES FOR DESIGNING AND EVALUATING DEEP NEURAL NETWORKS: THEY MAKE IT POSSIBLE TO (I) RENDER AS MANY DATA SAMPLES AS NEEDED, (II) PRECISELY CONTROL EACH SCENE AND YIELD GRANULAR GROUND TRUTH LABELS (AND CAPTIONS), (III) PRECISELY CONTROL DISTRIBUTION SHIFTS BETWEEN TRAINING AND TESTING TO ISOLATE VARIABLES OF INTEREST FOR SOUND EXPERIMENTATION.

SMILE: SINGLE-TURN TO MULTI-TURN INCLUSIVE LANGUAGE EXPANSION VIA CHATGPT FOR MENTAL HEALTH SUPPORT

THERE HAS BEEN AN INCREASING RESEARCH INTEREST IN DEVELOPING SPECIALIZED DIALOGUE SYSTEMS THAT CAN OFFER MENTAL HEALTH SUPPORT.

EFFECTIVE WHOLE-BODY POSE ESTIMATION WITH TWO-STAGES DISTILLATION

DIFFERENT FROM THE PREVIOUS SELF-KNOWLEDGE DISTILLATION, THIS STAGE FINETUNES THE STUDENT'S HEAD WITH ONLY 20% TRAINING TIME AS A PLUG-AND-PLAY TRAINING STRATEGY.

GLOBAL FEATURES ARE ALL YOU NEED FOR IMAGE RETRIEVAL AND RERANKING

WE, FOR THE FIRST TIME, PROPOSE AN IMAGE RETRIEVAL PARADIGM LEVERAGING GLOBAL FEATURE ONLY TO ENABLE ACCURATE AND LIGHTWEIGHT IMAGE RETRIEVAL FOR BOTH COARSE RETRIEVAL AND RERANKING, THUS THE NAME - SUPERGLOBAL.

LARGE LANGUAGE MODELS FOR INFORMATION RETRIEVAL: A SURVEY

THIS EVOLUTION REQUIRES A COMBINATION OF BOTH TRADITIONAL METHODS (SUCH AS TERM-BASED SPARSE RETRIEVAL METHODS WITH RAPID RESPONSE) AND MODERN NEURAL ARCHITECTURES (SUCH AS LANGUAGE MODELS WITH POWERFUL LANGUAGE UNDERSTANDING CAPACITY).

UNITR: A UNIFIED AND EFFICIENT MULTI-MODAL TRANSFORMER FOR BIRD’S-EYE-VIEW REPRESENTATION

JOINTLY PROCESSING INFORMATION FROM MULTIPLE SENSORS IS CRUCIAL TO ACHIEVING ACCURATE AND ROBUST PERCEPTION FOR RELIABLE AUTONOMOUS DRIVING SYSTEMS.

EASYEDIT: AN EASY-TO-USE KNOWLEDGE EDITING FRAMEWORK FOR LARGE LANGUAGE MODELS

LARGE LANGUAGE MODELS (LLMS) USUALLY SUFFER FROM KNOWLEDGE CUTOFF OR FALLACY ISSUES, WHICH MEANS THEY ARE UNAWARE OF UNSEEN EVENTS OR GENERATE TEXT WITH INCORRECT FACTS OWING TO THE OUTDATED/NOISY DATA.

COLOR-NEUS: RECONSTRUCTING NEURAL IMPLICIT SURFACES WITH COLOR

MESH IS EXTRACTED FROM THE SIGNED DISTANCE FUNCTION (SDF) NETWORK FOR THE SURFACE, AND COLOR FOR EACH SURFACE VERTEX IS DRAWN FROM THE GLOBAL COLOR NETWORK.

MUAVIC: A MULTILINGUAL AUDIO-VISUAL CORPUS FOR ROBUST SPEECH RECOGNITION AND ROBUST SPEECH-TO-TEXT TRANSLATION

WE INTRODUCE MUAVIC, A MULTILINGUAL AUDIO-VISUAL CORPUS FOR ROBUST SPEECH RECOGNITION AND ROBUST SPEECH-TO-TEXT TRANSLATION PROVIDING 1200 S OF AUDIO-VISUAL SPEECH IN 9 LANGUAGES.

METAGPT: META PROGRAMMING FOR MULTI-AGENT COLLABORATIVE FRAMEWORK

RECENTLY, REMARKABLE PROGRESS HAS BEEN MADE IN AUTOMATED TASK-SOLVING THROUGH THE USE OF MULTI-AGENT DRIVEN BY LARGE LANGUAGE MODELS (LLMS).