deep learning projects Advanced Deep Learning BTech Projects

CHAIN-OF-THOUGHT PROMPTING ELICITS REASONING IN LARGE LANGUAGE MODELS

WE EXPLORE HOW GENERATING A CHAIN OF THOUGHT -- A SERIES OF INTERMEDIATE REASONING STEPS -- SIGNIFICANTLY IMPROVES THE ABILITY OF LARGE LANGUAGE MODELS TO PERFORM COMPLEX REASONING.

META-TRANSFORMER: A UNIFIED FRAMEWORK FOR MULTIMODAL LEARNING

MULTIMODAL LEARNING AIMS TO BUILD MODELS THAT CAN PROCESS AND RELATE INFORMATION FROM MULTIPLE MODALITIES.

FOODSAM: ANY FOOD SEGMENTATION

REMARKABLY, THIS PIONEERING FRAMEWORK STANDS AS THE FIRST-EVER WORK TO ACHIEVE INSTANCE, PANOPTIC, AND PROMPTABLE SEGMENTATION ON FOOD IMAGES.

AUTOREGRESSIVE VISUAL TRACKING

WE PRESENT ARTRACK, AN AUTOREGRESSIVE FRAMEWORK FOR VISUAL OBJECT TRACKING.

SEGMENT ANYTHING IN HIGH QUALITY

HQ-SAM IS ONLY TRAINED ON THE INTRODUCED DETASET OF 44K MASKS, WHICH TAKES ONLY 4 S ON 8 GPUS.

PROLIFICDREAMER: HIGH-FIDELITY AND DIVERSE TEXT-TO-3D GENERATION WITH VARIATIONAL SCORE DISTILLATION

IN THIS WORK, WE PROPOSE TO MODEL THE 3D PARAMETER AS A RANDOM VARIABLE INSTEAD OF A CONSTANT AS IN SDS AND PRESENT VARIATIONAL SCORE DISTILLATION (VSD), A PRINCIPLED PARTICLE-BASED VARIATIONAL FRAMEWORK TO EXPLAIN AND ADDRESS THE AFOREMENTIONED ISSUES IN TEXT-TO-3D GENERATION.

MAPTRV2: AN END-TO-END FRAMEWORK FOR ONLINE VECTORIZED HD MAP CONSTRUCTION

WE PROPOSE A UNIFIED PERMUTATION-EQUIVALENT MODELING APPROACH, IE, MODELING MAP ELEMENT AS A POINT SET WITH A GROUP OF EQUIVALENT PERMUTATIONS, WHICH ACCURATELY DESCRIBES THE SHAPE OF MAP ELEMENT AND STABILIZES THE LEARNING PROCESS.

BATGPT: A BIDIRECTIONAL AUTOREGESSIVE TALKER FROM GENERATIVE PRE-TRAINED TRANSFORMER

BATGPT IS A LARGE-SCALE LANGUAGE MODEL DESIGNED AND TRAINED JOINTLY BY WUHAN UNIVERSITY AND SHANGHAI JIAO TONG UNIVERSITY.

QAMELEON: MULTILINGUAL QA WITH ONLY 5 EXAMPLES

THE AVAILABILITY OF LARGE, HIGH-QUALITY DATASETS HAS BEEN ONE OF THE MAIN DRIVERS OF RECENT PROGRESS IN QUESTION ANSWERING (QA).

TRAIN SHORT, TEST LONG: ATTENTION WITH LINEAR BIASES ENABLES INPUT LENGTH EXTRAPOLATION

SINCE THE INTRODUCTION OF THE TRANSFORMER MODEL BY VASWANI ET AL. (2017), A FUNDAMENTAL QUESTION HAS YET TO BE ANSWERED: HOW DOES A MODEL ACHIEVE EXTRAPOLATION AT INFERENCE TIME FOR SEQUENCES THAT ARE LONGER THAN IT SAW DURING TRAINING?

ANIMATEDIFF: ANIMATE YOUR PERSONALIZED TEXT-TO-IMAGE DIFFUSION MODELS WITHOUT SPECIFIC TUNING

WITH THE ADVANCE OF TEXT-TO-IMAGE MODELS (E. G., STABLE DIFFUSION) AND CORRESPONDING PERSONALIZATION TECHNIQUES SUCH AS DREAMBOOTH AND LORA, EVERYONE CAN MANIFEST THEIR IMAGINATION INTO HIGH-QUALITY IMAGES AT AN AFFORDABLE COST.

LANGUAGE MODELS ARE FEW-SHOT LEARNERS

BY CONTRAST, HUMANS CAN GENERALLY PERFORM A NEW LANGUAGE TASK FROM ONLY A FEW EXAMPLES OR FROM SIMPLE INSTRUCTIONS - SOMETHING WHICH CURRENT NLP SYSTEMS STILL LARGELY STRUGGLE TO DO.

OKAPI: INSTRUCTION-TUNED LARGE LANGUAGE MODELS IN MULTIPLE LANGUAGES WITH REINFORCEMENT LEARNING FROM HUMAN FEEDBACK

OKAPI INTRODUCES INSTRUCTION AND RESPONSE-RANKED DATA IN 26 DIVERSE LANGUAGES TO FACILITATE THE EXPERIMENTS AND DEVELOPMENT OF FUTURE MULTILINGUAL LLM RESEARCH.

A SURVEY ON MULTIMODAL LARGE LANGUAGE MODELS

MULTIMODAL LARGE LANGUAGE MODEL (MLLM) RECENTLY HAS BEEN A NEW RISING RESEARCH HOTSPOT, WHICH USES POWERFUL LARGE LANGUAGE MODELS (LLMS) AS A BRAIN TO PERFORM MULTIMODAL TASKS.

SDXL: IMPROVING LATENT DIFFUSION MODELS FOR HIGH-RESOLUTION IMAGE SYNTHESIS

WE PRESENT SDXL, A LATENT DIFFUSION MODEL FOR TEXT-TO-IMAGE SYNTHESIS.

LARGE MULTIMODAL MODELS: NOTES ON CVPR 2023 TUTORIAL

THIS TUTORIAL NOTE SUMMARIZES THE PRESENTATION ON ``LARGE MULTIMODAL MODELS: TOWARDS BUILDING AND SURPASSING MULTIMODAL GPT-4'', A PART OF CVPR 2023 TUTORIAL ON ``RECENT ADVANCES IN VISION FOUNDATION MODELS''.

MARS: AN INSTANCE-AWARE, MODULAR AND REALISTIC SIMULATOR FOR AUTONOMOUS DRIVING

WE EXPECT THIS MODULAR DESIGN TO BOOST ACADEMIC PROGRESS AND INDUSTRIAL DEPLOYMENT OF NERF-BASED AUTONOMOUS DRIVING SIMULATION.

GPTQ: ACCURATE POST-TRAINING QUANTIZATION FOR GENERATIVE PRE-TRAINED TRANSFORMERS

IN THIS , WE ADDRESS THIS CHALLENGE, AND PROPOSE GPTQ, A NEW ONE-SHOT WEIGHT QUANTIZATION METHOD BASED ON APPROXIMATE SECOND-ORDER INFORMATION, THAT IS BOTH HIGHLY-ACCURATE AND HIGHLY-EFFICIENT.

PHONEME HALLUCINATOR: ONE-SHOT VOICE CONVERSION VIA SET EXPANSION

OBJECTIVE AND SUBJECTIVE EVALUATIONS SHOW THAT TEXTIT{PHONEME HALLUCINATOR} OUTPERFORMS EXISTING VC METHODS FOR BOTH INTELLIGIBILITY AND SPEAKER SIMILARITY.

FOCALFORMER3D : FOCUSING ON HARD INSTANCE FOR 3D OBJECT DETECTION

FOR 3D OBJECT DETECTION, WE INSTANTIATE THIS METHOD AS FOCALFORMER3D, A SIMPLE YET EFFECTIVE DETECTOR THAT EXCELS AT EXCAVATING DIFFICULT OBJECTS AND IMPROVING PREDICTION RECALL.