ADVANCED DEEP LEARNING BTech Project in Visakhapatnam, Chennai, Bengaluru

SEMANTIC-SAM: SEGMENT AND RECOGNIZE ANYTHING AT ANY GRANULARITY

IN THIS , WE INTRODUCE SEMANTIC-SAM, A UNIVERSAL IMAGE SEGMENTATION MODEL TO ENABLE SEGMENT AND RECOGNIZE ANYTHING AT ANY DESIRED GRANULARITY.

MMBENCH: IS YOUR MULTI-MODAL MODEL AN ALL-AROUND PLAYER?

IN RESPONSE TO THESE CHALLENGES, WE PROPOSE MMBENCH, A NOVEL MULTI-MODALITY BENCHMARK.

DUAL AGGREGATION TRANSFORMER FOR IMAGE SUPER-RESOLUTION

BASED ON THE ABOVE IDEA, WE PROPOSE A NOVEL TRANSFORMER MODEL, DUAL AGGREGATION TRANSFORMER (DAT), FOR IMAGE SR. OUR DAT AGGREGATES FEATURES ACROSS SPATIAL AND CHANNEL DIMENSIONS, IN THE INTER-BLOCK AND INTRA-BLOCK DUAL MANNER.

LLM-GROUNDED DIFFUSION: ENHANCING PROMPT UNDERSTANDING OF TEXT-TO-IMAGE DIFFUSION MODELS WITH LARGE LANGUAGE MODELS

WE VALIDATE THE SUPERIORITY OF OUR DESIGN BY DEMONSTRATING ITS ABILITY TO OUTPERFORM THE BASE DIFFUSION MODEL IN ACCURATELY GENERATING IMAGES ACCORDING TO PROMPTS THAT NECESSITATE BOTH LANGUAGE AND SPATIAL REASONING.

CHAIN-OF-THOUGHT PROMPTING ELICITS REASONING IN LARGE LANGUAGE MODELS

WE EXPLORE HOW GENERATING A CHAIN OF THOUGHT -- A SERIES OF INTERMEDIATE REASONING STEPS -- SIGNIFICANTLY IMPROVES THE ABILITY OF LARGE LANGUAGE MODELS TO PERFORM COMPLEX REASONING.

META-TRANSFORMER: A UNIFIED FRAMEWORK FOR MULTIMODAL LEARNING

MULTIMODAL LEARNING AIMS TO BUILD MODELS THAT CAN PROCESS AND RELATE INFORMATION FROM MULTIPLE MODALITIES.

FOODSAM: ANY FOOD SEGMENTATION

REMARKABLY, THIS PIONEERING FRAMEWORK STANDS AS THE FIRST-EVER WORK TO ACHIEVE INSTANCE, PANOPTIC, AND PROMPTABLE SEGMENTATION ON FOOD IMAGES.

AUTOREGRESSIVE VISUAL TRACKING

WE PRESENT ARTRACK, AN AUTOREGRESSIVE FRAMEWORK FOR VISUAL OBJECT TRACKING.

SEGMENT ANYTHING IN HIGH QUALITY

HQ-SAM IS ONLY TRAINED ON THE INTRODUCED DETASET OF 44K MASKS, WHICH TAKES ONLY 4 S ON 8 GPUS.

PROLIFICDREAMER: HIGH-FIDELITY AND DIVERSE TEXT-TO-3D GENERATION WITH VARIATIONAL SCORE DISTILLATION

IN THIS WORK, WE PROPOSE TO MODEL THE 3D PARAMETER AS A RANDOM VARIABLE INSTEAD OF A CONSTANT AS IN SDS AND PRESENT VARIATIONAL SCORE DISTILLATION (VSD), A PRINCIPLED PARTICLE-BASED VARIATIONAL FRAMEWORK TO EXPLAIN AND ADDRESS THE AFOREMENTIONED ISSUES IN TEXT-TO-3D GENERATION.

MAPTRV2: AN END-TO-END FRAMEWORK FOR ONLINE VECTORIZED HD MAP CONSTRUCTION

WE PROPOSE A UNIFIED PERMUTATION-EQUIVALENT MODELING APPROACH, IE, MODELING MAP ELEMENT AS A POINT SET WITH A GROUP OF EQUIVALENT PERMUTATIONS, WHICH ACCURATELY DESCRIBES THE SHAPE OF MAP ELEMENT AND STABILIZES THE LEARNING PROCESS.

BATGPT: A BIDIRECTIONAL AUTOREGESSIVE TALKER FROM GENERATIVE PRE-TRAINED TRANSFORMER

BATGPT IS A LARGE-SCALE LANGUAGE MODEL DESIGNED AND TRAINED JOINTLY BY WUHAN UNIVERSITY AND SHANGHAI JIAO TONG UNIVERSITY.

QAMELEON: MULTILINGUAL QA WITH ONLY 5 EXAMPLES

THE AVAILABILITY OF LARGE, HIGH-QUALITY DATASETS HAS BEEN ONE OF THE MAIN DRIVERS OF RECENT PROGRESS IN QUESTION ANSWERING (QA).

TRAIN SHORT, TEST LONG: ATTENTION WITH LINEAR BIASES ENABLES INPUT LENGTH EXTRAPOLATION

SINCE THE INTRODUCTION OF THE TRANSFORMER MODEL BY VASWANI ET AL. (2017), A FUNDAMENTAL QUESTION HAS YET TO BE ANSWERED: HOW DOES A MODEL ACHIEVE EXTRAPOLATION AT INFERENCE TIME FOR SEQUENCES THAT ARE LONGER THAN IT SAW DURING TRAINING?

ANIMATEDIFF: ANIMATE YOUR PERSONALIZED TEXT-TO-IMAGE DIFFUSION MODELS WITHOUT SPECIFIC TUNING

WITH THE ADVANCE OF TEXT-TO-IMAGE MODELS (E. G., STABLE DIFFUSION) AND CORRESPONDING PERSONALIZATION TECHNIQUES SUCH AS DREAMBOOTH AND LORA, EVERYONE CAN MANIFEST THEIR IMAGINATION INTO HIGH-QUALITY IMAGES AT AN AFFORDABLE COST.

LANGUAGE MODELS ARE FEW-SHOT LEARNERS

BY CONTRAST, HUMANS CAN GENERALLY PERFORM A NEW LANGUAGE TASK FROM ONLY A FEW EXAMPLES OR FROM SIMPLE INSTRUCTIONS - SOMETHING WHICH CURRENT NLP SYSTEMS STILL LARGELY STRUGGLE TO DO.

OKAPI: INSTRUCTION-TUNED LARGE LANGUAGE MODELS IN MULTIPLE LANGUAGES WITH REINFORCEMENT LEARNING FROM HUMAN FEEDBACK

OKAPI INTRODUCES INSTRUCTION AND RESPONSE-RANKED DATA IN 26 DIVERSE LANGUAGES TO FACILITATE THE EXPERIMENTS AND DEVELOPMENT OF FUTURE MULTILINGUAL LLM RESEARCH.

SIMPLE SYNTHETIC DATA REDUCES SYCOPHANCY IN LARGE LANGUAGE MODELS

ADDING THESE DATA IN A LIGHTWEIGHT FINETUNING STEP CAN SIGNIFICANTLY REDUCE SYCOPHANTIC BEHAVIOR ON HELD-OUT PROMPTS.

LIGHTING EVERY DARKNESS IN TWO PAIRS: A CALIBRATION-FREE PIPELINE FOR RAW DENOISING

CALIBRATION-BASED METHODS HAVE DOMINATED RAW IMAGE DENOISING UNDER EXTREMELY LOW-LIGHT ENVIRONMENTS.

FINE-TUNING LANGUAGE MODELS FROM HUMAN PREFERENCES

MOST WORK ON REWARD LEARNING HAS USED SIMULATED ENVIRONMENTS, BUT COMPLEX INFORMATION ABOUT VALUES IS OFTEN EXPRESSED IN NATURAL LANGUAGE, AND WE BELIEVE REWARD LEARNING FOR LANGUAGE IS A KEY TO MAKING RL PRACTICAL AND SAFE FOR REAL-WORLD TASKS.