Research - Datapro Consultancy Services

VIDEO RETALKING: AUDIO-BASED LIP SYNCHRONIZATION FOR TALKING HEAD VIDEO EDITING IN THE WILD

OUR SYSTEM DISENTANGLES THIS OBJECTIVE INTO THREE SEQUENTIAL TASKS: (1) FACE VIDEO GENERATION WITH A CANONICAL EXPRESSION; (2) AUDIO-DRIVEN LIP-SYNC; AND (3) FACE ENHANCEMENT FOR IMPROVING PHOTO-REALISM.

GRES: GENERALIZED REFERRING EXPRESSION SEGMENTATION

EXISTING CLASSIC RES DATASETS AND METHODS COMMONLY SUPPORT SINGLE-TARGET EXPRESSIONS ONLY, I. E., ONE EXPRESSION REFERS TO ONE TARGET OBJECT.

ENHANCING EFFICIENT CONTINUAL LEARNING WITH DYNAMIC STRUCTURE DEVELOPMENT OF SPIKING NEURAL NETWORKS

IN ADDITION, THE OVERLAPPING SHARED STRUCTURE HELPS TO QUICKLY LEVERAGE ALL ACQUIRED KNOWLEDGE TO NEW TASKS, EMPOWERING A SINGLE NETWORK CAPABLE OF SUPPORTING MULTIPLE INCREMENTAL TASKS (WITHOUT THE SEPARATE SUB-NETWORK MASK FOR EACH TASK).

EDUCHAT: A LARGE-SCALE LANGUAGE MODEL-BASED CHATBOT SYSTEM FOR INTELLIGENT EDUCATION

CHATBOT LANGUAGE MODELLING +1

FUSIONAD: MULTI-MODALITY FUSION FOR PREDICTION AND PLANNING TASKS OF AUTONOMOUS DRIVING

BUILDING A MULTI-MODALITY MULTI-TASK NEURAL NETWORK TOWARD ACCURATE AND ROBUST PERFORMANCE IS A DE-FACTO STANDARD IN PERCEPTION TASK OF AUTONOMOUS DRIVING.

MAKING LANGUAGE MODELS BETTER TOOL LEARNERS WITH EXECUTION FEEDBACK

TOOLS SERVE AS PIVOTAL INTERFACES THAT ENABLE HUMANS TO UNDERSTAND AND RESHAPE THE WORLD.

PROLIFICDREAMER: HIGH-FIDELITY AND DIVERSE TEXT-TO-3D GENERATION WITH VARIATIONAL SCORE DISTILLATION

IN THIS WORK, WE PROPOSE TO MODEL THE 3D PARAMETER AS A RANDOM VARIABLE INSTEAD OF A CONSTANT AS IN SDS AND PRESENT VARIATIONAL SCORE DISTILLATION (VSD), A PRINCIPLED PARTICLE-BASED VARIATIONAL FRAMEWORK TO EXPLAIN AND ADDRESS THE AFOREMENTIONED ISSUES IN TEXT-TO-3D GENERATION.

MAPTRV2: AN END-TO-END FRAMEWORK FOR ONLINE VECTORIZED HD MAP CONSTRUCTION

WE PROPOSE A UNIFIED PERMUTATION-EQUIVALENT MODELING APPROACH, IE, MODELING MAP ELEMENT AS A POINT SET WITH A GROUP OF EQUIVALENT PERMUTATIONS, WHICH ACCURATELY DESCRIBES THE SHAPE OF MAP ELEMENT AND STABILIZES THE LEARNING PROCESS.

BATGPT: A BIDIRECTIONAL AUTOREGESSIVE TALKER FROM GENERATIVE PRE-TRAINED TRANSFORMER

BATGPT IS A LARGE-SCALE LANGUAGE MODEL DESIGNED AND TRAINED JOINTLY BY WUHAN UNIVERSITY AND SHANGHAI JIAO TONG UNIVERSITY.

QAMELEON: MULTILINGUAL QA WITH ONLY 5 EXAMPLES

THE AVAILABILITY OF LARGE, HIGH-QUALITY DATASETS HAS BEEN ONE OF THE MAIN DRIVERS OF RECENT PROGRESS IN QUESTION ANSWERING (QA).

TRAIN SHORT, TEST LONG: ATTENTION WITH LINEAR BIASES ENABLES INPUT LENGTH EXTRAPOLATION

SINCE THE INTRODUCTION OF THE TRANSFORMER MODEL BY VASWANI ET AL. (2017), A FUNDAMENTAL QUESTION HAS YET TO BE ANSWERED: HOW DOES A MODEL ACHIEVE EXTRAPOLATION AT INFERENCE TIME FOR SEQUENCES THAT ARE LONGER THAN IT SAW DURING TRAINING?

ANIMATEDIFF: ANIMATE YOUR PERSONALIZED TEXT-TO-IMAGE DIFFUSION MODELS WITHOUT SPECIFIC TUNING

WITH THE ADVANCE OF TEXT-TO-IMAGE MODELS (E. G., STABLE DIFFUSION) AND CORRESPONDING PERSONALIZATION TECHNIQUES SUCH AS DREAMBOOTH AND LORA, EVERYONE CAN MANIFEST THEIR IMAGINATION INTO HIGH-QUALITY IMAGES AT AN AFFORDABLE COST.

LANGUAGE MODELS ARE FEW-SHOT LEARNERS

BY CONTRAST, HUMANS CAN GENERALLY PERFORM A NEW LANGUAGE TASK FROM ONLY A FEW EXAMPLES OR FROM SIMPLE INSTRUCTIONS - SOMETHING WHICH CURRENT NLP SYSTEMS STILL LARGELY STRUGGLE TO DO.

OKAPI: INSTRUCTION-TUNED LARGE LANGUAGE MODELS IN MULTIPLE LANGUAGES WITH REINFORCEMENT LEARNING FROM HUMAN FEEDBACK

OKAPI INTRODUCES INSTRUCTION AND RESPONSE-RANKED DATA IN 26 DIVERSE LANGUAGES TO FACILITATE THE EXPERIMENTS AND DEVELOPMENT OF FUTURE MULTILINGUAL LLM RESEARCH.

A SURVEY ON MULTIMODAL LARGE LANGUAGE MODELS

MULTIMODAL LARGE LANGUAGE MODEL (MLLM) RECENTLY HAS BEEN A NEW RISING RESEARCH HOTSPOT, WHICH USES POWERFUL LARGE LANGUAGE MODELS (LLMS) AS A BRAIN TO PERFORM MULTIMODAL TASKS.

SDXL: IMPROVING LATENT DIFFUSION MODELS FOR HIGH-RESOLUTION IMAGE SYNTHESIS

WE PRESENT SDXL, A LATENT DIFFUSION MODEL FOR TEXT-TO-IMAGE SYNTHESIS.

LARGE MULTIMODAL MODELS: NOTES ON CVPR 2023 TUTORIAL

THIS TUTORIAL NOTE SUMMARIZES THE PRESENTATION ON ``LARGE MULTIMODAL MODELS: TOWARDS BUILDING AND SURPASSING MULTIMODAL GPT-4'', A PART OF CVPR 2023 TUTORIAL ON ``RECENT ADVANCES IN VISION FOUNDATION MODELS''.

SEMANTIC-SAM: SEGMENT AND RECOGNIZE ANYTHING AT ANY GRANULARITY

IN THIS , WE INTRODUCE SEMANTIC-SAM, A UNIVERSAL IMAGE SEGMENTATION MODEL TO ENABLE SEGMENT AND RECOGNIZE ANYTHING AT ANY DESIRED GRANULARITY.

MMBENCH: IS YOUR MULTI-MODAL MODEL AN ALL-AROUND PLAYER?

IN RESPONSE TO THESE CHALLENGES, WE PROPOSE MMBENCH, A NOVEL MULTI-MODALITY BENCHMARK.

DUAL AGGREGATION TRANSFORMER FOR IMAGE SUPER-RESOLUTION

BASED ON THE ABOVE IDEA, WE PROPOSE A NOVEL TRANSFORMER MODEL, DUAL AGGREGATION TRANSFORMER (DAT), FOR IMAGE SR. OUR DAT AGGREGATES FEATURES ACROSS SPATIAL AND CHANNEL DIMENSIONS, IN THE INTER-BLOCK AND INTRA-BLOCK DUAL MANNER.