PYTHON - Datapro Consultancy Services

OXFORDVGG SUBMISSION TO THE EGO4D AV TRANSCRIPTION CHALLENGE

THIS REPORT PRESENTS THE TECHNICAL DETAILS OF OUR SUBMISSION ON THE EGO4D AUDIO-VISUAL (AV) AUTOMATIC SPEECH RECOGNITION CHALLENGE 2023 FROM THE OXFORDVGG TEAM.

SIMPLYRETRIEVE: A PRIVATE AND LIGHTWEIGHT RETRIEVAL-CENTRIC GENERATIVE AI TOOL

LARGE LANGUAGE MODEL (LLM) BASED GENERATIVE AI SYSTEMS HAVE SEEN SIGNIFICANT PROGRESS IN RECENT YEARS.

LIGHTGLUE: LOCAL FEATURE MATCHING AT LIGHT SPEED

WE INTRODUCE LIGHTGLUE, A DEEP NEURAL NETWORK THAT LEARNS TO MATCH LOCAL FEATURES ACROSS IMAGES.

LISA: REASONING SEGMENTATION VIA LARGE LANGUAGE MODEL

IN THIS WORK, WE PROPOSE A NEW SEGMENTATION TASK -- REASONING SEGMENTATION.

UNIVERSAL AND TRANSFERABLE ADVERSARIAL ATTACKS ON ALIGNED LANGUAGE MODELS

SPECIFICALLY, OUR APPROACH FINDS A SUFFIX THAT, WHEN ATTACHED TO A WIDE RANGE OF QUERIES FOR AN LLM TO PRODUCE OBJECTIONABLE CONTENT, AIMS TO MAXIMIZE THE PROBABILITY THAT THE MODEL PRODUCES AN AFFIRMATIVE RESPONSE (RATHER THAN REFUSING TO ANSWER).

SHEPHERD: A CRITIC FOR LANGUAGE MODEL GENERATION

AS LARGE LANGUAGE MODELS IMPROVE, THERE IS INCREASING INTEREST IN TECHNIQUES THAT LEVERAGE THESE MODELS' CAPABILITIES TO REFINE THEIR OWN OUTPUTS.

SHERF: GENERALIZABLE HUMAN NERF FROM A SINGLE IMAGE

TO THIS END, WE PROPOSE A BANK OF 3D-AWARE HIERARCHICAL FEATURES, INCLUDING GLOBAL, POINT-LEVEL, AND PIXEL-ALIGNED FEATURES, TO FACILITATE INFORMATIVE ENCODING.

#INSTAG: INSTRUCTION TAGGING FOR ANALYZING SUPERVISED FINE-TUNING OF LARGE LANGUAGE MODELS

BASED ON THIS OBSERVATION, WE PROPOSE A DATA SELECTOR BASED ON INSTAG TO SELECT 6K DIVERSE AND COMPLEX SAMPLES FROM OPEN-SOURCE DATASETS AND FINE-TUNE MODELS ON INSTAG-SELECTED DATA.

TAMING THE POWER OF DIFFUSION MODELS FOR HIGH-QUALITY VIRTUAL TRY-ON WITH APPEARANCE FLOW

OUR APPROACH, NAMELY DIFFUSION-BASED CONDITIONAL INPAINTING FOR VIRTUAL TRY-ON (DCI-VTON), EFFECTIVELY UTILIZES THE POWER OF THE DIFFUSION MODEL, AND THE INCORPORATION OF THE WARPING MODULE HELPS TO PRODUCE HIGH-QUALITY AND REALISTIC VIRTUAL TRY-ON RESULTS.

ZHONGJING: ENHANCING THE CHINESE MEDICAL CAPABILITIES OF LARGE LANGUAGE MODEL THROUGH EXPERT FEEDBACK AND REAL-WORLD MULTI-TURN DIALOGUE

RECENT ADVANCES IN LARGE LANGUAGE MODELS (LLMS) HAVE ACHIEVED REMARKABLE BREAKTHROUGHS IN UNDERSTANDING AND RESPONDING TO USER INTENTS.

UNIWORLD: AUTONOMOUS DRIVING PRE-TRAINING VIA WORLD MODELS

IN THIS , WE DRAW INSPIRATION FROM ALBERTO ELFES' PIONEERING WORK IN 1989, WHERE HE INTRODUCED THE CONCEPT OF THE OCCUPANCY GRID AS WORLD MODELS FOR ROBOTS.

POLYLM: AN OPEN SOURCE POLYGLOT LARGE LANGUAGE MODEL

LARGE LANGUAGE MODELS (LLMS) DEMONSTRATE REMARKABLE ABILITY TO COMPREHEND, REASON, AND GENERATE FOLLOWING NATURE LANGUAGE INSTRUCTIONS.

LLM AS DBA

DATABASE ADMINISTRATORS (DBAS) PLAY A CRUCIAL ROLE IN MANAGING, MAINTAINING AND OPTIMIZING A DATABASE SYSTEM TO ENSURE DATA AVAILABILITY, PERFORMANCE, AND RELIABILITY.

ANYLOC: TOWARDS UNIVERSAL VISUAL PLACE RECOGNITION

IN THIS WORK, WE DEVELOP A UNIVERSAL SOLUTION TO VPR -- A TECHNIQUE THAT WORKS ACROSS A BROAD RANGE OF STRUCTURED AND UNSTRUCTURED ENVIRONMENTS (URBAN, OUTDOORS, INDOORS, AERIAL, UNDERWATER, AND SUBTERRANEAN ENVIRONMENTS) WITHOUT ANY RE-TRAINING OR FINE-TUNING.

LLAMA 2: OPEN FOUNDATION AND FINE-TUNED CHAT MODELS

IN THIS WORK, WE DEVELOP AND RELEASE LLAMA 2, A COLLECTION OF PRETRAINED AND FINE-TUNED LARGE LANGUAGE MODELS (LLMS) RANGING IN SCALE FROM 7 BILLION TO 70 BILLION PARAMETERS.

PUG: PHOTOREALISTIC AND SEMANTICALLY CONTROLLABLE SYNTHETIC DATA FOR REPRESENTATION LEARNING

SYNTHETIC IMAGE DATASETS OFFER UNMATCHED ADVANTAGES FOR DESIGNING AND EVALUATING DEEP NEURAL NETWORKS: THEY MAKE IT POSSIBLE TO (I) RENDER AS MANY DATA SAMPLES AS NEEDED, (II) PRECISELY CONTROL EACH SCENE AND YIELD GRANULAR GROUND TRUTH LABELS (AND CAPTIONS), (III) PRECISELY CONTROL DISTRIBUTION SHIFTS BETWEEN TRAINING AND TESTING TO ISOLATE VARIABLES OF INTEREST FOR SOUND EXPERIMENTATION.